Anthropic pracuje na pochopení neuronových sítí už dlouhou dobu. Jejich minulá metoda SAE (Sparse Autoencoder) již byla přijata OpenAI a Google, a teď nabízejí nový způsob, jak "rozložit" AI na myšlenky – Circuit Tracing.
🟢 Jak to funguje?
🍒 Vyberou model jazyka z obchodu a vyberou úkol.
😘 Některé komponenty modelu nahradí jednoduchými lineárními modely (Cross-Layer Transcoder).
😘 Tyto nahrazené části trénují tak, aby připomínaly původní model, minimalizují rozdíl ve výstupu.
🍒 Nyní můžete vidět, jak se informace „proudí“ přes všechny vrstvy modelu.
😘 Na základě těchto dat se vytváří přiřazení grafu – ukazuje, které atributy na sebe navzájem působí a tvoří konečnou odpověď.
🟢 Jaké zajímavé věci byly objeveny v mozku Clauda?
🟠 LLM "přemýšlí dopředu." Například, když píše básň, naplánuje zpěvní schéma v předstihu, ještě předtím, než začne nový řádek.
🟠 Matematika není jen o paměti. Ukazuje se, že model ve skutečnosti počítá, nejen vybírá paměťové odpovědi.
🟠 Halucinace mají příčinu. Byl nalezen konkrétní „odpověď je známa“ spouštěč. Pokud bude spuštěn chybně – model začne vymýšlet věci.
🟠 Zajímavost: pokud modelu okamžitě řeknete odpověď na problém, bude přemýšlet zpětně – vyrobí pravděpodobnou cestu k této odpovědi.