Anthropic pracuje na pochopení neuronových sítí už dlouhou dobu. Jejich minulá metoda SAE (Sparse Autoencoder) již byla přijata OpenAI a Google, a teď nabízejí nový způsob, jak "rozložit" AI na myšlenky – Circuit Tracing.

🟢 Jak to funguje?

🍒 Vyberou model jazyka z obchodu a vyberou úkol.

😘 Některé komponenty modelu nahradí jednoduchými lineárními modely (Cross-Layer Transcoder).

😘 Tyto nahrazené části trénují tak, aby připomínaly původní model, minimalizují rozdíl ve výstupu.

🍒 Nyní můžete vidět, jak se informace „proudí“ přes všechny vrstvy modelu.

😘 Na základě těchto dat se vytváří přiřazení grafu – ukazuje, které atributy na sebe navzájem působí a tvoří konečnou odpověď.

🟢 Jaké zajímavé věci byly objeveny v mozku Clauda?

🟠 LLM "přemýšlí dopředu." Například, když píše básň, naplánuje zpěvní schéma v předstihu, ještě předtím, než začne nový řádek.

🟠 Matematika není jen o paměti. Ukazuje se, že model ve skutečnosti počítá, nejen vybírá paměťové odpovědi.

🟠 Halucinace mají příčinu. Byl nalezen konkrétní „odpověď je známa“ spouštěč. Pokud bude spuštěn chybně – model začne vymýšlet věci.

🟠 Zajímavost: pokud modelu okamžitě řeknete odpověď na problém, bude přemýšlet zpětně – vyrobí pravděpodobnou cestu k této odpovědi.

  1. #claude #AI