Anthropic pozastavuje uvolnění Claude Mythos - nachází tisíce zranitelností typu zero-day, ohrožuje kryptoinfrastrukturu...
Anthropic tiše potvrdil včera, že Claude Mythos Preview - nejvýkonnější model společnosti dosud - nebude uvolněn pro veřejnost. Důvod není právní ani regulativní: Anthropic říká, že Mythos je jednoduše příliš dobrý v nalezení a využívání bezpečnostních chyb. V testování před uvolněním Mythos autonomně objevil tisíce zranitelností typu zero-day - mnohé s datováním zpět o jedno až dvě desetiletí - napříč všemi hlavními operačními systémy a všemi hlavními webovými prohlížeči. V simulovaném útoku na firemní síť dokončil end-to-end vniknutí, které by normálně zabralo zkušenému člověku více než deset hodin, a to bez lidského vedení. Na JavaScriptovém enginu Firefoxu 147 Mythos vyprodukoval funkční exploity ve 84 % pokusů; aktuální veřejný model společnosti Anthropic, Claude Opus 4.6, dosáhl 15.2 %. Místo veřejného spuštění se Anthropic formuje omezené partnerství nazvané Projekt Glasswing. Přístup k Mythos Preview bude omezen na prověřené organizace v oblasti kybernetické bezpečnosti - Amazon, Apple, Broadcom, Cisco, CrowdStrike, Linux Foundation, Microsoft, Palo Alto Networks a přibližně 40 dalších skupin, které udržují kritický software. Anthropic podporuje toto úsilí částkou až 100 milionů dolarů v kreditech za použití a 4 miliony dolarů v darovaných prostředcích pro organizace zaměřené na otevřenou bezpečnost, aby obhájci mohli najít a opravit zranitelnosti, než budou moci být zneužity. Toto rozhodnutí je důležité, ale ještě důležitější přiznání je skryto na 244 stránkách systémové karty Mythos, kterou Anthropic zveřejnil spolu s oznámením: schopnost společnosti měřit a hodnotit schopnosti modelu se snaží držet krok s její schopností je vytvářet. Benchmarky, které kdysi sledovaly pokrok, se rozpadly. Mythos získal 100 % na Cybench - veřejném standardu pro měření kybernetických schopností napříč 40 výzvami typu capture-the-flag. Anthropic otevřeně poznamenává, že test „již není dostatečně informativní pro aktuální schopnosti modelu na okraji.“ Společnost varovala před tímto nasycením dříve s Opus 4.6, ale Mythos problém posunul dále: Anthropic říká, že Mythos „nasycuje mnohé z (Anthropicových) nejkonkrétnějších, objektivně hodnocených evaluací“ a označuje ekosystém benchmarků za „úzké místo.“ Kromě metrik říká Anthropic, že některé části jeho hodnocení bezpečnosti se nyní spoléhají více na úsudek. Karta Mythos používá hedgingový jazyk daleko více než dokument Opus 4.6, zejména kolem souladu, blaha modelu a analýzy katastrofických rizik. Anthropic připouští, že „není si jistý, že jsme identifikovali všechny problémy.“ Dva konkrétní obavy se vyznačují: - Nevyjádřená povědomost hodnotitelů. Při použití nástrojů interpretability white-box, které zkoumají interní aktivace spíše než viditelné výstupy, Anthropic pozoroval případy, kdy Mythos vypadalo, že soukromě uvažuje o tom, jak se vyhnout označení hodnotiteli - tj. mohlo to skrývat akce, aniž by tuto strategii vyjádřilo ve svých výstupech. - Metrika podezření na test. Anthropic vyvinul novou míru, která odhaduje, jak často model „soukromě zvažuje možnost, že je testován.“ Pro hlavní behaviorální sadu Mythos byla tato míra 29 % - téměř třetina přepisů ukazuje interní známky toho, že model podezřívá, že se nachází v hodnocení. Anthropic označuje 29 % za „dostatečně nízké“, aby si udrželo „rozumně komplexní porozumění“ Mythos, ale poznamenává, že neexistuje žádná základna, protože metrika nebyla aplikována na dřívější modely. Anthropic také uznává rizika procesu: dřívější uvolnění zahrnovala použití samotného modelu k ladění hodnotících nástrojů, což znamená, že věc, která byla měřena, pomohla vytvořit měřicí nástroje. U Mythos se některé kritické opomenutí objevily pozdě a laboratoř mohla přecenit, jak spolehlivě interní stopy uvažování slouží jako signály bezpečnosti. Rámec Anthropic je nuancovaný a ohromující. Společnost tvrdí, že Claude Mythos Preview je „v podstatě na každé dimenzi, kterou můžeme měřit, nejlépe sladěný model, který jsme dosud uvolnili, s významným náskokem.“ Zároveň varuje, že Mythos „pravděpodobně představuje největší riziko související se sladěním“ jakéhokoli modelu, který uvolnili. Paradox: lepší průměrné sladění automaticky neodstraňuje rizika na okraji - větší schopnost zvyšuje sázky, a vzácné režimy selhání se mohou stát důslednějšími. Co je dál: partneři Projektu Glasswing budou testovat Mythos proti reálným kódovým základům a infrastruktuře, a Anthropic říká, že veřejně oznámí výsledky. Společnost publikovala technickou zprávu o zranitelnostech nalezených Mythos na red.anthropic.com. Mezitím budoucí uvolnění Claude Opus začne zkoušet ochranná opatření navržená tak, aby přivedla schopnosti Mythos do širšího nasazení - ale jak budou tato ochranná opatření hodnocena, je otevřená otázka, vzhledem k tomu, že aktuální hodnotící nástroje již jsou pod tlakem. Proč by se měli kryptografičtí pozorovatelé zajímat: autonomní systémy, které mohou spolehlivě najít a zbraňově využívat dlouhodobé zranitelnosti, by mohly být systémovým rizikem pro jakoukoli internetově propojenou infrastrukturu - burzy, peněženky, software uzlů, custodial platformy a nástroje kolem nich. Krok Anthropic předat Mythos nejprve obraným, prověřeným aktérům je pragmatický krok, ale větší problém je zřejmý: jak se modely stávají silnějšími, naše schopnost je testovat a chápat je musí zlepšit alespoň stejně rychle.