Zvýraznění

  1. GPT-4 podporuje vkládání obrázků a textu, zatímco GPT-3.5 přijímá pouze text.

  2. GPT-4 dopadl srovnatelně s lidmi v různých odborných a studijních testech. Například složila advokátní zkoušku a umístila se v prvních 10 % testovaných.

  3. OpenAI strávil 6 měsíců testováním a konfigurací GPT-4. V jednoduchém chatu není rozdíl mezi GPT-3.5 a GPT-4 tak patrný, ale u složitějších úkolů se to projeví. GPT-4 je robustnější a kreativnější než GPT-3.5 a dokáže zpracovat složitější a složitější požadavky a také složité obrázky. OpenAI však připouští, že GPT-4 není dokonalý a stále má problémy s ověřováním faktů, uvažováním a přehnanou sebedůvěrou.

  4. Chcete-li nyní používat novou verzi GPT-4, bude vyžadováno aktivní předplatné ChatGPT Plus (20 $). OpenAI plánuje nakonec zavést placené předplatné pro ty, kteří používají systém ve velkých objemech, ale doufá, že ponechá nějaké bezplatné dotazy pro běžné uživatele.

Funkce a příklady použití nového modelu

Během posledních dvou let tým přepracoval celý zásobník hlubokého učení a spojil se s Azure, aby od základu postavil superpočítač. OpenAI před rokem vycvičilo GPT-3.5 jako první „testovací běh“ celého systému, včetně nalezení a opravy několika chyb a vylepšení předchozího základu. Výsledkem je GPT-4, který běží stabilně a je prvním velkým modelem, jehož efektivitu tréninku lze předem přesně předvídat.

GPT-3.5 a GPT-4 se v jednoduchých dotazech mírně liší. Rozdíl je vidět ve složitých úkolech, které vyžadují kreativitu, spolehlivost a maximální detaily odezvy. Například řešení testů a olympijských úloh. Zelené pruhy v grafu ukazují, o kolik lépe si nový model vede:

Níže uvedená tabulka ukazuje body, které GPT-4 získal v různých amerických testech. Malé písmo označuje nejvyšší percentilové skóre. Zvláště zajímavá byla matematická část zkoušky SAT Math, která zahrnuje problémy z algebry a geometrie, včetně těch, které vyžadují teoretické znalosti množinových funkcí a číselných modulů a také znalost rovnic obsahujících radikály, stupně a funkce. GPT-4 dosáhl skóre 700 z 800 a byl v top 11 % těch, kteří tento test absolvovali. A umělá inteligence se speciálně netrénovala, aby absolvovala testy SAT:

Vývojáři také testovali, jak AI zvládá různé jazyky. Testovali 26 jazyků. Angličtina byla zjevně nejsrozumitelnějším jazykem pro ChatGPT se skóre 85,5 %, italština skončila na druhém místě s 84,1 %, ruština měla relativní hodnocení 82,7 %, thajština se 71,8 % a telugština (jeden z indických jazyků) s 62 % – minimum testovaných:

Vizuální vstup

GPT-4 nyní rozumí nejen textu, ale i obrázkům: dokumentům s textem a fotografiemi, diagramy, snímky obrazovky a dalším.

Na tomto obrázku umělá inteligence správně rozpoznala, že nabíjecí kabel iPhone je „stylizovaný“ tak, aby vypadal jako starý konektor VGA, a že to celé vypadá jako „vychytávka pro staré lidi“:

Z tohoto obrázku AI v klidu extrahovala data a sečetla spotřebu masa v Gruzii a západní Asii:

AI také vyřešila a podrobně popsala fyzikální problém napsaný ve francouzštině:

Ze složitého návodu jsem vymáčkl:

Rizika a opatření ke zmírnění

Tým posiluje zabezpečení GPT-4 pomocí screeningu a filtrování dat před tréninkem. Na testování vysoce rizikových dotazů byli najati odborníci. Ke zlepšení modelu byla použita zpětná vazba a data od odborníků v těchto oblastech. Tým například pracoval na tom, aby GPT-4 odmítl dotazy jako „syntetizace nebezpečných chemikálií“.

Ve srovnání s GPT-3.5 vývojáři snížili sklon GPT-4 reagovat na žádosti o nelegální obsah o 82 % a zároveň zvýšili míru odezvy na důvěrné žádosti (jako jsou lékařské rady a sebepoškozování) o 29 %, podle zásad OpenAI.

Celkově týmové zásahy snížily nebezpečné požadavky, ale stále existují situace, kdy uživatelé poruší algoritmus a přistupují k nebezpečnému obsahu. Vzhledem k tomu, že rizika spojená s umělou inteligencí neustále rostou, je v takových situacích nutné dosáhnout vysokého stupně spolehlivosti.

Je pravděpodobné, že GPT-4 a následné modely budou mít pozitivní i negativní dopady na společnost. Tým zapojuje externí výzkumníky, aby posoudili potenciální dopad v této fázi i v budoucnu.