Repere

  1. GPT-4 acceptă introducerea de imagini și text, în timp ce GPT-3.5 acceptă doar text.

  2. GPT-4 a avut rezultate comparabile cu oamenii într-o varietate de teste profesionale și de studiu. De exemplu, a trecut examenul baroului, plasându-se în top 10% dintre cei care au luat la testare.

  3. OpenAI a petrecut 6 luni testând și configurând GPT-4. Într-un chat simplu, diferența dintre GPT-3.5 și GPT-4 nu este atât de vizibilă, dar la sarcini mai complexe devine evidentă. GPT-4 este mai robust și mai creativ decât GPT-3.5 și poate gestiona solicitări mai complexe și mai complicate, precum și imagini complexe. Cu toate acestea, OpenAI admite că GPT-4 nu este perfect și încă are probleme cu verificarea faptelor, raționament și exces de încredere.

  4. Va fi necesar un abonament activ la ChatGPT Plus (20 USD) pentru a utiliza noua versiune a GPT-4 acum. OpenAI intenționează să introducă în cele din urmă un abonament plătit pentru cei care folosesc sistemul în volume mari, dar speră să lase câteva interogări gratuite pentru utilizatorii obișnuiți.

Caracteristici și exemple de utilizare a noului model

În ultimii doi ani, echipa a reproiectat întreaga stivă de deep learning și a colaborat cu Azure pentru a construi un supercomputer de la zero. În urmă cu un an, OpenAI a antrenat GPT-3.5 ca prima „testare” a întregului sistem, inclusiv găsirea și remedierea mai multor erori și îmbunătățirea bazei anterioare. Rezultatul este GPT-4, care funcționează stabil și este primul model major a cărui eficiență a antrenamentului poate fi prezisă cu precizie în avans.

GPT-3.5 și GPT-4 diferă ușor în interogările simple. Diferența se vede în sarcinile complexe care necesită creativitate, fiabilitate și detalii maxime de răspuns. De exemplu, rezolvarea de teste și sarcini olimpice. Barele verzi de pe grafic indică cât de mai bune performează noul model:

Tabelul de mai jos arată punctele obținute de GPT-4 la diferitele teste americane. Literele mici indică scorurile percentilei superioare. De un interes deosebit a fost secțiunea de matematică a examenului SAT de matematică, care include probleme de algebră și geometrie, inclusiv cele care necesită cunoștințe teoretice ale funcțiilor seturilor și modulului numeric, precum și cunoașterea ecuațiilor care conțin radicali, grade și funcții. GPT-4 a obținut 700 din 800 și a fost în top 11% dintre cei care au luat acest test. Și AI nu s-a antrenat în mod special pentru a susține testele SAT:

Dezvoltatorii au testat, de asemenea, modul în care AI gestionează diferite limbi. Au testat 26 de limbi. Engleza a fost, evident, limba cea mai de înțeles pentru ChatGPT, cu un scor de 85,5%, italiană a fost pe locul al doilea cu 84,1%, rusă a avut un rating relativ de 82,7%, thailandeză cu 71,8% și telugu (una dintre limbile indiene) cu 62% - minimul dintre cei testati:

Intrare vizuală

GPT-4 înțelege acum nu numai text, ci și imagini: documente cu text și fotografii, diagrame, capturi de ecran și multe altele.

În această imagine, AI a recunoscut corect că firul de încărcare al iPhone-ului este „stilizat” pentru a arăta ca vechiul conector VGA și că totul arată ca un „chic pentru bătrâni”:

Din această imagine, AI a extras cu calm date și a adăugat consumul de carne din Georgia și Asia de Vest:

De asemenea, AI a rezolvat și a descris în detaliu o problemă de fizică scrisă în limba franceză:

A făcut o comprimare dintr-un manual complicat:

Riscuri și măsuri de atenuare

Echipa consolidează securitatea GPT-4 prin screening-ul și filtrarea datelor înainte de antrenament. Au fost angajați experți pentru a testa interogările cu risc ridicat. Feedback-ul și datele experților din aceste domenii au fost folosite pentru a îmbunătăți modelul. De exemplu, echipa a lucrat pentru ca GPT-4 să respingă interogări precum „sintetizarea substanțelor chimice periculoase”.

În comparație cu GPT-3.5, dezvoltatorii au redus tendința GPT-4 de a răspunde la solicitările de conținut ilegal cu 82%, în timp ce au crescut rata de răspuns la solicitările confidențiale (cum ar fi sfatul medical și autovătămarea) cu 29%, conform politicii OpenAI.

Per total, intervențiile echipei au redus solicitările periculoase, dar există încă situații în care utilizatorii încalcă algoritmul și accesează conținut periculos. Întrucât riscurile asociate cu inteligența artificială sunt în continuă creștere, devine necesară atingerea unui grad ridicat de fiabilitate în astfel de situații.

Este probabil ca GPT-4 și modelele ulterioare să aibă atât efecte pozitive, cât și negative asupra societății. Echipa angajează cercetători externi pentru a evalua impactul potențial în această etapă și în viitor.