Punti salienti
GPT-4 supporta l'immissione di immagini e testo, mentre GPT-3.5 accetta solo testo.
Il GPT-4 ha ottenuto risultati paragonabili a quelli umani in una serie di test professionali e di studio. Ad esempio, ha superato l'esame di abilitazione, collocandosi nel 10% dei migliori partecipanti al test.
OpenAI ha trascorso 6 mesi testando e configurando GPT-4. Nella chat semplice la differenza tra GPT-3.5 e GPT-4 non è così evidente, ma diventa evidente nelle attività più complesse. GPT-4 è più robusto e creativo di GPT-3.5 e può gestire richieste più complesse e intricate, nonché immagini complesse. Tuttavia, OpenAI ammette che GPT-4 non è perfetto e presenta ancora problemi con il controllo dei fatti, il ragionamento e l'eccessiva sicurezza.
Per utilizzare subito la nuova versione di GPT-4 sarà necessario un abbonamento attivo a ChatGPT Plus ($ 20). OpenAI prevede di introdurre eventualmente un abbonamento a pagamento per coloro che utilizzano il sistema in grandi volumi, ma spera di lasciare alcune query gratuite per gli utenti regolari.
Caratteristiche ed esempi di utilizzo del nuovo modello
Negli ultimi due anni, il team ha riprogettato l’intero stack di deep learning e ha collaborato con Azure per costruire un supercomputer da zero. Un anno fa, OpenAI ha addestrato GPT-3.5 come primo "test run" dell'intero sistema, inclusa la ricerca e la correzione di diversi bug e il miglioramento della base precedente. Il risultato è GPT-4, che funziona in modo stabile ed è il primo modello importante la cui efficacia di addestramento può essere prevista con precisione in anticipo.
GPT-3.5 e GPT-4 differiscono leggermente nelle query semplici. La differenza si vede nei compiti complessi che richiedono creatività, affidabilità e il massimo dettaglio di risposta. Ad esempio, risolvendo test e compiti olimpici. Le barre verdi sul grafico indicano quanto sono migliorate le prestazioni del nuovo modello:

Nella tabella seguente sono riportati i punti ottenuti dal GPT-4 nei vari test americani. Le scritte in piccolo indicano i punteggi percentili più alti. Di particolare interesse è stata la sezione di matematica dell'esame SAT di matematica, che comprende problemi di algebra e geometria, compresi quelli che richiedono conoscenze teoriche di funzioni insiemiali e moduli numerici, nonché conoscenza di equazioni contenenti radicali, gradi e funzioni. GPT-4 ha ottenuto un punteggio di 700 su 800 ed è stato tra i primi 11% di coloro che hanno partecipato a questo test. E l'IA non si è addestrata specificamente per sostenere i test SAT:

Gli sviluppatori hanno anche testato il modo in cui l'intelligenza artificiale gestisce le diverse lingue. Hanno testato 26 lingue. L'inglese è stata ovviamente la lingua più comprensibile per ChatGPT con un punteggio dell'85,5%, l'italiano è arrivato secondo con l'84,1%, il russo ha avuto una valutazione relativa dell'82,7%, il tailandese con il 71,8% e il telugu (una delle lingue indiane) con il 62% - il minimo di quelli testati:

Ingresso visivo
GPT-4 ora comprende non solo il testo, ma anche le immagini: documenti con testo e foto, diagrammi, schermate e altro ancora.
In questa immagine, l'intelligenza artificiale ha riconosciuto correttamente che il cavo di ricarica dell'iPhone è "stilizzato" per assomigliare al vecchio connettore VGA e che sembra tutto un "espediente per i vecchi":

Da questa immagine, l’intelligenza artificiale ha estratto con calma i dati e ha sommato il consumo di carne in Georgia e nell’Asia occidentale:

L'intelligenza artificiale ha anche risolto e descritto in dettaglio un problema di fisica scritto in francese:

Ho estratto un manuale complicato:

Rischi e misure di mitigazione
Il team sta rafforzando la sicurezza di GPT-4 attraverso lo screening e il filtraggio dei dati prima della formazione. Sono stati assunti esperti per testare le query ad alto rischio. Feedback e dati provenienti da esperti in queste aree sono stati utilizzati per migliorare il modello. Ad esempio, il team ha lavorato affinché GPT-4 rifiutasse query come "sintesi di sostanze chimiche pericolose".
Rispetto a GPT-3.5, gli sviluppatori hanno ridotto dell'82% la propensione di GPT-4 a rispondere alle richieste di contenuti illegali, aumentando al contempo il tasso di risposta alle richieste riservate (come consulenza medica e autolesionismo) del 29%, secondo la politica di OpenAI.
Nel complesso, gli interventi del team hanno ridotto le richieste pericolose, ma ci sono ancora situazioni in cui gli utenti violano l’algoritmo e accedono a contenuti pericolosi. Poiché i rischi legati all’intelligenza artificiale sono in costante aumento, in tali situazioni diventa necessario raggiungere un elevato grado di affidabilità.
È probabile che GPT-4 e i modelli successivi avranno effetti sia positivi che negativi sulla società. Il team sta coinvolgendo ricercatori esterni per valutare il potenziale impatto in questa fase e in futuro.