Highlights
GPT-4 unterstützt Bild- und Texteingabe, während GPT-3.5 nur Text akzeptiert.
Der GPT-4 hat in einer Reihe von Berufs- und Studientests vergleichbare Ergebnisse wie Menschen erzielt. So hat er beispielsweise die Anwaltsprüfung bestanden und gehörte zu den besten 10 % der Testteilnehmer.
OpenAI hat 6 Monate damit verbracht, GPT-4 zu testen und zu konfigurieren. Im einfachen Chat ist der Unterschied zwischen GPT-3.5 und GPT-4 nicht so deutlich, aber bei komplexeren Aufgaben wird er deutlich. GPT-4 ist robuster und kreativer als GPT-3.5 und kann komplexere und kompliziertere Anfragen sowie komplexe Bilder verarbeiten. OpenAI gibt jedoch zu, dass GPT-4 nicht perfekt ist und immer noch Probleme mit der Faktenprüfung, Argumentation und Selbstüberschätzung hat.
Um die neue Version von GPT-4 nutzen zu können, ist jetzt ein aktives Abonnement von ChatGPT Plus (20 $) erforderlich. OpenAI plant, irgendwann ein kostenpflichtiges Abonnement für diejenigen einzuführen, die das System in großem Umfang nutzen, hofft aber, dass für normale Benutzer einige kostenlose Abfragen verfügbar bleiben.
Funktionen und Anwendungsbeispiele des neuen Modells
In den letzten zwei Jahren hat das Team den gesamten Deep-Learning-Stack neu gestaltet und in Zusammenarbeit mit Azure einen Supercomputer von Grund auf neu aufgebaut. Vor einem Jahr trainierte OpenAI GPT-3.5 als ersten „Testlauf“ des gesamten Systems, einschließlich der Suche und Behebung mehrerer Fehler sowie der Verbesserung der vorherigen Basis. Das Ergebnis ist GPT-4, das stabil läuft und das erste große Modell ist, dessen Trainingseffektivität im Voraus genau vorhergesagt werden kann.
GPT-3.5 und GPT-4 unterscheiden sich geringfügig bei einfachen Abfragen. Der Unterschied zeigt sich bei komplexen Aufgaben, die Kreativität, Zuverlässigkeit und maximale Antwortdetails erfordern. Zum Beispiel beim Lösen von Tests und olympischen Aufgaben. Die grünen Balken im Diagramm zeigen an, wie viel besser das neue Modell abschneidet:

Die folgende Tabelle zeigt die Punkte, die GPT-4 in den verschiedenen amerikanischen Tests erreichte. Das Kleingedruckte gibt die besten Perzentilwerte an. Besonders interessant war der Mathematikteil der SAT-Mathematikprüfung, der Aufgaben aus Algebra und Geometrie enthält, darunter solche, die theoretische Kenntnisse über Mengenfunktionen und Zahlenmodulo sowie Kenntnisse über Gleichungen mit Wurzeln, Graden und Funktionen erfordern. GPT-4 erreichte 700 von 800 Punkten und gehörte zu den besten 11 % der Teilnehmer dieses Tests. Und die KI wurde nicht speziell für die Teilnahme an den SAT-Tests trainiert:

Die Entwickler testeten auch, wie die KI mit verschiedenen Sprachen umgeht. Sie testeten 26 Sprachen. Englisch war für ChatGPT mit einer Punktzahl von 85,5 % offensichtlich die verständlichste Sprache, Italienisch kam mit 84,1 % auf den zweiten Platz, Russisch hatte eine relative Bewertung von 82,7 %, Thailändisch mit 71,8 % und Telugu (eine der indischen Sprachen) mit 62 % – dem Minimum der getesteten Sprachen:

Visuelle Eingabe
GPT-4 versteht jetzt nicht nur Text, sondern auch Bilder: Dokumente mit Text und Fotos, Diagramme, Screenshots und mehr.
In diesem Bild hat die KI richtig erkannt, dass das Ladekabel des iPhones so „stilisiert“ ist, dass es wie der alte VGA-Anschluss aussieht, und dass das Ganze wie ein „Gimmick für die Oldies“ aussieht:

Aus diesem Bild extrahierte die KI in aller Ruhe Daten und addierte den Fleischkonsum in Georgien und Westasien:

Die KI löste außerdem ein auf Französisch verfasstes Physikproblem und beschrieb es ausführlich:

Aus einem komplizierten Handbuch einen Auszug gemacht:

Risiken und Minderungsmaßnahmen
Das Team stärkt die Sicherheit von GPT-4, indem es die Daten vor dem Training prüft und filtert. Experten wurden beauftragt, risikoreiche Abfragen zu testen. Feedback und Daten von Experten in diesen Bereichen wurden verwendet, um das Modell zu verbessern. Beispielsweise arbeitete das Team daran, dass GPT-4 Abfragen wie „Synthese gefährlicher Chemikalien“ ablehnt.
Im Vergleich zu GPT-3.5 haben die Entwickler die Neigung von GPT-4, auf Anfragen nach illegalen Inhalten zu antworten, um 82 % reduziert und gleichzeitig die Antwortrate auf vertrauliche Anfragen (wie etwa medizinische Ratschläge und Selbstverletzung) um 29 % erhöht, gemäß der OpenAI-Richtlinie.
Insgesamt haben die Eingriffe des Teams gefährliche Anfragen reduziert, aber es gibt immer noch Situationen, in denen Benutzer den Algorithmus durchbrechen und auf gefährliche Inhalte zugreifen. Da die mit künstlicher Intelligenz verbundenen Risiken ständig zunehmen, wird es notwendig, in solchen Situationen ein hohes Maß an Zuverlässigkeit zu erreichen.
Es ist wahrscheinlich, dass GPT-4 und nachfolgende Modelle sowohl positive als auch negative Auswirkungen auf die Gesellschaft haben werden. Das Team beauftragt externe Forscher, die möglichen Auswirkungen in dieser Phase und in der Zukunft zu bewerten.