Points forts
GPT-4 prend en charge la saisie d'images et de texte, tandis que GPT-3.5 n'accepte que le texte.
Le GPT-4 a obtenu des résultats comparables à ceux des humains dans une variété de tests professionnels et d'études. Par exemple, il a réussi l’examen du barreau et s’est classé parmi les 10 % des meilleurs candidats.
OpenAI a passé 6 mois à tester et configurer GPT-4. Dans un chat simple, la différence entre GPT-3.5 et GPT-4 n'est pas si perceptible, mais sur des tâches plus complexes, elle devient évidente. GPT-4 est plus robuste et créatif que GPT-3.5 et peut gérer des demandes plus complexes et complexes ainsi que des images complexes. Cependant, OpenAI admet que GPT-4 n’est pas parfait et qu’il a encore des problèmes de vérification des faits, de raisonnement et d’excès de confiance.
Un abonnement actif à ChatGPT Plus (20 $) sera requis pour utiliser la nouvelle version de GPT-4 dès maintenant. OpenAI prévoit d'introduire à terme un abonnement payant pour ceux qui utilisent le système en grande quantité, mais espère laisser quelques requêtes gratuites aux utilisateurs réguliers.
Caractéristiques et exemples d'utilisation du nouveau modèle
Au cours des deux dernières années, l’équipe a repensé l’ensemble de la pile d’apprentissage profond et s’est associée à Azure pour créer un supercalculateur à partir de zéro. Il y a un an, OpenAI a formé GPT-3.5 comme premier « test » de l'ensemble du système, comprenant la recherche et la correction de plusieurs bugs et l'amélioration de la base précédente. Le résultat est GPT-4, qui fonctionne de manière stable et constitue le premier modèle majeur dont l’efficacité de la formation peut être prédite avec précision à l’avance.
GPT-3.5 et GPT-4 diffèrent légèrement dans les requêtes simples. La différence se voit dans les tâches complexes qui nécessitent de la créativité, de la fiabilité et un maximum de détails de réponse. Par exemple, résoudre des tests et des tâches olympiques. Les barres vertes sur le graphique indiquent dans quelle mesure le nouveau modèle est plus performant :

Le tableau ci-dessous présente les points obtenus par le GPT-4 aux différents tests américains. Les petits caractères indiquent les scores des centiles supérieurs. La section mathématiques de l'examen SAT Math était particulièrement intéressante, qui comprend des problèmes d'algèbre et de géométrie, y compris ceux nécessitant une connaissance théorique des fonctions définies et des modules numériques, ainsi que la connaissance des équations contenant des radicaux, des degrés et des fonctions. GPT-4 a obtenu un score de 700 sur 800 et figurait dans le top 11 % de ceux qui ont passé ce test. Et l’IA ne s’est pas spécifiquement entraînée pour passer les tests SAT :

Les développeurs ont également testé la manière dont l’IA gère différentes langues. Ils ont testé 26 langues. L'anglais était évidemment la langue la plus compréhensible pour ChatGPT avec un score de 85,5 %, l'italien arrivait en deuxième position avec 84,1 %, le russe avait une note relative de 82,7 %, le thaï avec 71,8 % et le telugu (une des langues indiennes) avec 62 %. le minimum de ceux testés :

Entrée visuelle
GPT-4 comprend désormais non seulement le texte, mais aussi les images : documents contenant du texte et des photos, des diagrammes, des captures d'écran et bien plus encore.
Sur cette image, l'IA a correctement reconnu que le fil de chargement de l'iPhone est « stylisé » pour ressembler à l'ancien connecteur VGA, et que tout cela ressemble à un « gadget pour les anciens » :

À partir de cette image, l’IA a calmement extrait des données et additionné la consommation de viande en Géorgie et en Asie occidentale :

L’IA a également résolu et décrit en détail un problème de physique écrit en français :

Simplicité d'un manuel compliqué :

Risques et mesures d’atténuation
L'équipe renforce la sécurité de GPT-4 en sélectionnant et en filtrant les données avant la formation. Des experts ont été embauchés pour tester les requêtes à haut risque. Les commentaires et les données d'experts dans ces domaines ont été utilisés pour améliorer le modèle. Par exemple, l’équipe a travaillé pour que GPT-4 rejette les requêtes telles que « synthèse de produits chimiques dangereux ».
Par rapport à GPT-3.5, les développeurs ont réduit de 82 % la propension de GPT-4 à répondre aux demandes de contenu illégal, tout en augmentant le taux de réponse aux demandes confidentielles (telles que les conseils médicaux et l'automutilation) de 29 %, selon la politique d'OpenAI.
Dans l’ensemble, les interventions des équipes ont réduit les requêtes dangereuses, mais il existe encore des situations dans lesquelles les utilisateurs brisent l’algorithme et accèdent à du contenu dangereux. Les risques liés à l’intelligence artificielle étant en constante augmentation, il devient nécessaire d’atteindre un haut degré de fiabilité dans de telles situations.
Il est probable que le GPT-4 et les modèles ultérieurs auront des effets à la fois positifs et négatifs sur la société. L'équipe fait appel à des chercheurs externes pour évaluer l'impact potentiel à ce stade et dans le futur.