Highlight
GPT-4 mendukung input gambar dan teks, sedangkan GPT-3.5 hanya menerima teks.
GPT-4 memiliki kinerja yang sebanding dengan manusia dalam berbagai tes profesional dan studi. Misalnya, ia lulus ujian pengacara, dan menempati posisi 10% teratas dalam peserta tes.
OpenAI menghabiskan 6 bulan untuk menguji dan mengonfigurasi GPT-4. Dalam obrolan sederhana perbedaan antara GPT-3.5 dan GPT-4 tidak begitu terlihat, namun pada tugas yang lebih kompleks perbedaan tersebut menjadi jelas. GPT-4 lebih tangguh dan kreatif dibandingkan GPT-3.5, serta dapat menangani permintaan yang lebih kompleks dan rumit serta gambar yang kompleks. Namun, OpenAI mengakui bahwa GPT-4 belum sempurna, dan masih memiliki masalah dalam pengecekan fakta, penalaran, dan terlalu percaya diri.
Langganan aktif ke ChatGPT Plus ($20) diperlukan untuk menggunakan versi baru GPT-4 sekarang. OpenAI berencana untuk memperkenalkan langganan berbayar bagi mereka yang menggunakan sistem dalam jumlah besar, tetapi berharap dapat memberikan beberapa pertanyaan gratis untuk pengguna biasa.
Fitur dan contoh cara menggunakan model baru
Selama dua tahun terakhir, tim telah mendesain ulang seluruh tumpukan pembelajaran mendalam dan bermitra dengan Azure untuk membangun superkomputer dari awal. Setahun yang lalu, OpenAI melatih GPT-3.5 sebagai "uji coba" pertama dari keseluruhan sistem, termasuk menemukan dan memperbaiki beberapa bug serta meningkatkan basis sebelumnya. Hasilnya adalah GPT-4, yang berjalan stabil dan merupakan model besar pertama yang efektivitas pelatihannya dapat diprediksi secara akurat sebelumnya.
GPT-3.5 dan GPT-4 sedikit berbeda dalam kueri sederhana. Perbedaannya terlihat pada tugas-tugas kompleks yang membutuhkan kreativitas, keandalan, dan detail respons yang maksimal. Misalnya menyelesaikan ulangan dan tugas olimpiade. Bilah hijau pada grafik menunjukkan seberapa baik kinerja model baru:

Tabel di bawah ini menunjukkan poin yang diperoleh GPT-4 dalam berbagai tes di Amerika. Cetakan kecil menunjukkan skor persentil teratas. Yang menarik adalah bagian matematika dari ujian SAT Matematika, yang mencakup soal-soal aljabar dan geometri, termasuk soal-soal yang memerlukan pengetahuan teoretis tentang fungsi himpunan dan modulus bilangan, serta pengetahuan tentang persamaan yang mengandung akar, derajat, dan fungsi. GPT-4 mendapat skor 700 dari 800 dan termasuk dalam 11% teratas yang mengikuti tes ini. Dan AI tidak berlatih secara khusus untuk mengikuti tes SAT:

Pengembang juga menguji bagaimana AI menangani berbagai bahasa. Mereka menguji 26 bahasa. Bahasa Inggris jelas merupakan bahasa yang paling mudah dipahami untuk ChatGPT dengan skor 85,5%, bahasa Italia berada di urutan kedua dengan 84,1%, bahasa Rusia memiliki peringkat relatif 82,7%, bahasa Thailand dengan 71,8%, dan Telugu (salah satu bahasa India) dengan 62% - minimal yang diuji:

masukan visual
GPT-4 kini tidak hanya memahami teks, tetapi juga gambar: dokumen dengan teks dan foto, diagram, tangkapan layar, dan banyak lagi.
Dalam gambar ini, AI dengan tepat mengenali bahwa kabel pengisi daya iPhone "didesain" agar terlihat seperti konektor VGA lama, dan semuanya tampak seperti "tipu muslihat untuk yang lama":

Dari gambaran ini, AI dengan tenang mengekstraksi data dan menjumlahkan konsumsi daging di Georgia dan Asia Barat:

AI juga memecahkan dan menjelaskan secara rinci masalah fisika yang ditulis dalam bahasa Perancis:

Membuat petunjuk dari manual yang rumit:

Risiko dan langkah-langkah mitigasi
Tim memperkuat keamanan GPT-4 melalui penyaringan dan penyaringan data sebelum pelatihan. Para ahli direkrut untuk menguji pertanyaan berisiko tinggi. Masukan dan data dari para ahli di bidang ini digunakan untuk menyempurnakan model ini. Misalnya, tim berupaya agar GPT-4 menolak pertanyaan seperti "mensintesis bahan kimia berbahaya".
Dibandingkan dengan GPT-3.5, pengembang mengurangi kecenderungan GPT-4 dalam menanggapi permintaan konten ilegal sebesar 82%, sekaligus meningkatkan tingkat respons terhadap permintaan rahasia (seperti nasihat medis dan tindakan menyakiti diri sendiri) sebesar 29%, menurut kebijakan OpenAI.
Secara keseluruhan, intervensi tim telah mengurangi permintaan berbahaya, namun masih ada situasi di mana pengguna melanggar algoritme dan mengakses konten berbahaya. Karena risiko yang terkait dengan kecerdasan buatan terus meningkat, maka tingkat keandalan yang tinggi perlu dicapai dalam situasi seperti itu.
Kemungkinan besar GPT-4 dan model selanjutnya akan mempunyai dampak positif dan negatif terhadap masyarakat. Tim ini melibatkan peneliti luar untuk menilai potensi dampak pada tahap ini dan di masa depan.