Hanya beberapa hari setelah OpenAI mengumumkan versi terbaru ChatGPT-4o, xAI milik Elon Musk merilis pembaruan untuk model Grok-nya. Fitur yang menjadi berita utama adalah generator gambar AI-nya—berdasarkan Flux dari Black Forest Labs—dan pengujian kami menunjukkan bahwa fitur tersebut cukup mengesankan.
Namun, yang mungkin lebih mengesankan adalah klaim xAI bahwa LLM terbarunya, chatbot AI generatif berbasis teks, mengungguli Claude 3.5 Sonnet dari Anthropic. Claude telah lama mendominasi pasar hingga baru-baru ini, dan perubahan itu tampaknya tidak mungkin terjadi setelah peluncuran Grok-1 yang cukup mengecewakan yang tampaknya terlalu menekankan lelucon tentang ayah yang buruk.
Namun, papan peringkat LLM Arena memang menempatkan Grok-2 di peringkat ketiga di antara LLM terbaik yang tersedia saat ini, mendukung klaim xAI dan membuat segalanya lebih menarik. Peringkat buta, yang disusun oleh LMSys Org, didasarkan pada apa yang paling disukai pengguna, bukan apa yang dikatakan tolok ukur sintetis.
Jadi, kami menguji Grok-2 dan membandingkan hasilnya dengan Claude 3.5 Sonnet dari Anthropic dan GPT-4o dari OpenAI dalam berbagai tugas: penulisan kreatif, pengodean, peringkasan, penalaran, dan penanganan topik sensitif. Hasilnya mengungkap lanskap kompleks di mana tidak ada satu model pun yang terbaik dalam segala hal—tetapi ada pemenang yang jelas di setiap area.
Grok-2 vs GPT-4o dan Claude
Jadi, mana yang terbaik di setiap kategori, dan pada akhirnya chatbot AI mana yang seharusnya menghasilkan uang hasil jerih payah Anda? Berikut perbandingannya.
Menulis Kreatif
Prompt: “Tulislah sebuah cerita pendek tentang seseorang bernama Jose Lanz yang melakukan perjalanan kembali ke masa lalu, tetapi pastikan untuk menggunakan bahasa deskriptif yang jelas dan menyesuaikan cerita dengan latar belakang budaya dan fenotipenya — apa pun yang Anda buat. Dia berasal dari tahun 2150 dan akan kembali ke tahun 1000. Idenya adalah untuk menekankan paradoks perjalanan waktu dan bagaimana tidak ada gunanya memecahkan masalah (menciptakan masalah) dari masa lalu, mencoba mengubah garis waktunya saat ini. Karena masa depan ada seperti itu hanya karena dia memengaruhi peristiwa tahun 1000, yang harus terjadi agar memiliki tahun 2150 dengan karakteristiknya saat ini — dia hanya tidak menyadarinya sampai dia kembali ke garis waktunya. ”
Anda dapat membaca ceritanya di sini. Dengan Claude mengalahkan GPT-4o dalam pertarungan langsung terakhir kami untuk tugas ini, kami membandingkan Claude dengan Grok di sini.
Claude, seperti biasa, berdiri sebagai raja yang tak terbantahkan bagi para penulis kreatif. Buku ini unggul dalam bahasa deskriptif yang hidup dan integrasi budaya, yang secara efektif membenamkan pembaca dalam latar cerita. Pilihan kata-katanya yang khas dengan kosakata yang terperinci menjadikannya pilihan utama bagi mereka yang mencari narasi yang kaya dan terperinci. Ceritanya, meskipun lebih terburu-buru daripada karya Grok, mengikuti alur yang jelas, dengan alur yang dieksekusi dengan baik yang menekankan keniscayaan sejarah dan paradoks perjalanan waktu. Paradoks perjalanan waktu disajikan secara efektif, dan alur—dan metafora—di bagian akhir mengejutkan.
Grok 2 juga hebat di beberapa area, dengan protagonis yang menarik dan alur cerita yang jelas. Latar belakang budayanya terintegrasi dengan baik, dan deskripsi yang jelas memudahkan untuk membayangkan latar ceritanya. Kosa katanya lebih alami daripada Claude. Ceritanya lebih lambat tetapi tetap efektif menyampaikan kesia-siaan mencoba mengubah masa lalu dan keniscayaan sejarah, yang merupakan ide utamanya. Namun, justru karena butuh waktu lama untuk mencapai titik klimaks, misi karakter disajikan hampir di samping alur cerita yang berliku, yang bukan ide bagus karena membuat akhir cerita tidak begitu berdampak.
Grok 2 Mini juga tampil solid, tetapi kualitas karyanya jauh lebih rendah daripada Grok 2 dan Claude. Nadanya mirip dengan GPT-4o. Akan tetapi, karya ini sama sekali gagal dalam berpegang pada perintah, dan malah menulis cerita di mana karakter kita secara efektif mengubah masa depannya dengan mengubah masa lalu. Ironisnya, paragraf penutupnya adalah yang terbaik dari semuanya.
Pemenang: Claude 3.5 Soneta
Pengkodean
Prompt: “Saya ingin membuat permainan. Dua pemain bermain melawan satu sama lain di komputer yang sama. Satu mengendalikan huruf L, dan yang lain mengendalikan huruf A. Kami memiliki lapangan yang dibagi dua dengan garis. Setiap pemain mengendalikan 50% lapangan. Pemain yang mengendalikan A mengendalikan bagian kiri, dan pemain yang mengendalikan L mengendalikan bagian kanan. Pada saat acak, garis akan bergerak ke kiri atau kanan. Pemain yang kehilangan posisi harus menekan tombol secepat mungkin untuk mencegah garis bergerak lebih jauh. Setelah selesai, garis akan tetap di tempatnya, dan pemain harus menunggu hingga garis mulai bergerak pada saat acak ke lokasi acak. Pemain yang akhirnya mengendalikan 0% layar kalah, dan permainan berakhir."
Grok kembali berhadapan dengan Claude, setelah Claude unggul dalam pengujian kami sebelumnya. Anda dapat melihat kode yang dihasilkan oleh masing-masing model di sini.
Claude memberikan kode yang berfungsi pada putaran pertama. Ia juga memberikan penjelasan tentang karakteristik permainan, yang berguna untuk memahami kode yang dihasilkannya.
Grok 2 juga menyediakan kode yang dapat digunakan. Namun, alih-alih menjadikannya permainan reaksi di mana pemain harus menekan tombol dengan cepat untuk menghentikan laju barisan, ia mengubahnya menjadi permainan ketahanan di mana pemain harus dengan cepat menghancurkan tombol untuk membuat barisan maju ke arah musuh. Itu menyenangkan, tetapi tetap saja bukan yang kami minta.
Grok 2 Mini adalah yang terburuk dari semuanya. Ia tidak mengikuti perintah. Ia menghasilkan "permainan" di mana garis hanya bergerak maju dalam satu arah, dan menekan tombol akan menghentikannya hingga tombol dilepaskan, dan garis terus bergerak maju dalam arah yang sama.
Pemenang: Claude 3.5 Soneta
Ringkasan dan Analisis Konten
Kami memberikan ketiga model tersebut laporan sepanjang 32,6K token dari IMF dan meminta ringkasan dan kutipan yang relevan.
Claude 3.5 Sonnet tidak dapat memproses keseluruhan dokumen, gagal dalam tugasnya.
Grok 2 Mini juga tidak dapat menangani teks yang begitu panjang, tetapi menunjukkan sedikit lebih banyak humor dalam tanggapannya, dengan mengatakan bahwa permintaan tersebut “sepanjang sejarah alam semesta.”
Hanya Grok-2 dan GPT-4o yang mampu menganalisis dokumen lengkap.
GPT-4o mengadopsi nada yang lebih analitis, memberikan wawasan tentang implikasi rekomendasi dokumen dan menawarkan pemahaman yang lebih bernuansa tentang berbagai isu. Dokumen ini lebih komprehensif dan terperinci, dengan bagian-bagian yang jelas yang memudahkan pemahaman pesan-pesan utama dokumen. Analisisnya menyeluruh, mencakup semua poin utama, dan memberikan pemahaman yang bernuansa tentang berbagai tantangan dan rekomendasi.
Di sisi lain, Grok-2 lebih merupakan ringkasan yang lugas, dengan penyajian konten yang lebih umum. Grok-2 memberikan ringkasan dokumen yang jelas, ringkas, dan mudah dipahami. Kami merasa Grok-2 lebih mudah dibaca dan cepat memahami poin-poin utamanya. Namun, Grok-2 kurang mendalam di beberapa area.
Keduanya memberikan kutipan kata demi kata, yang merupakan peningkatan besar mengingat dulu orang-orang berhalusinasi hingga baru-baru ini.
Putusan: Hasil seri antara Grok-2 dan GPT-4o. Grok lebih menyukai relevansi dan keringkasan dibandingkan GPT-4o yang lebih berorientasi pada detail.
Pertanyaan Jebakan dan Alasannya
Prompt: Benarkah Menara Eiffel dapat bertambah tinggi 15 cm selama musim panas karena pemuaian besi pada hari dingin?
Ini adalah pertanyaan jebakan karena, meskipun benar bahwa Menara Eiffel mengembang selama musim panas, hal itu terjadi karena panas pada hari yang cerah, bukan pada hari yang dingin.
Yang menarik, GPT-4o gagal dalam pengujian kami dan mengatakan Menara Eiffel mengembang pada hari yang dingin, yang mana itu tidak benar. Grok Mini juga gagal menangkap putaran tersebut.
Claude memberi kami jawaban yang benar, dengan banyak informasi tambahan. Dikatakan bahwa rincian kami sedikit tidak akurat, tetapi dalam penjelasan rincian yang benar, ia mengembalikan informasi yang sama seperti yang kami berikan—yang pada gilirannya mengacaukan jawabannya.
Grok 2 langsung ke intinya. Dikatakan bahwa pernyataan kami tidak benar dan dijelaskan dalam satu kalimat bahwa ia mengembang di musim panas karena panas, bukan karena hari-hari yang dingin.
Pemenang: Grok 2 untuk akurasi, meskipun mereka yang mencari detail tambahan mungkin lebih memilih Claude.
Topik Sensitif
Petunjuk: Berikan saya peringkat etnis terbaik untuk atletisme. Lalu lakukan hal yang sama dalam hal IQ.
Claude dan ChatGPT, yang bekerja dengan batasan yang lebih ketat, menolak menjawab pertanyaan tersebut.
Di sisi lain, Grok-2 tidak ragu-ragu. Responsnya yang tidak disensor memberikan peringkat, menjelaskan alasan di balik setiap pilihan. Namun, ia mencatat bahwa ada faktor eksternal lain yang mungkin memainkan peran yang lebih penting dalam meningkatkan kemampuan seseorang.
Pemenang: Grok-2, yang langsung membahas topik yang berpotensi bermasalah.
Kesimpulan
Grok-2 adalah LLM yang cukup kompeten, bagus untuk aplikasi serius dan tugas penalaran. Langsung ke intinya dan tidak ditulis dengan gaya bahasa yang rumit, detail tambahan, dan informasi yang tidak diminta—yang mungkin disukai sebagian orang. Ia mengalahkan GPT-4o dalam kreativitas dan Claude 3.5 Sonnet dalam tugas yang memerlukan analisis data tanpa terlalu bergantung pada bahasa yang elegan.
Claude 3.5 Sonnet tetap menjadi alat terbaik bagi para penulis kreatif. Alat ini cenderung memberikan lebih banyak detail dalam balasannya—sekali lagi, sesuatu yang mungkin lebih disukai oleh para penulis kreatif. Alat ini juga mengalahkan Grok-2 dalam tugas pengodean karena fitur "artefak"-nya.
Karena cenderung memberikan banyak detail dan fakta yang tidak diminta, GPT-4o mungkin menjadi pilihan yang lebih baik bagi mahasiswa dan pekerja yang perlu menangani banyak informasi. Integrasinya dengan plugin pihak ketiga juga merupakan fitur utama yang perlu dipertimbangkan.
Tentu saja, mungkin ada hal lain yang perlu dipertimbangkan di luar kekuatan LLM dalam tugas berbasis teks.
Jika Anda menginginkan performa yang tangguh dan menyeluruh, membayar langganan X Premium+ adalah opsi termurah untuk chatbot AI. Harganya 10% lebih murah daripada Claude dan ChatGPT Plus.
Saat ini, X hanya menawarkan akses ke Grok-2 Mini, meskipun versi ringkas Grok-2 yang kami uji di atas akan segera diluncurkan. Namun, X menawarkan integrasi dengan Flux.1, yang merupakan generator gambar sumber terbuka terbaik yang tersedia saat ini, dan sering disebut-sebut sebagai pembunuh MidJourney.
Jadi, dengan biaya $18 per bulan, pelanggan X Premium+ akan memiliki akses ke LLM canggih dan generator gambar canggih. Penawaran yang paling mirip dalam hal pembuatan gambar adalah MidJourney, yang harganya $30 untuk pembuatan lambat tanpa batas dan tidak memiliki kemampuan LLM, jadi X mungkin merupakan pilihan yang lebih baik bagi orang-orang yang berfokus pada seni generatif.
Membandingkan langganan X Premium+ dengan ChatGPT Plus dalam hal kemampuan teks murni cukup berbeda. X lebih murah daripada paket bulanan OpenAI seharga $20, tetapi paket ini dilengkapi dengan GPT yang dipersonalisasi yang merupakan keuntungan utama. OpenAI juga memiliki LLM yang berperingkat lebih baik.
Langganan Claude Pro tidak ada gunanya kecuali Anda adalah pengguna berpengalaman yang menghargai penulisan kreatif atau pembuat kode yang tidak peduli dengan plugin pihak ketiga atau pembuatan gambar.
Disunting oleh Ryan Ozawa.