Meta baru saja meluncurkan metode pelatihan AI baru yang dapat meningkatkan cara mesin memproses informasi dan menanggapi pertanyaan. Disebut Thought Preference Optimization (TPO), teknik ini mengajarkan model bahasa untuk terlibat dalam pertimbangan internal sebelum memberikan jawaban. Dengan kata lain: Mereka berpikir, semacam itu.
TPO pada dasarnya seperti memberi AI tombol jeda mental, yang memungkinkannya untuk merenungkan berbagai hal alih-alih langsung memberikan respons pertama yang terlintas di benaknya. Hasilnya? Balasan yang lebih tajam dan bernuansa yang terdengar tidak seperti robot, tetapi lebih seperti manusia yang berpikir.
Artinya, TPO dapat membawa Meta lebih dekat untuk menawarkan alternatif sumber terbuka bagi model-model berpemilik seperti Strawberry milik OpenAI (alias o1), yang dikenal karena kemampuan pemecahan masalahnya yang kompleks.
Pendekatan Meta berbeda dari metode tradisional seperti dorongan "rantai pemikiran", yang memaksa AI untuk menunjukkan pekerjaannya melalui iterasi yang berbeda. TPO menjaga senam mental tetap tersembunyi dengan model yang melakukan semuanya sendiri dalam satu bidikan.
Proses pelatihan juga berbeda dengan sekadar memberi tahu model untuk "berpikir selangkah demi selangkah." Dimulai dengan model dasar yang mengikuti instruksi, peneliti mendorongnya untuk menghasilkan pikiran internal sebelum menjawab. Melalui pembelajaran penguatan berulang, AI mengasah keterampilan berpikirnya, dipandu oleh model penilaian yang hanya mengevaluasi hasil akhir—yang merupakan apa yang dilihat pengguna.
Gambar: Meta
Pendekatan lepas tangan ini memungkinkan AI mengembangkan pola pikirnya sendiri yang unik, yang berpotensi menghasilkan pemecahan masalah yang lebih kreatif dan adaptif. Ini merupakan langkah menuju AI yang tidak hanya mengikuti aturan, tetapi benar-benar memahami alasan di balik aturan tersebut.
Inovasi Meta terinspirasi dari ilmu kognitif, yang meniru kecenderungan manusia untuk berhenti sejenak dan berpikir sebelum menangani pertanyaan yang rumit. Jika model AI belajar untuk mendedikasikan lebih banyak "waktu komputasi" untuk tugas yang lebih sulit, maka model open source generasi berikutnya dapat jauh lebih unggul daripada model yang saat ini kita gunakan.
Bagian terbaiknya adalah teknik TPO Meta tidak memerlukan banyak data baru untuk menjalankan keajaibannya. Teknik ini dibangun berdasarkan arsitektur AI yang sudah ada, menyempurnakannya untuk mensimulasikan proses berpikir tanpa campur tangan manusia. Hal ini dapat mempercepat pengembangan asisten AI yang lebih cerdas, chatbot, dan alat berbasis bahasa lainnya, sehingga memberi mereka lebih banyak kreativitas dalam pendekatan mereka terhadap pemecahan masalah.
Para peneliti Meta menguji pendekatan mereka terhadap tolok ukur standar industri. Model yang dilatih TPO menunjukkan kekuatan kognitif baru mereka, mengungguli rekan-rekan mereka yang tidak berpikir dalam tugas-tugas kompleks.
Gambar: Meta
Lebih dekat ke Strawberry sumber terbuka?
Meta telah membuat kemajuan menarik dalam bidang pembuatan AI yang lebih cerdas. Baru tiga bulan lalu, para peneliti memperkenalkan "Distilasi Sistem 2," sebuah teknik yang mengajarkan model bahasa besar (LLM) cara menyelesaikan tugas-tugas rumit tanpa mengeluarkan langkah-langkah yang tidak perlu.
Distilasi Sistem 2, yang terinspirasi oleh proses kognitif manusia, mengajarkan LLM untuk melakukan tugas-tugas kompleks tanpa memerlukan perintah langkah demi langkah—yang biasanya dianggap sebagai pendekatan yang tepat dalam rekayasa perintah tingkat lanjut. Dengan menyempurnakan model pada respons terverifikasi terhadap teknik perintah Sistem 2, para peneliti menunjukkan bahwa AI dapat menginternalisasi keterampilan penalaran yang canggih, yang sering kali menyamai atau melampaui kinerja metode penalaran eksplisit.
Pemikiran Sistem 1 cepat, intuitif, dan otomatis. Ini adalah proses mental yang kita gunakan untuk penilaian cepat, pengenalan pola, dan tugas-tugas yang familier. Dalam istilah AI, ini sejalan dengan cara kerja model bahasa besar pada umumnya—menghasilkan respons dengan cepat berdasarkan pola yang dipelajari.
Sebaliknya, pemikiran Sistem 2 lambat, disengaja, dan analitis. Ini adalah jenis pemrosesan yang dilakukan manusia untuk memecahkan masalah yang rumit, penalaran logis, dan perencanaan. Peneliti AI telah berupaya untuk meniru ini dalam model bahasa melalui berbagai teknik dorongan yang memaksa AI untuk menunjukkan pekerjaannya atau alasannya selangkah demi selangkah.
Pengoptimalan Preferensi Pikiran Meta dan penelitian terkait distilasi Sistem 2 merupakan upaya untuk menjembatani kedua cara berpikir ini dalam AI. Tujuannya adalah untuk memberikan model AI kemampuan untuk terlibat dalam penalaran mendalam ala Sistem 2 tanpa mengorbankan kecepatan dan efisiensi pemrosesan Sistem 1.
Pendekatan ini melibatkan pelatihan AI untuk menginternalisasi proses penalaran yang kompleks. Dengan demikian, model dapat mengatasi masalah rumit dengan lebih efisien, meniru bagaimana manusia beralih dari pemikiran yang sadar dan penuh usaha ke pemrosesan yang lebih otomatis saat mereka memperoleh keahlian dalam suatu tugas.
Waktunya sangat tepat, karena penelitian Meta muncul setelah bulan yang penuh gejolak di bidang AI sumber terbuka. Model Reflection 70B yang banyak digembar-gemborkan, yang disebut-sebut sebagai pusat penalaran, ternyata hanya tipuan belaka. Apa yang dijanjikan sebagai model dengan rantai pemikiran tertanam sebelum OpenAI merilis o1 berakhir menjadi model yang tidak mampu memenuhi janjinya, dengan beberapa pengguna bahkan menuduh pembuatnya hanya menggunakan wrapper pada Claude milik Anthropic.
Kini, para pengembangnya saling menyalahkan dalam berbagai laporan publik, membuat komunitas AI terguncang. Matt Schumer, orang di balik ide tersebut, saat ini tengah melatih versi baru dengan perangkat keras dan kumpulan data miliknya sendiri.
Jika pendekatan Meta terbukti berhasil, maka pendekatan ini dapat membuka jalan bagi pesaing open-source untuk model o1 OpenAI. Alternatif open-source dapat mendemokratisasi akses ke pemikiran AI tingkat lanjut semacam ini.
Diedit oleh Andrew Hayward