Teknologi terdesentralisasi dapat membantu data yang digunakan untuk pelatihan AI diberi insentif yang tepat dan dapat membantu membedakan data yang baik dari data yang buruk.
Ditulis oleh: Rhian Lewis, Outlier Ventures
Disusun oleh: angelilu, Berita Tinjauan ke Depan
Pelatihan dan pengoperasian model AI memerlukan komputasi yang intensif dan mahal, dan kontributor data tidak mendapatkan kompensasi yang memadai untuk hal tersebut. Apakah teknologi terdesentralisasi dapat memberikan solusi?
Apa yang dapat dilakukan oleh teknologi terdesentralisasi untuk model AI
Banyak orang percaya bahwa semua layanan digital pada dasarnya “gratis” dalam hal konsumsi energi dibandingkan dengan layanan di dunia nyata, namun kenyataannya tidak demikian. Beberapa orang sering menuding jaringan mata uang kripto (terutama yang mengandalkan mekanisme konsensus bukti kerja) karena penggunaan listriknya, namun para kritikus sering mengabaikan fakta bahwa proses setiap layanan digital memerlukan daya komputasi, baik Anda menonton acara TV di Netflix atau Anda membayar dengan kartu Anda di supermarket. Pertanyaan sebenarnya bukanlah seberapa besar daya yang dikonsumsi oleh layanan-layanan tersebut, namun apakah utilitas yang diperoleh konsumen dari layanan tersebut sepadan dengan biaya yang dikeluarkan.
Munculnya komputasi awan menghilangkan kebutuhan pengusaha untuk membangun pusat data yang boros energi, namun hal ini berarti biayanya dialihkan untuk membayar layanan seperti Microsoft Azure, Amazon Web Services, atau Google Cloud Platform. Mengingat besarnya permintaan untuk ChatGPT, CEO OpenAI Sam Altman tidak mengungkapkan biaya pasti menjalankan ChatGPT, selain menyebutnya "mencengangkan" dalam sebuah tweet. Namun, perkiraan independen menyebutkan biayanya sekitar $100.000 per hari, yang berarti lebih dari $3 juta per bulan.
Perlu diperhatikan juga bahwa perkiraan biaya harian untuk menjalankan ChatGPT tidak termasuk energi yang dikonsumsi untuk melatih model di awal, yang merupakan proses yang memakan banyak energi dalam menyerap data dalam jumlah besar, juga tidak termasuk pemrosesan data selanjutnya biaya set. Maka tidak mengherankan jika Sam Altman menekankan kebutuhan mendesak untuk mulai memonetisasi kreasi OpenAI sesegera mungkin. Kami telah melihat lintasan serupa dengan layanan gambar yang dihasilkan AI, seperti DALL-E OpenAI, yang mendapat perhatian awal dari media sosial sebelum memperkenalkan layanan berbasis kredit, dan Midjourney, yang memungkinkan 25 kredit sebelum menagih gambar gratis.
Sejauh ini, kami percaya bahwa semua biaya secara transparan ditanggung oleh perusahaan yang bertanggung jawab atas pengembangan perangkat lunak tersebut, namun ada juga suara dari mereka yang percaya bahwa tanpa disadari kontributor data pelatihan yang membantu menciptakan model ini harus diberi kompensasi atas dedikasi mereka. Dapatkan bayaran.
Pengembang yang menulis kode yang digunakan untuk melatih CoPilot GitHub, seniman yang membuat gambar untuk memberi makan Midjourney atau DALL-E, dan penulis yang novel atau kontribusi Redditnya digunakan sebagai bahan mentah untuk ChatGPT semuanya tidak berhak atas penggunaan komersial atas karya berhak cipta mereka Fakta bahwa imbalan apa pun dibayarkan menunjukkan ketidaksenangan. Tindakan hukum saat ini sedang dilakukan dan ini merupakan kasus penting.
Permasalahannya bukan hanya penggunaan materi berhak cipta, namun juga potensi faktor risiko yang terkait dengan fakta yang salah dalam data pelatihan. Meskipun ChatGPT dapat berkomunikasi dengan sangat lancar, terkadang ChatGPT dapat membuat klaim yang secara faktual tidak benar hanya karena ChatGPT dilatih berdasarkan data yang belum disaring keakuratannya. Ini adalah risiko bagi perangkat lunak apa pun yang menggunakan konten buatan pengguna sebagai masukan. Perangkat Echo Amazon telah dikritik karena memberikan tantangan mematikan bagi anak-anak yang dapat mengakibatkan mereka tersengat listrik.
Dapatkan insentif yang tepat
Contoh di atas menunjukkan bahwa model bahasa besar (LLM) mengonsumsi daya komputasi dan data dalam jumlah besar, yang saat ini tidak diberi insentif yang tepat. Seiring berjalannya waktu, penggunaan AI tidak lagi menjadi hal baru dan menjadi bagian dari model bisnis, dengan sumber daya komputasi dan data yang dapat diverifikasi diharapkan memiliki harga yang mendekati optimal untuk setiap kasus bisnis.
Pertanyaannya adalah bagaimana alokasi sumber daya ini akan ditentukan. Sebuah makalah oleh Konstantinos Sgantzos dan Ian Grigg menyatakan bahwa “salah satu tantangan terbesar dalam ilmu data saat ini adalah mengumpulkan kumpulan data yang sesuai yang dapat digunakan untuk melatih jaringan saraf” dan menyimpulkan bahwa “oleh karena itu, blockchain bukan hanya tentang data pembelajaran mendalam yang dikandungnya. banyak data yang layak untuk dianalisis, dan data tersebut merupakan penyimpanan yang ideal untuk kerangka kerja terlatih itu sendiri. Seiring berjalannya waktu, kami berharap akan lebih mudah untuk membedakan antara data yang baik dan data yang buruk berdasarkan model pseudonim dan model yang diberi insentif.”
Dalam makalah mereka, mereka juga menyoroti potensi pembayaran otomatis berbasis blockchain untuk menyediakan mekanisme bayar per penggunaan yang murah dan efisien untuk eksekusi data dan kueri.
Demikian pula, Trent McConaghy dari Ocean Protocol menyoroti potensi teknologi blockchain dalam AI untuk memberikan manfaat berikut:
Memasukkan lebih banyak data akan menghasilkan model yang lebih baik;
Menghadirkan data baru berkualitas tinggi dan model-model baru berkualitas tinggi;
Memungkinkan berbagi kendali atas data dan model pelatihan AI;
Ini adalah dunia yang ingin kita ciptakan, di mana penyedia data dan pembuat konten mendapat kompensasi yang adil atas upaya mereka, dan di mana pengusaha dan ahli teknologi dapat menarik investasi untuk terus mendorong batas-batas inovasi, bukan hanya sekedar masalah altruisme.
Arah pengembangan AI sangat penting bagi masa depan umat manusia. Kita perlu melakukan diskusi serius tentang peningkatan model insentif untuk mengembangkan, melatih, dan menjalankan LLM ini serta aplikasi yang dibangun di atasnya. Beberapa pihak secara terbuka mempertanyakan kelayakan perusahaan teknologi besar yang mengendalikan LLM dan kumpulan data yang digunakan untuk melatih mereka. Ada usulan proyek yang didanai pemerintah untuk bersaing dengan perusahaan teknologi besar di bidang ini. Dalam konteks ini, orang mungkin mempertanyakan apakah kumpulan data yang disediakan atau didukung oleh kepentingan nasional lebih netral dibandingkan data yang digunakan oleh perusahaan besar, atau apakah ini hanyalah cara lain untuk menyimpang dari insentif.
Grup seperti OpenAI sudah memikirkan masalah ini secara publik, menerbitkan postingan blog pada tanggal 16 Februari yang menjelaskan rencana mereka untuk meningkatkan perilaku perangkat lunak dan menguraikan strategi untuk melibatkan lebih banyak publik dalam cara kerjanya.
Banyak yang telah ditulis tentang bahaya AI, potensi AI untuk memiliki pikiran dan kecerdasannya sendiri, sehingga menciptakan skenario bergaya Skynet yang memusnahkan umat manusia. Bahaya sebenarnya mungkin lebih besar karena model yang kurang termotivasi dan dilatih dengan data di bawah standar pada akhirnya dapat menghambat adopsi AI yang bermanfaat secara luas, sehingga menunda manfaat nyata dari inovasi teknologi ini selama bertahun-tahun, bahkan puluhan tahun. Seperti yang disarankan oleh Sgantzos dan Grigg dalam makalah mereka, “Kekekalan blockchain menciptakan lingkungan yang produktif untuk menciptakan kumpulan data berkualitas tinggi, permanen, dan berkembang untuk pembelajaran mendalam.” untuk menciptakan lingkungan merangsang yang tepat untuk pengembangan LLM.