Binance Square'de Yao Qizhi, geniş bir model "düşünme" çerçevesi önermede başı çekti! Mantıksal akıl yürütmenin doğruluğu %98'dir ve düşünme şekli daha çok insanlara benzer.

Makalenin yeniden basım kaynağı: AIcore
Kaynak: Qubit'ler
Turing Ödülü sahibi Yao Qizhi'nin öncülük ettiği ilk büyük dil modeli makalesi burada!
Başladığım anda "büyük modellerin insanlar gibi düşünmesini sağlama" yönünü hedefledim——
Büyük modellerin yalnızca adım adım akıl yürütmesi gerekmez, aynı zamanda "adım adım" yapmayı öğrenmeleri ve akıl yürütme sürecindeki tüm doğru süreçleri hatırlamaları da gerekir.
Özellikle bu yeni makale, büyük modellerin karmaşık akıl yürütme yeteneğini önemli ölçüde artıran Kümülatif Akıl Yürütme adı verilen yeni bir yöntem önermektedir.
Büyük modellerin düşünme zincirleri vb. temeline dayandığını ve problem akıl yürütme için kullanılabileceğini bilmelisiniz, ancak "birkaç dönüş" gerektiren problemlerle karşılaşıldığında hata yapmanın yine de kolaydır.
Kümülatif akıl yürütmenin gerçek zamanlı olarak doğruyu yanlıştan ayırmaya yönelik bir "doğrulayıcı" eklemesi bu temeldedir. Bu modelin düşünce çerçevesi de zincir ve ağaçtan daha karmaşık "yönlendirilmiş döngüsel olmayan grafiğe" doğru değişti.
Bu şekilde, büyük model yalnızca sorunları çözmek için daha net fikirlere sahip olmakla kalmaz, aynı zamanda "kart oynama" becerisini de geliştirir:
Cebir ve geometrik sayılar teorisi gibi matematik problemlerinde büyük modellerin göreceli doğruluğu blackjack oynarken %42 arttı; başarı oranı %98'e yükseldi.
Tsinghua Üniversitesi Çapraz Bilgi Enstitüsü'ne göre, ilk yazarlardan Zhang Yifan bu makalenin başlangıç ​​noktasını şöyle açıkladı:
 Kahneman, insanın bilişsel işleyişinin iki sistem içerdiğine inanıyor: "Sistem 1" hızlı, içgüdüsel ve duygusaldır ve "Sistem 2" yavaş, düşünceli ve mantıklıdır. Şu anda büyük dil modellerinin performansı "Sistem 1"e daha yakındır, bu da karmaşık görevlerle başa çıkmada iyi olmamasının nedeni olabilir.
Bu perspektiften tasarlanan kümülatif akıl yürütme, Düşünce Zinciri (CoT) ve Düşünme Ağacından (ToT) daha iyidir.
Peki bu yeni yaklaşım aslında neye benziyor? Gelin birlikte göz atalım.
Düşünce zincirini kırın ve "darboğazları" oluşturun
Kümülatif akıl yürütmenin özü, büyük modellerin düşünme sürecinin "şeklinin" iyileştirilmesinde yatmaktadır.
Bu yöntem özellikle üç büyük dil modelini kullanır:
Teklif Sahibi: Sürekli olarak yeni önermeler önerin, yani mevcut düşünme bağlamına dayanarak bir sonraki adımın ne olacağını önerin.
Doğrulayıcı: Teklif sahibinin teklifinin doğruluğunu doğrular ve eğer doğruysa bunu düşünme bağlamına ekler.
Muhabir: Nihai çözüme ulaşılıp ulaşılmadığını ve muhakeme sürecinin sonlandırılıp sonlandırılmayacağını belirler.
Muhakeme sürecinde önce "teklif sahibi" bir teklif sunar, "doğrulayıcı" değerlendirmeden sorumludur ve "raportör" cevabı sonlandırıp düşünme sürecini sonlandırıp sonlandırmayacağına karar verir.
△CR akıl yürütme örneği
Bu biraz bir ekip projesindeki üç tür role benzer: Ekip üyeleri önce çeşitli fikirler üzerinde beyin fırtınası yapar, eğitmen hangi fikrin uygulanabilir olduğunu "kontrol eder" ve ekip lideri projeyi ne zaman tamamlayacağına karar verir.
Peki bu yaklaşım büyük model düşüncesinin “şeklini” tam olarak nasıl değiştiriyor?
Bunu anlamak için büyük model düşünmeyi geliştirme yöntemlerinin “başlangıcı” olan Düşünce Zinciri (CoT) ile başlamalıyız.
Bu yöntem, OpenAI bilim insanı Jason Wei ve diğerleri tarafından Ocak 2022'de önerildi. Temel nokta, büyük modelin düşünme yeteneğini teşvik etmek için veri setindeki girdiye "adım adım akıl yürütme" metni eklemektir.
△GSM8K veri setinden seçilmiştir
Düşünme zinciri ilkesini temel alan Google, aynı zamanda hızlı bir şekilde, esas olarak çoklu düşünce zinciri süreçlerini yürüten ve en iyi yanıtı seçmek için yanıtlar üzerinde çoğunluk oyu yürüten bir "düşünme zinciri PLUS sürümü" olan CoT-SC'yi de hızla takip etti. kesinlik.
Ancak hem Düşünme Zinciri hem de CoT-SC bir sorunu göz ardı ediyor: Sorunun birden fazla çözümü var, özellikle de insanlar sorunu çözdüğünde.
Bu nedenle Düşünce Ağacı (ToT) adı verilen yeni bir araştırma ortaya çıktı.
Bu, modelin çeşitli farklı akıl yürütme fikirlerini denemesine, kendini değerlendirmesine, bir sonraki eylem planını seçmesine ve gerekirse geriye doğru izleme yapmasına olanak tanıyan ağaç benzeri bir arama şemasıdır.
Yöntemden, düşünme ağacının düşünme zincirinden daha ileri giderek büyük model düşünmeyi "daha aktif" hale getirdiği görülmektedir.
Bu nedenle 24 puanla oynarken Düşünce Zinciri bonusunun GPT-4 başarı oranı yalnızca %4 iken Düşünce Ağacının başarı oranı %74'e yükselir.
ANCAK, düşünme zinciri, CoT-SC veya düşünme ağacı ne olursa olsun, ortak bir sınırlama vardır:
 Hiçbiri düşünme sürecinin ara sonuçları için bir depolama alanı oluşturmadı.
Sonuçta, tüm düşünme süreçleri zincirlere veya ağaçlara dönüştürülemez. İnsanların olaylar hakkındaki düşünme şekli genellikle daha karmaşıktır.
Bu yeni kümülatif akıl yürütme çerçevesi tasarımdaki bu noktayı aşıyor——
Büyük bir modelin genel düşünme sürecinin mutlaka bir zincir veya ağaç olması gerekmez; aynı zamanda yönlendirilmiş döngüsel olmayan bir grafik (DAG) de olabilir! (Eh, sinapslar gibi kokuyor)
△Grafikteki kenarların yönleri vardır ve dairesel yollar yoktur; her yönlendirilmiş kenar bir türetme adımıdır.
Bu, mevcut arama dalındaki keşif için tüm tarihsel olarak doğru çıkarım sonuçlarını hafızada saklayabileceği anlamına gelir. (Buna karşılık, düşünen bir ağaç diğer dallardan gelen bilgileri saklamaz)
Ancak kümülatif akıl yürütme, düşünme zinciriyle de sorunsuz bir şekilde geçiş yapabilir; "doğrulayıcı" kaldırıldığı sürece, standart bir düşünme zinciri modelidir.
Bu yönteme dayalı olarak tasarlanan kümülatif muhakeme, çeşitli yöntemlerde iyi sonuçlar elde etmiştir.
Matematik ve mantıksal akıl yürütmede iyi
Araştırmacılar kümülatif muhakemeyi "test etmek" için FOLIO wiki'yi ve AutoTNLI'yi, 24 sayı oyununu ve MATH veri setlerini seçtiler.
Teklifi hazırlayan, doğrulayan ve raporlayan, her deneyde aynı geniş dil modelini kullanır ve rollerini belirlemek için farklı istemler kullanır.
Burada deneyler için kullanılan temel modeller arasında GPT-3.5-turbo, GPT-4, LLaMA-13B ve LLaMA-65B yer alır.
İdeal olarak, modelin ilgili türetme görevi verileri kullanılarak özel olarak önceden eğitilmesi gerektiğini ve "doğrulayıcının" ayrıca resmi bir matematiksel kanıtlayıcı, önermesel mantık çözücü modülü vb. eklemesi gerektiğini belirtmekte fayda var.
1. Mantıksal akıl yürütme yeteneği
FOLIO birinci dereceden mantıksal akıl yürütme veri kümesidir ve soruların etiketleri "doğru", "Yanlış" ve "Bilinmeyen" olabilir; AutoTNLI yüksek dereceli mantıksal akıl yürütme veri kümesidir.
FOLIO wiki veri setinde, doğrudan çıktı sonuçları (Direct), düşünme zinciri (CoT) ve gelişmiş düşünme zinciri (CoT-SC) yöntemleriyle karşılaştırıldığında kümülatif akıl yürütme (CR) performansı her zaman en iyisidir.
Sorunlu örneklerin (yanlış cevaplar gibi) veri kümesinden çıkarılmasının ardından CR yöntemini kullanan GPT-4 çıkarım doğruluğu, minimum %1,96 hata oranıyla %98,04'e ulaştı.
AutoTNLI veri setindeki performansa bakalım:
CoT yöntemiyle karşılaştırıldığında CR, LLaMA-13B ve LLaMA-65B'nin performansını önemli ölçüde artırdı.
LLaMA-65B modelinde CR'nin CoT'ye kıyasla iyileşmesi %9,3'e ulaştı.
2. 24 sayılık oyun oynayabilme yeteneği
Orijinal Eğitmenlik Belgesi 24 puanlık bir oyun kullanıyordu, bu nedenle buradaki araştırmacılar CR ve ZT'yi karşılaştırmak için bu veri setini kullandılar.
ToT, sabit bir genişlik ve derinlik arama ağacı kullanır ve CR, büyük modellerin arama derinliğini bağımsız olarak belirlemesine olanak tanır.
Araştırmacılar deneylerde 24 nokta bağlamında CR algoritması ile ToT algoritmasının çok benzer olduğunu buldu. Aradaki fark, CR'deki algoritmanın yineleme başına en fazla bir yeni durum üretmesi, ToT'nin ise her yinelemede birçok aday durum oluşturması ve bazı durumları filtreleyip tutmasıdır.
Meslekten olmayanların ifadesiyle, ToT, CR gibi yukarıda bahsedilen "doğrulayıcıya" sahip değildir ve (a, b, c) durumlarının doğru mu yoksa yanlış mı olduğuna karar veremez. Bu nedenle ToT, CR'den daha fazla geçersiz durumu araştıracaktır.
Sonuçta CR yönteminin doğruluğu %98'e bile ulaşabiliyor (ToT %74) ve erişilen durumların ortalama sayısı ToT'den çok daha az.
Başka bir deyişle, CR yalnızca daha yüksek bir arama doğruluğu oranına sahip olmakla kalmaz, aynı zamanda daha yüksek bir arama verimliliğine de sahiptir.
3. Matematik yeteneği
MATH veri seti cebir, geometri, sayılar teorisi vb. dahil olmak üzere çok sayıda matematiksel akıl yürütme sorusu içerir. Soruların zorluğu beş seviyeye ayrılmıştır.
Model, CR yöntemini kullanarak soruyu adım adım tamamlanabilecek alt sorulara ayrıştırabilir ve cevap oluşturulana kadar sorular sorup cevaplayabilir.
Deneysel sonuçlar, iki farklı deneysel ayar altında CR'nin doğruluk oranının, %58'e varan genel doğruluk oranıyla ve Seviye 5 probleminde %42'lik göreceli doğruluk artışıyla mevcut mevcut yöntemleri aştığını göstermektedir. GPT-4 modeli altında.
Tsinghua Üniversitesi'nden Yao Qizhi ve Yuan Yang tarafından yürütülen araştırma
Bu makale, Tsinghua Disiplinlerarası Bilgi Enstitüsü'nden Yao Qizhi ve Yuan Yang liderliğindeki Matematik için Yapay Zeka araştırma grubundan gelmektedir.
Makalenin ortak yazarları, Disiplinlerarası Bilgi Enstitüsü'nde 2021 doktora öğrencisi olan Zhang Yifan ve Yang Jingqin;
Eğitmen ve ortak sorumlu yazar, Yardımcı Doçent Yuan Yang ve Akademisyen Yao Qizhi'dir.
Zhang Yifan
Zhang Yifan, Pekin Üniversitesi Yuanpei Koleji'nden 2021 yılında mezun oldu. Şu anda Yardımcı Doçent Yuan Yang'ın yanında eğitim görüyor. Başlıca araştırma alanları temel modellerin teorisi ve algoritması (büyük dil modelleri), kendi kendini denetleyen öğrenme ve güvenilir yapay zekadır.
Yang Jingqin
Yang Jingqin, lisans derecesini 2021 yılında Tsinghua Üniversitesi Çapraz Bilgi Enstitüsü'nden aldı ve şu anda Yardımcı Doçent Yuan Yang'ın yanında doktora eğitimine devam ediyor. Ana araştırma yönleri arasında büyük dil modelleri, kendi kendini denetleyen öğrenme, akıllı tıbbi bakım vb. yer almaktadır.
Yuan Yang
Yuan Yang, Tsinghua Üniversitesi Disiplinlerarası Bilgi Okulu'nda yardımcı doçenttir. 2012 yılında Pekin Üniversitesi Bilgisayar Bilimleri Bölümü'nden mezun oldu; 2018 yılında Amerika Birleşik Devletleri'ndeki Cornell Üniversitesi'nden Bilgisayar Bilimleri alanında doktora derecesi aldı; 2018 - 2019 yılları arasında Massachusetts Enstitüsü'nde School of Big Data Science'da doktora sonrası araştırmacı olarak çalıştı. Teknoloji.
Ana araştırma yönleri akıllı tıbbi bakım, temel yapay zeka teorisi, uygulamalı kategori teorisi vb.'dir.
Yao Qizhi
Yao Qizhi, Çin Bilimler Akademisi akademisyeni ve Tsinghua Üniversitesi Disiplinlerarası Bilgi Enstitüsü'nün dekanıdır. Aynı zamanda kuruluşundan bu yana Turing Ödülü'nü kazanan ilk Asyalı bilim adamı ve bu onuru kazanan tek Çinli bilgisayar bilimcisidir. şu ana kadar.
Profesör Yao Qizhi, 2004 yılında kadrolu profesör olarak Princeton'dan istifa etti ve öğretmenlik yapmak üzere Tsinghua'ya döndü; 2005 yılında Tsinghua lisans öğrencileri için bir bilgisayar bilimi deneysel sınıfı olan "Yao Sınıfı"nı kurdu; 2011 yılında "Tsinghua Kuantum Bilgi Merkezi"ni kurdu; " ve "Disiplinlerarası Bilgi Araştırma Enstitüsü"; 2019 yılında 2008 yılında Tsinghua lisans öğrencileri için "Akıllı Sınıf" olarak anılan bir yapay zeka sınıfı kurdu.
Bugün, onun liderliğindeki Tsinghua Üniversitesi Disiplinlerarası Bilgi Enstitüsü uzun zamandır ünlüdür. Yao Class ve Zhiban, Disiplinlerarası Bilgi Enstitüsüne bağlıdır.
Profesör Yao Qizhi'nin araştırma ilgi alanları arasında algoritmalar, kriptografi, kuantum hesaplama vb. yer almaktadır. Kendisi bu alanda uluslararası bir öncü ve otoritedir. Geçtiğimiz günlerde 2023 Dünya Yapay Zeka Konferansı'na katıldı. Liderliğini yaptığı Şangay Qizhi Araştırma Enstitüsü şu anda "bedenlenmiş genel yapay zeka" üzerinde çalışıyor.
Bildiri bağlantısı: https://arxiv.org/abs/2308.04371
Yao Qizhi, geniş bir model "düşünme" çerçevesi önermede başı çekti! Mantıksal akıl yürütmenin doğruluğu %98'dir ve düşünme şekli daha çok insanlara benzer.

İçerik Üreticisinden Daha Fazla İçerik Keşfedin

En Son Haberler

Yao Qizhi, geniş bir model "düşünme" çerçevesi önermede başı çekti! Mantıksal akıl yürütmenin doğruluğu %98'dir ve düşünme şekli daha çok insanlara benzer.

İçerik Üreticisinden Daha Fazla İçerik Keşfedin

En Son Haberler

Öne Çıkan Makaleler