Fonte ristampa articolo: AIcore

Fonte: Qubit

Il primo grande documento modello linguistico condotto dal vincitore del Premio Turing Yao Qizhi è qui!

Non appena ho iniziato, miravo a "far sì che i modelli di grandi dimensioni pensassero come persone"——

Non solo i modelli di grandi dimensioni devono ragionare passo dopo passo, ma devono anche imparare a "passo dopo passo" e ricordare tutti i processi corretti nel processo di ragionamento.

Nello specifico, questo nuovo articolo propone un nuovo metodo chiamato Ragionamento Cumulativo, che migliora significativamente la capacità di modelli di grandi dimensioni di eseguire ragionamenti complessi.

Dovresti sapere che i modelli di grandi dimensioni si basano su catene di pensiero, ecc., e possono essere utilizzati per il ragionamento sui problemi, ma di fronte a problemi che richiedono "diversi turni", è ancora facile commettere errori.

È su questa base che il ragionamento cumulativo aggiunge un "verificatore" per giudicare il giusto dallo sbagliato in tempo reale. Anche la struttura di pensiero di questo modello è cambiata da catena e albero a un più complesso "grafo aciclico diretto".

In questo modo il modello grande non solo ha le idee più chiare per risolvere i problemi, ma sviluppa anche l'abilità di "giocare a carte":

Su problemi matematici come l'algebra e la teoria geometrica dei numeri, la precisione relativa dei modelli di grandi dimensioni è aumentata del 42% quando si gioca a blackjack, il tasso di successo è salito al 98%;

Secondo l'Institute of Cross-Information dell'Università di Tsinghua, il co-primo autore Zhang Yifan ha spiegato il punto di partenza di questo articolo:

Kahneman ritiene che l'elaborazione cognitiva umana includa due sistemi: il "Sistema 1" è veloce, istintivo ed emotivo, e il "Sistema 2" è lento, riflessivo e logico. Attualmente, le prestazioni di modelli linguistici di grandi dimensioni sono più vicine al "Sistema 1", il che potrebbe essere il motivo per cui non è adatto a gestire compiti complessi.

Il ragionamento cumulativo progettato da questa prospettiva è migliore di Chain of Thinking (CoT) e Tree of Thinking (ToT).

Allora, come si presenta concretamente questo nuovo approccio? Diamo un'occhiata insieme.

Rompi la catena del pensiero e stabilisci i "colli di bottiglia"

Il nucleo del ragionamento cumulativo sta nel migliorare la "forma" del processo di pensiero di grandi modelli.

Nello specifico, questo metodo utilizza tre grandi modelli linguistici:

  • Proponente: proporre costantemente nuove proposizioni, ovvero suggerire quale sarà il prossimo passo in base al contesto di pensiero attuale.

  • Verificatore: verifica l'accuratezza della proposta del proponente e, se corretta, la aggiunge al contesto di pensiero.

  • Reporter: determina se è stata ottenuta la soluzione finale e se terminare il processo di ragionamento.

Durante il processo di ragionamento, il "proponente" dà prima una proposta, il "verificatore" è responsabile della valutazione e il "reporter" decide se finalizzare la risposta e terminare il processo di riflessione.

△Esempio di ragionamento CR

È un po' come i tre tipi di ruoli in un progetto di squadra: i membri del team fanno prima un brainstorming sulle varie idee, l'istruttore "controlla" per vedere quale idea è fattibile e il leader del team decide quando completare il progetto.

Quindi, in che modo esattamente questo approccio cambia la “forma” del pensiero del grande modello?

Per capirlo, dobbiamo iniziare con la Catena del Pensiero (CoT), l’“ideatrice” dei metodi di miglioramento del pensiero basato su grandi modelli.

Questo metodo è stato proposto dallo scienziato OpenAI Jason Wei e altri nel gennaio 2022. Il nocciolo della questione è aggiungere un testo di "ragionamento passo passo" all'input nel set di dati per stimolare la capacità di pensiero del modello di grandi dimensioni.

△Selezionato dal set di dati GSM8K

Basandosi sul principio della catena di pensiero, Google ha rapidamente lanciato anche una "versione Thinking Chain PLUS", vale a dire CoT-SC, che conduce principalmente processi multipli di catena di pensiero e vota a maggioranza sulle risposte per selezionare la risposta migliore per migliorare il ragionamento precisione.

Ma sia Thinking Chain che CoT-SC ignorano un problema: esiste più di una soluzione alla domanda, soprattutto quando gli esseri umani risolvono il problema.

Pertanto, è emersa una nuova ricerca chiamata Tree of Thought (ToT).

Si tratta di uno schema di ricerca ad albero che consente al modello di provare una varietà di idee di ragionamento diverse, autovalutarsi, scegliere la linea d'azione successiva e tornare indietro se necessario.

Dal metodo si può vedere che l'albero del pensiero va oltre la catena del pensiero, rendendo il pensiero del modello di grandi dimensioni "più attivo".

Questo è il motivo per cui quando si gioca a 24 punti, la percentuale di successo GPT-4 del bonus della Catena del Pensiero è solo del 4%, ma la percentuale di successo dell'Albero del Pensiero sale al 74%.

MA, indipendentemente dalla catena di pensiero, dal CoT-SC o dall'albero del pensiero, ha una limitazione comune:

Nessuno di loro ha creato un luogo di archiviazione per i risultati intermedi del processo di pensiero.

Dopotutto, non tutti i processi mentali possono essere trasformati in catene o alberi. Il modo in cui gli esseri umani pensano alle cose è spesso più complicato.

Questo nuovo quadro di ragionamento cumulativo supera questo punto della progettazione:

Il processo di pensiero complessivo di un modello di grandi dimensioni non è necessariamente una catena o un albero, può anche essere un grafico aciclico diretto (DAG)! (Beh, odora di sinapsi)

△Gli spigoli nel grafico hanno direzioni e non ci sono percorsi circolari; ogni spigolo diretto è un passo di derivazione

Ciò significa che può archiviare in memoria tutti i risultati dell'inferenza storicamente corretti per l'esplorazione nel ramo di ricerca corrente. (Al contrario, un albero pensante non memorizza informazioni da altri rami)

Ma il ragionamento cumulativo può anche passare senza soluzione di continuità con la catena di pensiero: finché il "verificatore" viene rimosso, si tratta di un modello di catena di pensiero standard.

Il ragionamento cumulativo progettato sulla base di questo metodo ha ottenuto buoni risultati in vari metodi.

Bravo a fare matematica e ragionamento logico

I ricercatori hanno scelto il wiki FOLIO e AutoTNLI, il gioco a 24 punti e i set di dati MATH per "testare" il ragionamento cumulativo.

Il proponente, il verificatore e il relatore utilizzano lo stesso ampio modello linguistico in ogni esperimento e utilizzano istruzioni diverse per impostare i propri ruoli.

I modelli di base utilizzati qui per gli esperimenti includono GPT-3.5-turbo, GPT-4, LLaMA-13B e LLaMA-65B.

Vale la pena ricordare che, idealmente, il modello dovrebbe essere specificamente pre-addestrato utilizzando i dati rilevanti dell'attività di derivazione e il "verificatore" dovrebbe anche aggiungere un dimostratore matematico formale, un modulo risolutore logico proposizionale, ecc.

1. Capacità di ragionamento logico

FOLIO è un set di dati di ragionamento logico di primo ordine e le etichette delle domande possono essere "vero", "falso" e "Sconosciuto" AutoTNLI è un set di dati di ragionamento logico di alto ordine.

Sul set di dati wiki FOLIO, rispetto ai metodi dei risultati di output diretto (Direct), della catena di pensiero (CoT) e della catena di pensiero avanzata (CoT-SC), le prestazioni del ragionamento cumulativo (CR) sono sempre le migliori.

Dopo aver rimosso le istanze problematiche (come le risposte errate) dal set di dati, la precisione dell'inferenza GPT-4 utilizzando il metodo CR ha raggiunto il 98,04%, con un tasso di errore minimo dell'1,96%.

Diamo un'occhiata alle prestazioni sul set di dati AutoTNLI:

Rispetto al metodo CoT, CR ha migliorato significativamente le prestazioni di LLaMA-13B e LLaMA-65B.

Sul modello LLaMA-65B, il miglioramento di CR rispetto a CoT ha raggiunto il 9,3%.

2. Capacità di giocare a partite da 24 punti

L'articolo originale sul ToT utilizzava un gioco a 24 punti, quindi i ricercatori hanno utilizzato questo set di dati per confrontare CR e ToT.

ToT utilizza un albero di ricerca con larghezza e profondità fisse e CR consente ai modelli di grandi dimensioni di determinare autonomamente la profondità di ricerca.

I ricercatori hanno scoperto negli esperimenti che nel contesto di 24 punti, l'algoritmo CR e l'algoritmo ToT sono molto simili. La differenza è che l'algoritmo in CR genera al massimo un nuovo stato per iterazione, mentre ToT genera molti stati candidati in ciascuna iterazione e filtra e conserva alcuni stati.

In parole povere, ToT non ha il "verificatore" menzionato sopra come CR e non può giudicare se gli stati (a, b, c) sono corretti o errati. Pertanto, ToT esplorerà più stati non validi rispetto a CR.

Alla fine, la precisione del metodo CR può raggiungere anche il 98% (ToT è del 74%) e il numero medio di stati a cui si accede è molto inferiore a ToT.

In altre parole, CR non solo ha un tasso di accuratezza della ricerca più elevato, ma ha anche una maggiore efficienza di ricerca.

3. Abilità matematica

Il set di dati MATH contiene un gran numero di domande di ragionamento matematico, tra cui algebra, geometria, teoria dei numeri, ecc. La difficoltà delle domande è divisa in cinque livelli.

Utilizzando il metodo CR, il modello può scomporre la domanda in sotto-domande che possono essere completate passo dopo passo, e porre domande e rispondere fino a quando non viene generata la risposta.

I risultati sperimentali mostrano che in due diverse impostazioni sperimentali, il tasso di accuratezza del CR supera gli attuali metodi esistenti, con un tasso di accuratezza complessivo fino al 58% e un aumento relativo dell'accuratezza del 42% nel problema di Livello 5. Scaricato il nuovo SOTA sotto il modello GPT-4.

Ricerca condotta da Yao Qizhi e Yuan Yang dell'Università Tsinghua

Questo articolo proviene dal gruppo di ricerca AI for Math guidato da Yao Qizhi e Yuan Yang del Tsinghua Institute of Interdisciplinary Information.

I co-primi autori dell'articolo sono Zhang Yifan e Yang Jingqin, studenti di dottorato 2021 presso l'Istituto di informazione interdisciplinare;

L'istruttore e l'autore co-corrispondente sono il professore assistente Yuan Yang e l'accademico Yao Qizhi.

Zhang Yifan

Zhang Yifan si è laureato allo Yuanpei College dell'Università di Pechino nel 2021. Attualmente studia con il professore assistente Yuan Yang. Le sue principali direzioni di ricerca sono la teoria e l'algoritmo dei modelli di base (modelli linguistici di grandi dimensioni), l'apprendimento autocontrollato e l'intelligenza artificiale affidabile.

Yang Jingqin

Yang Jingqin ha conseguito la laurea presso l'Istituto di informazione incrociata dell'Università di Tsinghua nel 2021 e attualmente sta studiando per il dottorato con il professore assistente Yuan Yang. Le principali direzioni di ricerca includono modelli linguistici di grandi dimensioni, apprendimento autocontrollato, assistenza medica intelligente, ecc.

Yuan Yang

Yuan Yang è un professore assistente presso la School of Interdisciplinary Information, Tsinghua University. Laureato presso il Dipartimento di Informatica dell'Università di Pechino nel 2012; ha conseguito un PhD in Informatica presso la Cornell University negli Stati Uniti nel 2018 e ha lavorato come ricercatore post-dottorato presso la School of Big Data Science del Massachusetts Institute of Technology dal 2018 al; 2019.

Le sue principali direzioni di ricerca sono l'assistenza medica intelligente, la teoria di base dell'intelligenza artificiale, la teoria delle categorie applicate, ecc.

Yao Qizhi

Yao Qizhi è un accademico dell'Accademia cinese delle scienze e preside dell'Istituto di informazione interdisciplinare dell'Università di Tsinghua. È anche il primo studioso asiatico a vincere il Premio Turing sin dalla sua istituzione e l'unico scienziato informatico cinese a vincere questo onore finora.

Il professor Yao Qizhi si è dimesso da Princeton come professore di ruolo nel 2004 ed è tornato a Tsinghua per insegnare nel 2005. Nel 2011 ha fondato la "Yao Class", un corso sperimentale di informatica per gli studenti universitari di Tsinghua " e l '"Istituto interdisciplinare di ricerca sull'informazione"; nel 2019. Nel 2008, ha fondato un corso di intelligenza artificiale per studenti universitari di Tsinghua, denominato "Smart Class".

Oggi, l'Istituto di informazione interdisciplinare dell'Università Tsinghua da lui guidato è famoso da tempo. Yao Class e Zhiban sono entrambi affiliati all'Istituto di informazione interdisciplinare.

Gli interessi di ricerca del professor Yao Qizhi includono algoritmi, crittografia, calcolo quantistico, ecc. È un pioniere internazionale e un’autorità in questo campo. Recentemente è apparso alla Conferenza mondiale sull'intelligenza artificiale del 2023. L'Istituto di ricerca Qizhi di Shanghai da lui diretto sta attualmente studiando "l'intelligenza artificiale generale incarnata".

Link al documento: https://arxiv.org/abs/2308.04371