ChatGPT uzplaukums: attīstības vēsture, tehniskie principi un ierobežojumi

Sākotnējais nosaukums: "No GPT-1 uz GPT-4, apskatiet ChatGPT pieaugumu"
Sākotnējais autors: Alpha Rabbit Research Notes
Kas ir ChatGPT?Kas ir ChatGPT?Nesen OpenAI izlaida ChatGPT — modeli, kas var mijiedarboties sarunvalodas veidā. Tā intelekta dēļ to atzinīgi novērtēja daudzi lietotāji. ChatGPT ir arī OpenAI iepriekš izdotā InstructGPT radinieks. ChatGPT modelis ir apmācīts, izmantojot RLHF (pastiprināšana ar cilvēka atgriezenisko saiti). Iespējams, ChatGPT ienākšana ir arī ievads pirms OpenAI GPT-4 oficiālās palaišanas.
Kas ir GPT? No GPT-1 uz GPT-3Ģeneratīvais iepriekš apmācīts transformators (GPT) ir teksta ģenerēšanas padziļinātas mācīšanās modelis, kas apmācīts, pamatojoties uz datiem, kas pieejami internetā. To izmanto atbildēm uz jautājumiem, teksta apkopošanai, mašīntulkošanai, klasifikācijai, koda ģenerēšanai un sarunvalodas AI.
2018. gadā piedzima GPT-1, kas bija arī pirmais NLP (dabiskās valodas apstrādes) modeļu pirmsapmācības gads. Runājot par veiktspēju, GPT-1 ir noteikta vispārināšanas spēja, un to var izmantot NLP uzdevumos, kuriem nav nekāda sakara ar uzraudzības uzdevumiem. Kopējie uzdevumi ietver:
Dabiskās valodas argumentācija: nosakiet attiecības starp diviem teikumiem (ierobežojums, pretruna, neitralitāte)
Jautājums un atbilde un veselā saprāta argumentācija: ievadiet rakstu un vairākas atbildes un izvadiet atbildes precizitāti
Semantiskās līdzības atpazīšana: nosakiet, vai divi teikumi ir semantiski saistīti
Kategorija: nosakiet, kurai kategorijai pieder ievadītais teksts
Lai gan GPT-1 ir zināma ietekme uz nenoregulētiem uzdevumiem, tā vispārināšanas spēja ir daudz zemāka nekā precīzi pielāgotiem uzraudzītiem uzdevumiem, tāpēc GPT-1 var uzskatīt tikai par diezgan labu valodas izpratnes rīku, nevis AI.
GPT-2 arī ieradās, kā plānots 2019. gadā. Tomēr GPT-2 sākotnējā tīklā neieviesa pārāk daudz strukturālu jauninājumu un dizainu. Tas izmantoja tikai vairāk tīkla parametru un lielāku datu kopu: maksimālais modeļa kopējais apjoms ir 48 slāņi un 1,5 miljardi parametru, lai veiktu uzraudzītus uzdevumus, mācību mērķis izmanto nepārraudzītu pirmsapmācības modeli. Runājot par veiktspēju, papildus izpratnes iespējām GPT-2 pirmo reizi ir parādījis spēcīgu talantu paaudzes laikā: kopsavilkumu lasīšana, tērzēšana, rakstīšanas turpināšana, stāstu veidošana un pat viltus ziņu ģenerēšana, pikšķerēšanas e-pastu vai lomu spēles. tiešsaistē nav problēma. Pēc tam, kad GPT-2 kļuva par lielāku, tas demonstrēja savas universālās un jaudīgās iespējas un sasniedza tajā laikā labāko veiktspēju vairākos specifiskos valodu modelēšanas uzdevumos.
Pēc tam parādījās GPT-3 kā neuzraudzīts modelis (tagad bieži saukts par pašpārraudzītu modeli), tas var gandrīz pabeigt lielāko daļu dabiskās valodas apstrādes uzdevumu, piemēram, uz problēmām orientētu meklēšanu, lasīšanas izpratni, semantiskos secinājumus un mašīntulkošanu. , rakstu ģenerēšana un automātiskais jautājums un atbilde utt. Turklāt modelis labi veic daudzus uzdevumus, piemēram, sasniedz pašreizējo jaunāko līmeni franču-angļu un vācu-angļu mašīntulkošanas uzdevumos. Automātiski ģenerētos rakstus ir gandrīz neiespējami atšķirt starp cilvēkiem un mašīnām (tikai 52% precizitāte), kas ir salīdzināma ar nejaušu minēšanu), un vēl pārsteidzošāk, tas sasniedz gandrīz 100% precizitāti divciparu saskaitīšanas un atņemšanas uzdevumos un var pat automātiski ģenerēt kodu, pamatojoties uz uzdevuma aprakstu. Nepārraudzītam modelim ir daudz funkciju un labu efektu, un šķiet, ka cilvēki saskata cerību uz vispārējo mākslīgo intelektu. Tas var būt galvenais iemesls, kāpēc GPT-3 ir tik liela ietekme.
Kas īsti ir GPT-3 modelis?
Faktiski GPT-3 ir vienkāršs statistikas valodas modelis. No mašīnmācīšanās viedokļa valodu modeļi modelē vārdu secību varbūtības sadalījumu, tas ir, izmantojot teiktos fragmentus kā nosacījumus, lai prognozētu dažādu vārdu varbūtības sadalījumu nākamajā brīdī. No vienas puses, valodas modelis var izmērīt pakāpi, kādā teikums atbilst valodas gramatikai (piemēram, mērot, vai cilvēka un datora dialoga sistēmas automātiski ģenerētā atbilde ir dabiska un raita), un to var arī izmantot. paredzēt un ģenerēt jaunus teikumus. Piemēram, klipam "Ir 12:00, iesim kopā uz restorānu" valodas modelis var paredzēt vārdus, kas var parādīties aiz "restorāns". Vispārējs valodas modelis paredzēs, ka nākamais vārds ir "ēst". Spēcīgs valodas modelis var uztvert laika informāciju un paredzēt vārdu "ēst pusdienas", kas atbilst kontekstam.
Parasti tas, vai valodas modelis ir spēcīgs, galvenokārt ir atkarīgs no diviem punktiem: pirmkārt, vai modelis var izmantot visu vēsturisko konteksta informāciju Iepriekš minētajā piemērā, ja tas nevar uztvert "12:00" liela attāluma semantisko informāciju valodas modelis gandrīz nespēs paredzēt nākamo reizi. Viens vārds "ēdiet pusdienas". Otrkārt, tas ir atkarīgs arī no tā, vai ir pietiekami daudz vēsturiskā konteksta, lai modelis varētu mācīties, tas ir, vai apmācību korpuss ir pietiekami bagāts. Tā kā valodas modelis ir pašpārraudzīta mācīšanās, optimizācijas mērķis ir maksimāli palielināt redzamā teksta valodas modeļa iespējamību, tāpēc jebkuru tekstu var izmantot kā apmācību datus bez etiķetes.
Pateicoties GPT-3 spēcīgākajai veiktspējai un ievērojami vairāk parametru, tajā ir vairāk tēmas teksta, kas acīmredzami ir labāks nekā iepriekšējās paaudzes GPT-2. Kā lielākais pašlaik pieejamais blīvais neironu tīkls GPT-3 var pārvērst tīmekļa lapu aprakstus atbilstošos kodos, atdarināt cilvēku stāstus, izveidot pielāgotus dzejoļus, ģenerēt spēļu skriptus un pat atdarināt mirušos filozofus, paredzot dzīves patieso jēgu. Un GPT-3 nav nepieciešama precīza noregulēšana, tam ir nepieciešami tikai daži izvades veida paraugi (neliels mācību apjoms), lai risinātu sarežģītas gramatikas problēmas. Var teikt, ka GPT-3, šķiet, ir apmierinājis visas mūsu valodas ekspertu iztēles.
Piezīme. Iepriekš minētais galvenokārt attiecas uz šādiem rakstiem:
1. GPT 4 drīz tiks izlaists, un tas ir salīdzināms ar cilvēka smadzenēm. Daudzi lielie nozares spēlētāji nevar nosēdēt uz vietas. -Sju Dzječengs, Juņ Džao - Publiskais konts 51 CTO tehnoloģiju kopa- 2022.11.24. 18:08
2. Atbildi uz savu interesi par GPT-3 vienā rakstā! Kas ir GPT-3? Kāpēc tas ir tik lieliski? -Zhang Jiajun Automatizācijas institūts, Ķīnas Zinātņu akadēmija Publicēts Pekinā, 2020. gada 11. gada 11. gada 17. 25.
3. The Batch: 329 |. InstructGPT, draudzīgāks un maigāks valodas modelis — publiskais konts DeeplearningAI-2022-02-07 12:30
Kādas ir problēmas ar GPT-3?Bet GTP-3 nav perfekta, viena no galvenajām mākslīgā intelekta problēmām ir tā, ka tērzēšanas roboti un teksta ģenerēšanas rīki, visticamāk, apgūst visus internetā pieejamos tekstus, savukārt, nekorektus, ļaunprātīgi aizskarošus, vai pat tiek radīta aizskaroša valoda, kas pilnībā ietekmēs to nākamo lietojumprogrammu.
OpenAI ir arī ierosinājis, ka tuvākajā nākotnē tiks izlaists jaudīgāks GPT-4:
GPT-3 salīdzināšana ar GPT-4 un cilvēka smadzenēm (Attēla kredīts: Lex Fridman @youtube)
Tiek teikts, ka GPT-4 tiks izlaists nākamajā gadā. Tas var izturēt Tjūringa testu un būt tik attīstīts, ka to nevar atšķirt no cilvēkiem. Turklāt ievērojami samazināsies arī GPT-4 ieviešanas izmaksas.
ChatGP un InstructGPTChatGPT un InstructGPTRunājot par Chatgpt, mums ir jārunā par tā "priekšgājēju" InstructGPT.
2022. gada sākumā OpenAI izlaida InstructGPT, salīdzinot ar GPT-3, lai apmācītu valodas modeli, kas ir reālāks, nekaitīgāks un labāk atbilst lietotāja nodomiem. InstructGPT ir jauns, precīzi pielāgots GPT-3 versija, kas samazina kaitīgu, nereālu un neobjektīvu izvadi.
Kā darbojas InstructGPT?Izstrādātāji to dara, apvienojot uzraudzītu mācīšanos un pastiprinošu mācīšanos no cilvēku atgriezeniskās saites. Lai uzlabotu GPT-3 izvades kvalitāti. Šāda veida mācībās cilvēki sarindo modeļa potenciālos rezultātus, izmantojot pastiprinošos mācīšanās algoritmus, kas atalgo modeļus, kas ražo materiālus, kas ir līdzīgi augsta līmeņa rezultātiem.
Apmācības datu kopa sākas, izveidojot uzvednes, no kurām dažas ir balstītas uz GPT-3 lietotāju sniegto informāciju, piemēram, “Pastāstiet man stāstu par vardi” vai “Paskaidrojiet dažos teikumos 6 gadus vecam bērnam par nolaišanos uz Mēness. ”
Izstrādātāji sadalīja uzvedni trīs daļās un katrai daļai radīja atbildes atšķirīgi:
Cilvēku rakstnieki reaģē uz pirmo uzvedņu kopu. Izstrādātāji precīzi noregulēja apmācītu GPT-3 un pārvērta to par InstructGPT, lai ģenerētu esošās atbildes katrai uzvednei.
Nākamais solis ir apmācīt modeli, lai atalgotu labākas atbildes ar lielāku atlīdzību. Otrajai uzvedņu kopai optimizētais modelis ģenerē vairākas atbildes. Cilvēku vērtētāji sarindo katru atbildi. Ņemot vērā tūlītēju un divas atbildes, atlīdzības modelis (cits iepriekš apmācīts GPT-3) iemācījās aprēķināt augstāku atlīdzību par augstu novērtēto atbildi un zemāku atlīdzību par atbildi ar zemu novērtējumu.
Izstrādātāji turpināja precizēt valodas modeli, izmantojot trešo padomu kopu un pastiprinošo mācību metodi Proksimālās politikas optimizācija (PPO). Kad tiek sniegta uzvedne, valodas modelis ģenerē atbildi, un atlīdzības modelis to attiecīgi apbalvo. PPO izmanto atlīdzību, lai atjauninātu valodas modeli.
Atsauce uz šo rindkopu: The Batch: 329 |. InstructGPT — draudzīgāks un maigāks valodas modelis — publiskais konts DeeplearningAI- 2022-02-07 12:30
Kas ir svarīgi? Galvenais ir tas, ka mākslīgajam intelektam ir jābūt atbildīgam mākslīgajam intelektam
OpenAI valodas modelis var palīdzēt izglītības, virtuālo terapeitu, rakstīšanas palīglīdzekļu, lomu spēļu uc jomās. Šajās jomās sociālā aizsprieduma, dezinformācijas un toksiskas informācijas esamība ir daudz apgrūtinošāka, un sistēmas, kas var izvairīties no šiem trūkumiem, var būt spējīgākam.
Kādas ir atšķirības starp Chatgpt un InstructGPT apmācības procesiem?
Parasti Chatgpt, tāpat kā iepriekš InstructGPT, tiek apmācīts, izmantojot RLHF (pastiprināšanas mācības no cilvēku atsauksmēm). Atšķirība ir tajā, kā dati tiek iestatīti apmācībai (un apkopoti). (Paskaidrojums šeit: iepriekšējais InstructGPT modelis sniedza izvadi ievadei un pēc tam salīdzināja to ar apmācības datiem. Jā, bija atlīdzības, nevis sodi; pašreizējais Chatgpt ir ievade, un modelis dod vairākus izvadus, un pēc tam cilvēki sniegt Šī izvades rezultātu šķirošana ļauj modelim klasificēt šos rezultātus no "vairāk cilvēkiem līdzīgām" uz "muļķībām", ļaujot modelim apgūt veidu, kā cilvēki šķiro šo stratēģiju. Paldies Dr. Zhang Zijie šī rindkopa)
Kādi ir ChatGPT ierobežojumi?sekojoši:
a) Apmācības pastiprināšanas mācību (RL) posmā nav konkrēta patiesības avota un standarta atbilžu uz jūsu jautājumiem.
b) Modelis ir apmācīts būt piesardzīgākam un var noraidīt atbildes (lai izvairītos no kļūdaini pozitīvas uzvednes).
c) Uzraudzīta apmācība var maldināt/novirzīt modeli uz ideālās atbildes zināšanu, nevis modeli, kas ģenerē nejaušu atbilžu kopu, un tikai cilvēki vērtētāji izvēlas labās/augstākā līmeņa atbildes.
Piezīme. ChatGPT ir jutīgs pret formulējumu. , dažreiz modelis nereaģē uz frāzi, bet, nedaudz pagriežot jautājumu/frāzi, tas galu galā atbild pareizi. Pasniedzēji dod priekšroku garākām atbildēm, jo ​​tās var šķist izsmeļošākas, izraisot tendenci sniegt garākas atbildes un pārmērīgi izmantot noteiktas frāzes modelī.
ChatGPT pašidentificētie ierobežojumi ir šādi.
Uzticami izklausāmas, bet nepareizas atbildes:
a) Nav īsta patiesības avota, lai šo problēmu atrisinātu apmācības pastiprināšanas apmācības (RL) posmā.
b) Apmācot modeli būt piesardzīgākam, var kļūdaini atteikties atbildēt (viltus pozitīvs rādītājs traucējošajiem norādījumiem).
c) Uzraudzīta apmācība var maldināt / novirzīt modelim ir tendence zināt ideālo atbildi, nevis modelim, kas ģenerē nejaušu atbilžu kopu, un tikai cilvēki pārbaudītāji, kas atlasa labu/augstu vērtējumu atbildiChatGPT ir jutīgi pret frāzēm. Dažreiz modelis beidzas bez atbildes uz frāzi, bet, nedaudz mainot jautājumu/frāzi, tas galu galā atbild uz to pareizi.
Pasniedzēji dod priekšroku garākām atbildēm, kas varētu izskatīties izsmeļošākas, izraisot neobjektivitāti pret runīgām atbildēm un noteiktu frāžu pārmērīgu lietošanu. Modelis nepieprasa precizējumus, ja sākotnējā uzvedne vai jautājums ir neskaidrs. Drošības slānis, lai noraidītu nepiemērotus pieprasījumus, izmantojot moderēšanas API ir īstenots. Tomēr mēs joprojām varam sagaidīt viltus negatīvas un pozitīvas atbildes.
atsauces:
1.https://medium.com/inkwater-atlas/chatgpt-the-new-frontier-of-artificial-intelligence-9 aee 81287677
2.https://pub.towardsai.net/openai-debuts-chatgpt-50 dd 611278 a 4
3. https://openai.com/blog/chatgpt/
4. GPT 4 drīzumā tiks izlaists, un tas ir salīdzināms ar cilvēka smadzenēm. Daudzi lielie nozares spēlētāji nevar nosēdēt uz vietas. -Sju Dzječengs, Juņ Džao - Publiskais konts 51 CTO tehnoloģiju kopa- 2022.11.24. 18:08
5. Atbildi uz savu interesi par GPT-3 vienā rakstā! Kas ir GPT-3? Kāpēc tas ir tik lieliski? -Zhang Jiajun Automatizācijas institūts, Ķīnas Zinātņu akadēmija Publicēts Pekinā, 2020. gada 11. gada 11. gada 17. 25.
6. The Batch: 329 |. InstructGPT — draudzīgāks un maigāks valodas modelis — publiskais konts DeeplearningAI-2022-02-07 12:30