Vzestup ChatGPT: historie vývoje, technické principy a omezení

Původní název: „Od GPT-1 k GPT-4, podívejte se na vzestup ChatGPT“
Původní autor: Alpha Rabbit Research Notes
Co je ChatGPT?Co je ChatGPT?Nedávno OpenAI vydala ChatGPT, model, který dokáže komunikovat konverzačním způsobem Díky své inteligenci jej mnoho uživatelů uvítalo. ChatGPT je také příbuzný InstructGPT dříve vydaného OpenAI. Model ChatGPT je trénován pomocí RLHF (Reinforcement learning with human feedback).
Co je GPT? Od GPT-1 po GPT-3Generative Pre-trained Transformer (GPT) je model hlubokého učení generování textu trénovaný na datech dostupných na internetu. Používá se pro zodpovídání otázek, sumarizaci textu, strojový překlad, klasifikaci, generování kódu a konverzační AI.
V roce 2018 se zrodil GPT-1, který byl zároveň prvním rokem předtréninkových modelů pro NLP (zpracování přirozeného jazyka). Z hlediska výkonu má GPT-1 určitou schopnost generalizace a lze jej použít v úkolech NLP, které nemají nic společného s úkoly dohledu. Mezi běžné úkoly patří:
Úvaha v přirozeném jazyce: určete vztah mezi dvěma větami (uzavření, rozpor, neutralita)
Otázka a odpověď a logické uvažování: vložte článek a několik odpovědí a uveďte přesnost odpovědi
Rozpoznávání sémantické podobnosti: Určete, zda spolu dvě věty sémanticky souvisí
Kategorie: Určete, do které kategorie patří vstupní text
Ačkoli má GPT-1 určité účinky na nevyladěné úkoly, jeho schopnost zobecnění je mnohem nižší než u jemně vyladěných kontrolovaných úkolů. Proto lze GPT-1 považovat spíše za nástroj pro porozumění jazyku než za konverzační.
GPT-2 také dorazil podle plánu v roce 2019. GPT-2 však neprovedl příliš mnoho strukturálních inovací a návrhů na původní síti, pouze použil více síťových parametrů a větší soubor dat: maximální model celkem Má 48 vrstev a 1,5 miliardy parametrů Výukový cíl využívá k provádění řízených úkolů model předběžného školení bez dozoru. Pokud jde o výkon, kromě schopností porozumět, GPT-2 poprvé ukázal silný talent v generaci: číst shrnutí, chatovat, pokračovat v psaní, vymýšlet příběhy a dokonce generovat falešné zprávy, phishingové e-maily nebo hraní rolí. online není problém. Poté, co se GPT-2 „zvětšil“, prokázal své univerzální a výkonné schopnosti a dosáhl v té době nejlepšího výkonu při mnoha specifických úlohách jazykového modelování.
Poté se GPT-3 objevil jako model bez dohledu (nyní často nazývaný model s vlastním dohledem) a dokáže téměř dokončit většinu úkolů zpracování přirozeného jazyka, jako je vyhledávání orientované na problém, porozumění čtenému textu, sémantické vyvozování a strojový překlad. , generování článku a automatické otázky a odpovědi atd. Kromě toho model dobře funguje v mnoha úkolech, jako je dosažení současné nejmodernější úrovně francouzsko-anglických a německo-anglických úloh strojového překladu U automaticky generovaných článků je téměř nemožné rozlišit mezi lidmi a stroji (pouze 52% míra přesnosti) , srovnatelná s náhodným hádáním) a ještě překvapivější je, že dosahuje téměř 100% přesnosti u dvoumístných úloh sčítání a odčítání a dokonce dokáže automaticky generovat kód na základě popisu úlohy. Model bez dozoru má mnoho funkcí a dobrých efektů a zdá se, že lidé vidí naději obecné umělé inteligence. To může být hlavní důvod, proč má GPT-3 tak velký dopad.
Co je vlastně model GPT-3?
GPT-3 je ve skutečnosti jednoduchý statistický jazykový model. Z pohledu strojového učení modelují jazykové modely rozložení pravděpodobnosti slovních sekvencí, to znamená, že používají uvedené fragmenty jako podmínky k předpovědi rozložení pravděpodobnosti různých slov, která se objeví v příštím okamžiku. Na jedné straně může jazykový model měřit míru, do jaké věta odpovídá gramatice jazyka (například měřit, zda je odpověď automaticky generovaná dialogovým systémem člověk-počítač přirozená a plynulá), a lze jej také použít předvídat a vytvářet nové věty. Například u klipu „Je 12 hodin, půjdeme spolu do restaurace“ dokáže jazykový model předpovědět slova, která se mohou objevit po „restaurace“. Obecný jazykový model předpovídá, že další slovo je „jíst“. Výkonný jazykový model dokáže zachytit časové informace a předpovědět slovo „jíst oběd“, které odpovídá kontextu.
Obvykle to, zda je jazykový model výkonný, závisí hlavně na dvou bodech: za prvé, zda model dokáže využít všechny historické kontextové informace jazykový model bude příště téměř neschopný předpovědět jedno slovo „obědvat“. Za druhé také záleží na tom, zda existuje dostatečně bohatý historický kontext, aby se model mohl naučit, tedy zda je dostatečně bohatý tréninkový korpus. Vzhledem k tomu, že jazykový model je výuka s vlastním dohledem, cílem optimalizace je maximalizovat pravděpodobnost jazykového modelu viděného textu, takže jakýkoli text lze použít jako trénovací data bez označení.
Vzhledem k silnějšímu výkonu a výrazně většímu počtu parametrů GPT-3 obsahuje více tematického textu, což je samozřejmě lepší než předchozí generace GPT-2. Jako největší hustá neuronová síť, která je v současné době k dispozici, může GPT-3 převádět popisy webových stránek na odpovídající kódy, napodobovat lidská vyprávění, vytvářet vlastní básně, generovat herní scénáře a dokonce napodobovat zesnulé filozofy – předpovídající skutečný smysl života. A GPT-3 nevyžaduje jemné doladění, vyžaduje pouze několik vzorků výstupního typu (malé množství učení) k řešení obtížných gramatických problémů. Dá se říci, že GPT-3, zdá se, uspokojil všechny naše představy o jazykových expertech.
Poznámka: Výše ​​uvedené se týká především následujících článků:
1. Brzy vyjde GPT 4 a je srovnatelný s lidským mozkem Mnoho velkých hráčů v tomto odvětví nemůže sedět! -Xu Jiecheng, Yun Zhao -Veřejný účet 51 CTO Technology Stack- 2022-11-24 18: 08
2. Odpovězte na svou zvědavost ohledně GPT-3 v jednom článku! Co je GPT-3? Proč je tak vynikající? – Zhang Jiajun Institute of Automation, Chinese Academy of Sciences Publikováno v Pekingu dne 2020-11-11 17:25
3.The Batch: 329 |. InstructGPT, přátelštější a jemnější jazykový model – veřejný účet DeeplearningAI-2022-02-07 12: 30
Jaké jsou problémy s GPT-3?GTP-3 ale není dokonalý Jedním z hlavních problémů, kterého se lidé v umělé inteligenci nejvíce obávají, je to, že chatboti a nástroje pro generování textu se pravděpodobně naučí všechny texty na internetu bez rozdílu a naopak, nesprávně, zlomyslně. nebo dokonce vzniká urážlivý jazykový výstup, který plně ovlivní jejich další aplikaci.
OpenAI také navrhla, že v blízké budoucnosti bude vydán výkonnější GPT-4:
Porovnání GPT-3 s GPT-4 a lidský mozek (kredit obrázku: Lex Fridman @youtube)
Říká se, že GPT-4 bude uveden na trh příští rok. Dokáže projít Turingovým testem a bude tak pokročilý, že je k nerozeznání od lidí. Navíc se také výrazně sníží náklady na zavedení GPT-4 pro podniky.
ChatGP a InstructGPTChatGPT a InstructGPTKdyž mluvíme o Chatgpt, musíme mluvit o jeho „předchůdci“ InstructGPT.
Na začátku roku 2022 OpenAI v tomto výzkumu vydala InstructGPT, ve srovnání s GPT-3 použil OpenAI výzkum zarovnání k trénování jazykového modelu, který je realističtější, neškodnější a lépe sleduje záměry uživatele InstructGPT InstructGPT je nový, vyladěný verze GPT-3, která minimalizuje škodlivý, nerealistický a zkreslený výstup.
Jak InstructGPT funguje?Vývojáři to dělají kombinací učení pod dohledem a posílením učení z lidské zpětné vazby. Chcete-li zlepšit kvalitu výstupu GPT-3. V tomto typu učení lidé seřadí potenciální výstupy modelu posilující učební algoritmy odměňují modely, které produkují materiál podobný výstupu na vysoké úrovni.
Tréninková datová sada začíná vytvořením výzev, z nichž některé jsou založeny na podnětech od uživatelů GPT-3, jako například „Vyprávěj mi příběh o žábě“ nebo „Vysvětlete několika větami přistání na Měsíci šestiletému dítěti. “
Vývojáři rozdělili výzvu do tří částí a vytvořili odpovědi pro každou část jinak:
Lidští spisovatelé reagují na první sadu výzev. Vývojáři doladili trénovaný GPT-3 a přeměnili ho na InstructGPT, aby generoval existující odpovědi pro každou výzvu.
Dalším krokem je vycvičit model, aby odměňoval lepší reakce vyššími odměnami. Pro druhou sadu výzev generuje optimalizovaný model více odpovědí. Lidští hodnotitelé hodnotí každou odpověď. Na základě pohotovosti a dvou odpovědí se model odměny (další předem vycvičený GPT-3) naučil vypočítat vyšší odměnu za vysoce hodnocenou odpověď a nižší odměnu za odpověď s nízkým hodnocením.
Vývojáři dále doladili jazykový model pomocí třetí sady nápověd a metodu posílení učení Proximal Policy Optimization (PPO). Když je poskytnuta výzva, jazykový model vygeneruje odpověď a model odměny ji odpovídajícím způsobem odmění. PPO využívá odměny k aktualizaci jazykového modelu.
Odkaz na tento odstavec: The Batch: 329 |. InstructGPT, přátelštější a jemnější jazykový model – veřejný účet DeeplearningAI- 2022-02-07 12: 30
co je důležité? Jádrem je, že umělá inteligence musí být zodpovědnou umělou inteligencí
Jazykový model OpenAI může pomoci v oblastech vzdělávání, virtuálních terapeutů, psacích pomůcek, her na hraní rolí atd. V těchto oblastech je existence sociální předpojatosti, dezinformací a toxických informací obtížnější a systémy, které se dokážou těmto nedostatkům vyhnout, mohou být schopnější.
Jaké jsou rozdíly mezi tréninkovými procesy Chatgpt a InstructGPT?
Obecně platí, že Chatgpt, stejně jako výše uvedený InstructGPT, je trénován pomocí RLHF (Reinforcement Learning from Human Feedback). Rozdíl je v tom, jak jsou data nastavena pro školení (a shromažďována). (Vysvětlení zde: Předchozí model InstructGPT poskytl výstup pro vstup a poté jej porovnal s trénovacími daty. Ano, existovaly odměny, nikoli tresty; aktuální Chatgpt je vstup a model poskytuje více výstupů a poté lidé dát Toto třídění výstupních výsledků umožňuje modelu seřadit tyto výsledky od „lidštějších“ po „nesmyslné“, což umožňuje modelu učit se tak, jak lidé třídí. Děkujeme Dr. Zhang Zijie za tento odstavec)
Jaká jsou omezení ChatGPT?jak následuje:
a) Během tréninkové fáze posilovacího učení (RL) neexistuje žádný konkrétní zdroj pravdy a standardní odpovědi na vaše otázky.
b) Model je vycvičen, aby byl opatrnější a může odmítnout odpovědi (aby se zabránilo falešným pozitivním výzvám).
c) Školení pod dohledem může model uvést v omyl/předpojat k tomu, aby znal ideální odpověď, spíše než aby model generoval náhodnou sadu odpovědí a pouze lidští recenzenti vybírali dobré/nejlépe hodnocené odpovědi.
Poznámka: ChatGPT je citlivý na formulace. , někdy model skončí tak, že na frázi nereaguje, ale s mírným doladěním otázky/frázi nakonec odpoví správně. Lektoři mají tendenci preferovat delší odpovědi, protože se mohou jevit jako komplexnější, což vede k tendenci k delším odpovědím a nadměrnému používání určitých frází v modelu. Pokud je úvodní výzva nebo otázka nejednoznačná, model nebude žádat o vysvětlení.
Vlastní omezení ChatGPT jsou následující.
Věrohodně znějící, ale nesprávné odpovědi:
a) Neexistuje žádný skutečný zdroj pravdy, který by tento problém vyřešil během fáze tréninku posílením učení (RL).
b) Tréninkový model pro větší opatrnost může omylem odmítnout odpovědět (falešně pozitivní nebo problematické výzvy).
c) Školení pod dohledem může být zavádějící / zkreslení model má tendenci znát ideální odpověď spíše než model generující náhodnou sadu odpovědí a pouze lidští recenzenti vybírají dobrou/vysoce hodnocenou odpověďChatGPT je citlivý na frázování. Někdy model skončí bez odezvy na frázi, ale s mírným doladěním otázky/frázi skončí tak, že na ni odpoví správně.
Trenéři dávají přednost delším odpovědím, které by mohly vypadat komplexněji, což vede k předpojatosti k upovídaným odpovědím a nadměrnému používání určitých frází. Model nepožaduje náležitě objasnění, pokud je úvodní výzva nebo otázka nejednoznačná. Bezpečnostní vrstva k odmítnutí nevhodných požadavků prostřednictvím rozhraní API pro moderování byla implementována. Stále však můžeme očekávat falešně negativní a pozitivní ohlasy.
Reference:
1.https://medium.com/inkwater-atlas/chatgpt-the-new-frontier-of-artificial-intelligence-9 aee 81287677
2.https://pub.towardsai.net/openai-debuts-chatgpt-50 dd 611278 a 4
3.https://openai.com/blog/chatgpt/
4. Brzy vyjde GPT 4 a je srovnatelný s lidským mozkem Mnoho velkých hráčů v tomto odvětví nemůže sedět! -Xu Jiecheng, Yun Zhao -Veřejný účet 51 CTO Technology Stack - 2022-11-24 18: 08
5. Odpovězte na svou zvědavost ohledně GPT-3 v jednom článku! Co je GPT-3? Proč je tak vynikající? – Zhang Jiajun Institute of Automation, Chinese Academy of Sciences Publikováno v Pekingu dne 2020-11-11 17:25
6.The Batch: 329 |. InstructGPT, přátelštější a jemnější jazykový model – veřejný účet DeeplearningAI-2022-02-07 12: 30