Problém, který nastolil článek nazvaný „XLM-V: Překonání úzkého místa slovní zásoby ve vícejazyčných maskovaných jazykových modelech“, spočívá v tom, že když se parametry a hloubka jazykových modelů zvýší, velikost jejich slovní zásoby se nezmění. Například model mT5 má 13B parametrů, ale slovník o 250 tisících slov, který podporuje více než 100 jazyků. Každý jazyk má tedy přibližně 2 500 unikátních tokenů, což je samozřejmě velmi malý počet.
@Midjourney/Shalv
Jaké kroky dělají autoři? Nečekaným způsobem začnou trénovat nový model s 1 milionem tokenů ze slovní zásoby. XLM-R dříve existoval, ale s tímto upgradem se stane XLM-V. Spisovatelé byli odhodláni zjistit, jaké zlepšení by mohli provést s tak významným nárůstem tokenů.
Související článek: Očekává se, že náklady na školení AI Model do roku 2030 vzrostou ze 100 milionů USD na 500 milionů USD
Co je u XLM-V nového, co XLM-R ne?

Metoda Improving Multilingual Models with Language-Clustered Vocabularies se používá ke konstrukci vektorů lexikální reprezentace pro každý jazyk následovně: pro každý jazyk v množině jazyků tvoří binární vektor, jehož každý prvek je specifické slovo v jazyce. . Jeden naznačuje, že slovo je zahrnuto ve slovníku jazyka (obrázek s grafickým popisem si můžete prohlédnout v přílohách.) Vytvořením vektoru využívajícího zápornou logaritmickou pravděpodobnost výskytu každého lexému však autoři vylepšují způsob vytváření odkazů. .
Poté jsou vektory seskupeny. Navíc je na každém konkrétním shluku trénován model větného členu, aby se zastavil přenos slovní zásoby mezi lexikálně nesouvisejícími jazyky.
ALP posuzuje schopnost slovníku reprezentovat konkrétní jazyk.
Využití algoritmu pro vytváření slovníků ULM je následující krok. který začíná velkým počátečním slovníkem a postupně jej zkracuje, dokud není počet tokenů pod určitou prahovou hodnotou pro velikost slovníku.
Přečtěte si více o AI:
120++ AI generovaného obsahu v roce 2023: obrázky, hudba, videa
10 nejlepších SEO nástrojů založených na AI v roce 2023 pro digitální obchodníky
Top 10 mobilních aplikací AI Art Generator v roce 2023 pro Android a IOS
The post XLM-V: Nová metoda vícejazyčných maskovaných jazykových modelů, které se snaží řešit problém úzkého místa ve slovní zásobě appeared first on Metaverse Post.
