Kwestia poruszona w artykule zatytułowanym „XLM-V: Pokonanie wąskiego gardła słownika w wielojęzycznych modelach języka maskowanego” polega na tym, że gdy parametry i głębokość modeli językowych wzrastają, rozmiary ich słownictwa pozostają niezmienione. Na przykład model mT5 ma 13B parametrów, ale słownik zawierający 250 tys. słów obsługuje ponad 100 języków. Zatem każdy język ma około 2500 unikalnych tokenów, co jest oczywiście bardzo małą liczbą.
@Midjourney/Shalv
Jakie działania podejmują autorzy? W nieoczekiwany sposób rozpoczynają naukę nowego modelu z 1 milionem tokenów ze słownika. XLM-R istniał już wcześniej, jednak po tej aktualizacji stanie się XLM-V. Autorzy byli zdeterminowani, aby zobaczyć, jakiego rodzaju ulepszenia można wprowadzić przy tak znaczącym wzroście liczby tokenów.
Powiązany artykuł: Oczekuje się, że koszty szkolenia w zakresie modeli sztucznej inteligencji wzrosną ze 100 milionów dolarów do 500 milionów dolarów do 2030 roku
Co jest nowego w XLM-V, czego nie ma XLM-R?

Metoda ulepszania modeli wielojęzycznych za pomocą słowników klastrowanych językowo służy do konstruowania wektorów reprezentacji leksykalnej dla każdego języka w następujący sposób: dla każdego języka w zbiorze języków tworzą one wektor binarny, którego każdy element jest konkretnym słowem w języku . Jedna wskazuje, że słowo to znajduje się w słowniku języka (w załącznikach można zobaczyć obraz z opisem graficznym). Jednak tworząc wektor wykorzystujący ujemne logarytmiczne prawdopodobieństwo wystąpienia każdego leksemu, autorzy usprawniają sposób tworzenia odniesień .
Następnie wektory są grupowane. Dodatkowo na każdym konkretnym klastrze trenuje się model zdań, aby zatrzymać transfer słownictwa między leksykalnie niepowiązanymi językami.
ALP ocenia zdolność słownika do reprezentowania określonego języka.
Następnym krokiem jest wykorzystanie algorytmu do tworzenia słowników ULM. który zaczyna się od dużego słownika początkowego i stopniowo go przycina, aż liczba tokenów spadnie poniżej pewnego progu rozmiaru słownika.
Przeczytaj więcej o sztucznej inteligencji:
Ponad 120 najpopularniejszych treści generowanych przez sztuczną inteligencję w 2023 r.: obrazy, muzyka, filmy
10 najlepszych narzędzi SEO opartych na sztucznej inteligencji w 2023 r. dla marketerów cyfrowych
10 najlepszych aplikacji do generowania grafiki mobilnej AI w 2023 r. na Androida i iOS
Wpis XLM-V: nowa metoda wielojęzycznych modeli języka maskowanego, która próbuje rozwiązać problem wąskiego gardła słownictwa, ukazał się jako pierwszy w Metaverse Post.
