Vấn đề được đặt ra trong bài viết “XLM-V: Vượt qua nút thắt từ vựng trong các mô hình ngôn ngữ đeo mặt nạ đa ngôn ngữ” là khi các thông số và độ sâu của mô hình ngôn ngữ tăng lên thì kích thước từ vựng của chúng không thay đổi. Chẳng hạn, mô hình mT5 có tham số 13B nhưng vốn từ vựng 250K từ hỗ trợ hơn 100 ngôn ngữ. Do đó, mỗi ngôn ngữ có khoảng 2.500 mã thông báo duy nhất, đây rõ ràng là một con số rất nhỏ.

@Midjourney/Shalv

Tác giả thực hiện hành động gì? Họ bắt đầu đào tạo một mô hình mới với 1 triệu token từ từ vựng một cách bất ngờ. XLM-R trước đây đã tồn tại, tuy nhiên, với lần nâng cấp này, nó sẽ trở thành XLM-V. Những người viết đã quyết tâm xem họ có thể thực hiện loại cải tiến nào với số lượng mã thông báo tăng đáng kể như vậy.

Bài viết liên quan: Chi phí đào tạo mô hình AI dự kiến ​​sẽ tăng từ 100 triệu đô la lên 500 triệu đô la vào năm 2030

Điểm gì ở XLM-V mới hơn XLM-R?

Phương pháp Improvement Multilingual Models with Language-Clustered Vocabularies được sử dụng để xây dựng các vectơ biểu diễn từ vựng cho từng ngôn ngữ như sau: đối với mỗi ngôn ngữ trong tập hợp các ngôn ngữ, chúng tạo nên một vectơ nhị phân, mỗi phần tử của vectơ này là một từ cụ thể trong ngôn ngữ đó. Một vectơ chỉ ra rằng từ đó được bao gồm trong từ điển của ngôn ngữ đó (bạn có thể xem hình ảnh có mô tả đồ họa trong các tệp đính kèm.) Tuy nhiên, bằng cách tạo ra một vectơ sử dụng xác suất logarit âm của sự xuất hiện của mỗi từ tố, các tác giả cải thiện cách tạo tham chiếu.

  1. Các vectơ được nhóm lại sau đó. Ngoài ra, một mô hình câu được đào tạo trên mỗi cụm cụ thể để ngăn chặn việc chuyển giao từ vựng giữa các ngôn ngữ không liên quan về mặt từ vựng.

  2. ALP đánh giá khả năng biểu diễn một ngôn ngữ cụ thể của một từ điển.

  3. Bước tiếp theo là sử dụng thuật toán để tạo từ điển ULM, bắt đầu bằng một từ điển ban đầu lớn và dần dần cắt giảm cho đến khi số lượng mã thông báo xuống dưới ngưỡng nhất định về kích thước từ điển.

Đọc thêm về AI:

  • 120+ Nội dung do AI tạo ra hàng đầu năm 2023: Hình ảnh, Âm nhạc, Video

  • Top 10 công cụ SEO hỗ trợ AI năm 2023 dành cho các nhà tiếp thị kỹ thuật số

  • Top 10 ứng dụng tạo nghệ thuật AI di động năm 2023 dành cho Android và IOS

Bài đăng XLM-V: Một phương pháp mới của mô hình ngôn ngữ ẩn đa ngôn ngữ nhằm giải quyết vấn đề tắc nghẽn từ vựng xuất hiện đầu tiên trên Metaverse Post.