Nguồn bài viết in lại: Heart of the Machine

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Làn gió hạ cánh các mô hình đa phương thức lớn cuối cùng cũng bắt đầu thổi.

Cách đây chục ngày, OpenAI đã thêm chức năng nhận dạng hình ảnh vào ChatGPT, cho phép người dùng tải lên một hoặc nhiều hình ảnh để thực hiện các cuộc trò chuyện. Từ tài liệu tóm tắt công khai của OpenAI, chúng tôi biết rằng đằng sau chức năng nhận dạng hình ảnh của ChatGPT là một mô hình lớn mới có tên GPT-4V.

Trên thực tế, khả năng này đã tồn tại khi GPT-4 được phát hành cách đây nửa năm nhưng nó vẫn chưa được tiết lộ cho người dùng thông thường. Trong lĩnh vực AI, các mô hình lớn đa phương thức từ lâu đã trở thành xu hướng được thừa nhận và cũng được coi là mô-đun chủ chốt của các trợ lý AI nói chung.

Trước sự nhấn mạnh của OpenAI về "nguồn đóng", nhiều nhà nghiên cứu cũng đã đi đầu trong việc đưa ra kết quả nghiên cứu mô hình lớn đa phương thức của riêng họ. Ví dụ, hai kiệt tác lớn "LLaVA" và "MiniGPT-4" đã chứng minh kết quả ấn tượng về khả năng theo dõi hướng dẫn tự nhiên và khả năng suy luận trực quan.

Vào tháng 4 năm nay, các nhà nghiên cứu từ Đại học Wisconsin-Madison, Microsoft Research và Đại học Columbia đã cùng nhau phát hành LLaVA (Trợ lý thị giác và ngôn ngữ lớn). Mặc dù LLaVA đã được đào tạo với một tập dữ liệu hướng dẫn đa phương thức nhỏ nhưng nó đã cho thấy kết quả suy luận rất giống với GPT-4 trên một số mẫu.

Ngày nay, thành tích này đã nhận được một bản nâng cấp lớn: LLaVA-1.5 đã được phát hành chính thức, làm mới SOTA trên 11 điểm chuẩn thông qua các sửa đổi đơn giản đối với LLaVA ban đầu.

  • Địa chỉ giấy: https://browse.arxiv.org/pdf/2310.03744.pdf

  • Trang web demo: https://llava.hliu.cc/

Chỉ sử dụng 1,2 triệu dữ liệu công khai, LLaVA-1.5 được đào tạo trong vòng chưa đầy 1 ngày trên một nút 8-A100.

Trong bài báo, các nhà nghiên cứu giới thiệu hai cải tiến đơn giản: trình kết nối đa phương thức MLP và hợp nhất dữ liệu liên quan đến các nhiệm vụ học thuật như VQA. Khi được sử dụng cùng với LLaVA, hai cải tiến này mang lại sự hiểu biết đa phương thức tốt hơn.

So với InstructBLIP hoặc Qwen-VL, đào tạo các bộ lấy mẫu lại hình ảnh được thiết kế đặc biệt trên hàng trăm triệu hoặc thậm chí hàng tỷ cặp văn bản hình ảnh, LLaVA sử dụng thiết kế kiến ​​trúc đơn giản nhất và chỉ cần đào tạo trên các cặp văn bản hình ảnh 600K. Một phép chiếu được kết nối đầy đủ đơn giản. lớp.

Nó có thể được so sánh với GPT-4V không?

Trước khi đọc bài viết, trước tiên chúng ta hãy xem khả năng nhận dạng của LLaVA-1.5 và liệu nó có thể so sánh với GPT-4V hay không.

Đề xuất 1: Chuyển đổi hàng tạp hóa sang JSON

Hướng dẫn: Cần xác định tất cả các loại trái cây (chỉ trái cây) sau đó tạo đối tượng cho mỗi loại trái cây với thuộc tính tên và thành phần dinh dưỡng bao gồm các đặc tính về lượng calo, carbohydrate, chất béo và protein ước tính.

Kết quả trả lời của LLaVA-1.5:

Kết quả trả lời của GPT-4V:

Đề xuất 2: Xác định tên phim từ bản phác thảo đơn giản

Hướng dẫn: Bức tranh này nói về bộ phim nào? Lưu ý: Tôi đã thay đổi tên các nhân vật để khó xác định hơn.

Kết quả trả lời của LLaVA-1.5:

Kết quả trả lời của GPT-4V:

Chi tiết giấy

LLaVA thể hiện khả năng đáng khen ngợi trong khả năng suy luận trực quan, vượt trội so với nhiều mô hình tiên tiến nhất trên nhiều tiêu chuẩn khác nhau trong các nhiệm vụ giảng dạy trực quan trong đời thực, trong khi chỉ kém các tiêu chuẩn học thuật thường yêu cầu câu trả lời ngắn. Nhóm nghiên cứu cho rằng lý do thứ hai là do LLaVA không được đào tạo trước về dữ liệu quy mô lớn như các phương pháp khác.

Cụ thể, nghiên cứu này trước tiên phân tích tác động của dữ liệu mở rộng, mô hình và độ phân giải hình ảnh đầu vào trên ba bộ dữ liệu được chọn trong Bảng 1 bên dưới, sau đó tiến hành thử nghiệm so sánh trên 12 điểm chuẩn khác nhau trong Bảng 2; Kết quả thử nghiệm cho thấy kiến ​​trúc LLaVA mạnh mẽ và hiệu quả về dữ liệu để điều chỉnh hướng dẫn thị giác, đồng thời đạt được hiệu suất cao nhất bằng cách sử dụng dữ liệu huấn luyện và tính toán ít hơn đáng kể so với tất cả các phương pháp khác.

Lời nhắc định dạng phản hồi

Nghiên cứu cho thấy các phương pháp như InstructBLIP không thể đạt được sự cân bằng giữa VQA dạng ngắn và dạng dài vì hai lý do chính:

Đầu tiên, lời nhắc đưa ra cho LLM không rõ ràng ở định dạng phản hồi. Ví dụ: lời nhắc như "Q: {Question} A: {Answer}" không nêu rõ định dạng đầu ra được yêu cầu. Ngay cả đối với các cuộc trò chuyện trực quan tự nhiên, có thể khiến LLM trở nên quá phù hợp để đưa ra những câu trả lời ngắn gọn.

Thứ hai, LLM không được tinh chỉnh. Ví dụ: InstructBLIP yêu cầu mã thông báo đầu ra trực quan của Qformer để kiểm soát độ dài đầu ra của LLM (định dạng dài/định dạng ngắn), nhưng do dung lượng hạn chế nên Qformer có thể thiếu khả năng thực hiện điều này một cách chính xác.

Để giải quyết vấn đề này, nghiên cứu đề xuất sử dụng “dấu nhắc định dạng phản hồi” trong đó nêu rõ định dạng đầu ra. Ví dụ: khi mô hình yêu cầu đưa ra câu trả lời ngắn gọn, hãy thêm câu vào cuối câu hỏi VQA: “Trả lời. câu hỏi sử dụng một từ hoặc cụm từ duy nhất."

Nghiên cứu này bằng thực nghiệm cho thấy rằng khi tinh chỉnh LLM bằng những lời nhắc như vậy, LLaVA có thể điều chỉnh phù hợp định dạng đầu ra theo hướng dẫn của người dùng và không yêu cầu xử lý bổ sung dữ liệu VQA bằng ChatGPT.

Hơn nữa, nghiên cứu này cũng cho thấy việc cải thiện sức mạnh biểu đạt của trình kết nối hình ảnh-lời nói thông qua MLP hai lớp có thể cải thiện khả năng đa phương thức của LLaVA so với mô hình ban đầu. Hơn nữa, nghiên cứu cũng mở rộng dữ liệu cho các nhiệm vụ học thuật, bao gồm các bộ dữ liệu VQA theo định hướng nhiệm vụ học thuật bổ sung cho VQA, OCR và nhận thức cấp khu vực để nâng cao khả năng đa phương thức của mô hình.

Bạn đọc quan tâm có thể đọc nguyên văn bài báo để tìm hiểu thêm về nội dung nghiên cứu.

Liên kết tham khảo:

https://twitter.com/rowancheung/status/1710736745904721955

https://twitter.com/imhaotian/status/1710192818159763842