A Fistful of Words: Facebook proposes an improved text encoder for CLIP
Trong bài viết “A Fistful of Words”, Facebook đã giới thiệu một phương pháp cải tiến cho phần encoder văn bản của mô hình CLIP (Contrastive Language-Image Pre-training). Các nhà nghiên cứu đã thực hiện một số thay đổi quan trọng để cải thiện hiệu suất của mô hình trong việc học tập từ văn bản và hình ảnh.

Một trong những thay đổi chính là việc shuffle các từ trong đầu vào văn bản và loại bỏ những từ không có ý nghĩa liên quan và từ高频词. Kết quả là một bộ sưu tập từ (BoW – Bag of Words) được cải tiến, giúp mô hình đạt được kết quả tốt hơn trong việc học tập.

Để giải quyết vấn đề dữ liệu có nhiều hình ảnh hơn văn bản, các nhà nghiên cứu đã đề xuất một phương pháp học bán监督. Họ sử dụng các văn bản có sẵn để huấn luyện mô hình, sau đó lấy các表征 từ các hình ảnh không có văn bản và tìm kiếm các từ quan trọng trong văn bản đã có. Để làm phong phú hơn kết quả tìm kiếm, họ sử dụng các hình ảnh được augment (tăng cường) để tạo ra nhiều view khác nhau và thực hiện nhiều lần tìm kiếm, sau đó kết hợp kết quả và chọn ra các từ quan trọng.

Một vấn đề quan trọng được đề cập trong bài viết là việc cần thiết của các字幕 tự nhiên để huấn luyện mô hình visual. Các nhà nghiên cứu đã thảo luận về việc có cần thiết phải sử dụng các字幕 tự nhiên và liệu có thể tìm ra một hình thức监督 đơn giản hơn để thay thế cho việc sử dụng các字幕 này. Điều này có thể giúp sử dụng hiệu quả hơn các hình ảnh không có字幕 để huấn luyện mô hình visual.
Giới thiệu chi tiết
“`