Dịch máy (MT) là một thành phần quan trọng của Xử lý ngôn ngữ tự nhiên (NLP) nhằm mục đích dịch văn bản một cách máy móc từ ngôn ngữ này sang ngôn ngữ khác. Lĩnh vực này cải thiện giao tiếp đa ngôn ngữ và trao đổi thông tin quốc tế bằng cách sử dụng các mô hình ngôn ngữ lớn (LLM) để hiểu và tạo ra ngôn ngữ của con người. Cải thiện độ chính xác của bản dịch là mục tiêu chính của MT nhằm thu hẹp khoảng cách giao tiếp toàn cầu.
Vấn đề chính trong học máy là lựa chọn dữ liệu đào tạo đa dạng, chất lượng cao. Quyết định này rất quan trọng vì nó đảm bảo rằng các mô hình ngôn ngữ hoạt động tốt trong nhiều ngữ cảnh và ngôn ngữ khác nhau, tránh những bản dịch sai hoặc bỏ sót các sắc thái. Nghiên cứu truyền thống đã xem xét nhiều cách tiếp cận khác nhau để cải thiện dịch máy, chẳng hạn như lựa chọn mẫu dịch chuyên biệt và các chiến lược giải mã nâng cao. Các khuôn khổ nổi tiếng như TIM và GPT-4 tập trung về việc tối ưu hóa các tính năng này bằng cách sử dụng các số liệu đánh giá phức tạp như COMET và BLEU.
Các nhà nghiên cứu của ByteDance Research đã phát triển một kỹ thuật mới có tên là G-DIG sử dụng các kỹ thuật dựa trên độ dốc để chọn dữ liệu đào tạo tối ưu nhất cho máy học. Không phụ thuộc vào các mô hình bên ngoài, cách tiếp cận này nhằm mục đích tăng tính đa dạng và chất lượng của việc lựa chọn dữ liệu. G-DIG hoạt động theo hai bước: đầu tiên, nó tạo tập dữ liệu gốc để chọn dữ liệu chất lượng cao, sau đó sử dụng các hàm ảnh hưởng để phân tích tác động của các ví dụ huấn luyện đến hiệu suất của mô hình. Sau đó, nó cải thiện tính đa dạng bằng cách áp dụng các thuật toán phân cụm theo độ dốc của các trường hợp huấn luyện, đặt chúng vào các danh mục khác nhau dựa trên độ tương tự độ dốc.
Thử nghiệm mở rộng trên một số tác vụ dịch thuật, chẳng hạn như WMT22 và FLORES, cho thấy G-DIG vượt trội đáng kể so với các phương pháp lựa chọn dữ liệu hiện có và cạnh tranh thuận lợi với các mô hình hàng đầu. G-DIG đã cải thiện đáng kể điểm dịch thuật theo tiêu chí BLEU và COMET, thể hiện hiệu suất vượt trội trong cả bản dịch từ tiếng Trung sang tiếng Anh và tiếng Đức sang tiếng Anh. Điều quan trọng là dữ liệu do G-DIG lựa chọn đã tạo ra các bản dịch phù hợp hơn với mong đợi của con người và yêu cầu về chất lượng.
Sự ra đời của G-DIG đánh dấu một bước tiến đáng kể trong việc giải quyết các vấn đề về chất lượng và tính đa dạng của dữ liệu trong MT. Bằng cách tận dụng lựa chọn dựa trên độ dốc, mô hình sẽ tinh chỉnh hiệu suất của nó mà không cần đánh giá bên ngoài bổ sung. Sự phát triển này nêu bật tiềm năng của G-DIG trong việc nâng cao độ chính xác của bản dịch và hiệu quả của mô hình, hướng tới các hệ thống dịch máy tinh vi và đáng tin cậy hơn. Việc triển khai thành công G-DIG nhấn mạnh tầm quan trọng của chất lượng và tính đa dạng trong dữ liệu đào tạo, rất quan trọng để phát triển các mô hình ngôn ngữ mạnh mẽ, đáp ứng nhu cầu trao đổi thông tin và giao tiếp toàn cầu.
Tóm lại, phương pháp tiếp cận G-DIG của ByteDance Research là một tiến bộ đáng kể trong dịch máy, mở ra những khả năng mới để nâng cao hiệu suất của mô hình ngôn ngữ trong nhiều nhiệm vụ dịch thuật khác nhau. Cách tiếp cận này thể hiện sự phát triển đáng kể trong dịch máy nhờ khả năng cải thiện chất lượng dịch và sự liên kết mô hình với các lệnh của con người.