Mã hóa cặp byte (BPE) trong xử lý ngôn ngữ tự nhiên (NLP)

Cập nhật trên September 02, 2024 4 phút Đọc

Mã hóa cặp byte (BPE) là một thuật toán phổ biến được sử dụng trong xử lý ngôn ngữ tự nhiên (NLP) để mã thông báo từ phụ. Mục tiêu chính của nó là phân chia các từ thành các đơn vị nhỏ hơn, thường là mã thông báo từ phụ, để xử lý các từ ngoài từ vựng, cải thiện cách trình bày các từ hiếm và tốt hơn nắm bắt các biến thể hình thái.

Dưới đây là bảng phân tích về cách hoạt động của BPE:

Quy trình mã hóa cặp byte (BPE)

Khởi tạo

Bắt đầu bằng cách khởi tạo từ vựng bằng các ký tự riêng lẻ hoặc chuỗi byte.

Hợp nhất lặp đi lặp lại

Lặp lại toàn bộ kho dữ liệu và xác định cặp mã thông báo liên tiếp thường xuyên nhất.
Hợp nhất 2 token này để tạo thành token mới.
Cập nhật từ vựng với token mới này và tiếp tục lặp lại.

Tiêu chí dừng

Quá trình này tiếp tục với một số lần lặp nhất định hoặc cho đến khi đạt đến một ngưỡng nhất định (chẳng hạn như kích thước từ vựng hoặc phạm vi bao phủ kho ngữ liệu).

Từ vựng cuối cùng

Từ vựng cuối cùng bao gồm các token được gộp lại, bao gồm các ký tự đơn và các token từ phụ được gộp lại.

Xử lý các từ ngoài từ vựng (OOV)

Khi gặp một từ không có trong từ vựng, BPE có thể biểu diễn nó dưới dạng một chuỗi các token phụ từ từ vựng.
Bằng cách chia các từ chưa biết thành các đơn vị từ phụ có trong từ vựng, nó có thể xử lý các từ OOV bằng cách xây dựng lại một phần chúng.

Ứng dụng trong nén văn bản và mô hình hóa ngôn ngữ

Nén văn bản: Việc hợp nhất các cặp thường xuyên của BPE dẫn đến biểu diễn văn bản được nén. Nó thay thế các chuỗi ký tự thường xuyên bằng các cách biểu diễn ngắn hơn.
Mô hình hóa ngôn ngữ: BPE cho phép trình bày các từ linh hoạt hơn bằng cách chia chúng thành các đơn vị nhỏ hơn. Điều này cho phép mô hình nắm bắt các biến thể hình thái và xử lý các từ hiếm hoặc chưa từng thấy trước đây một cách hiệu quả hơn.

Đánh đổi và hiệu quả

Sự đánh đổi: BPE có chi phí tính toán do tính chất lặp đi lặp lại của việc hợp nhất các mã thông báo. Nó có thể tạo ra một vốn từ vựng lớn, tác động đến bộ nhớ và hiệu quả tính toán. Quá trình mã hóa cũng có thể chậm đối với tập đoàn lớn hơn.
Tính hiệu quả: BPE có hiệu quả cao trong việc nắm bắt các biến thể hình thái, đặc biệt trong các ngôn ngữ kết dính (ví dụ: tiếng Phần Lan, tiếng Thổ Nhĩ Kỳ) nơi các từ có thể có cấu trúc phức tạp. Nó cũng có khả năng xử lý các từ hiếm, cải thiện khả năng khái quát hóa các từ vựng không thể nhìn thấy của mô hình.

So sánh với các phương thức mã thông báo khác

Vs. Token hóa dựa trên từ: BPE xử lý các từ OOV tốt hơn các phương pháp dựa trên từ nhưng có thể tạo ra từ vựng lớn hơn.
Vs. Mã thông báo dựa trên ký tự: BPE nắm bắt thông tin hình thái tốt hơn các phương pháp dựa trên ký tự nhưng có thể yêu cầu nhiều mã thông báo hơn để thể hiện một số từ một cách hiệu quả.

BPE rất linh hoạt và được sử dụng rộng rãi trong các nhiệm vụ NLP khác nhau do khả năng xử lý các từ OOV, biểu thị các từ hiếm một cách hiệu quả và nắm bắt thông tin hình thái, khiến nó trở thành một kỹ thuật mã thông báo từ phụ mạnh mẽ.