Gretel AI đã có đóng góp mang tính thay đổi cuộc chơi cho sự phát triển của trí tuệ nhân tạo (AI) bằng cách phát hành bộ dữ liệu Chuyển văn bản sang SQL nguồn mở toàn diện nhất cho đến nay. Phát minh này có khả năng đẩy nhanh đáng kể việc đào tạo các mô hình AI, nâng cao chất lượng thông tin chi tiết thu được từ dữ liệu trên nhiều ngành công nghiệp.
Tập dữ liệu tổng hợp_text_to_sql của Gretel, được lưu trữ trên Hugging Face, có 105.851 bản ghi, 100.000 trong số đó dành cho đào tạo và 5.851 để xác thực. Tập dữ liệu khổng lồ này chứa tổng cộng khoảng 23 triệu mã thông báo, bao gồm khoảng 12 triệu mã thông báo SQL từ 100 lĩnh vực hoặc miền khác nhau. Nó dự định giải quyết một loạt các nhiệm vụ SQL, bao gồm định nghĩa, truy xuất, sửa đổi, phân tích và báo cáo dữ liệu, với các mức độ phức tạp SQL khác nhau.
Bộ dữ liệu này nổi bật nhờ kích thước khổng lồ và sự chú ý tỉ mỉ đến từng chi tiết trong quá trình tạo ra nó. Nó bao gồm các cài đặt cơ sở dữ liệu như câu lệnh tạo bảng và dạng xem, mô tả ngôn ngữ tự nhiên của truy vấn SQL và thẻ theo ngữ cảnh để giúp tinh chỉnh việc đào tạo mô hình. Mức độ chuyên sâu và đa dạng này làm giảm đáng kể thời gian và nguồn lực mà các nhóm dữ liệu dành để cải thiện chất lượng dữ liệu, vốn thường chiếm tới 80% nỗ lực của họ.
Trong thế giới dựa trên dữ liệu ngày nay, việc có thể trích xuất thông tin chuyên sâu từ cơ sở dữ liệu một cách nhanh chóng và đáng tin cậy là điều quan trọng. Chuyển văn bản thành SQL, cho phép truy vấn cơ sở dữ liệu bằng ngôn ngữ đơn giản, được xem là một bước quan trọng trong việc làm cho dữ liệu dễ truy cập hơn. Tuy nhiên, việc thiếu dữ liệu đào tạo Text-to-SQL chất lượng cao, đa dạng đã làm chậm tiến độ và cải tiến của công nghệ này.
Tập dữ liệu của Gretel tìm cách thu hẹp khoảng cách này bằng cách cung cấp tài nguyên đáng tin cậy để đào tạo Mô hình ngôn ngữ lớn (LLM) trong các tác vụ Chuyển văn bản sang SQL. Nó cung cấp quyền truy cập rộng rãi vào thông tin chi tiết về dữ liệu và tạo điều kiện phát triển các ứng dụng AI có thể tương tác với cơ sở dữ liệu theo cách tự nhiên hơn.
Việc tạo tập dữ liệu tổng hợp_text_to_sql đặt ra những thách thức, đặc biệt là trong việc duy trì chất lượng dữ liệu cao và những khó khăn trong đàm phán giấy phép, thường hạn chế việc sử dụng và phổ biến các tập dữ liệu hiện có. Gretel đã giải quyết những khó khăn này bằng công cụ Navigator, sử dụng hệ thống AI phức tạp để tạo ra dữ liệu tổng hợp chất lượng cao trên quy mô lớn.
Sử dụng LLM làm người đánh giá là một cách tiếp cận sáng tạo để đánh giá chất lượng của tập dữ liệu. Cách tiếp cận này đã được chứng minh là khá hiệu quả, phù hợp với các tiêu chí đánh giá dữ liệu của con người và thể hiện sự tuân thủ, độ chính xác và tuân thủ SQL của tập dữ liệu, vượt trội so với các tập dữ liệu khác.
Việc Gretel AI phát hành bộ dữ liệu tổng hợp_text_to_sql trên Ôm mặt đánh dấu một thành tựu mang tính bước ngoặt trong lĩnh vực dữ liệu tổng hợp. Nó trình bày một bộ dữ liệu nguồn mở khổng lồ và đa dạng, thúc đẩy sự phát triển của công nghệ Chuyển văn bản thành SQL và nhấn mạnh tầm quan trọng của dữ liệu chất lượng cao trong việc tạo ra các hệ thống AI hiệu quả.