Gretel AI встановлює новий стандарт із запуском свого комплексного набору даних Text-to-SQL

Gretel AI встановлює новий стандарт із запуском свого комплексного набору даних Text-to-SQL

Gretel AI зробив кардинальний внесок у розвиток штучного інтелекту (ШІ), випустивши найповніший на сьогоднішній день набір даних Text-to-SQL з відкритим кодом. Цей винахід має потенціал для значного прискорення навчання моделей штучного інтелекту, підвищуючи якість розуміння, отриманого з даних у багатьох галузях.

Синтетичний набір даних Gretel_text_to_sql, розміщений на Hugging Face, містить 105 851 запис, 100 000 з яких призначено для навчання та 5851 для перевірки. Цей величезний набір даних містить близько 23 мільйонів маркерів, включаючи приблизно 12 мільйонів маркерів SQL зі 100 різних секторів або доменів. Він призначений для вирішення широкого кола завдань SQL, включаючи визначення даних, пошук, модифікацію, аналітику та звітність, з різними рівнями складності SQL.

Цей набір даних виділяється своїм величезним розміром і прискіпливою увагою до деталей під час його створення. Він містить параметри бази даних, такі як оператори створення таблиць і представлень, описи запитів SQL природною мовою та контекстні теги, які допомагають вдосконалити навчання моделі. Цей рівень глибини та різноманітності значно скорочує час і ресурси, які команди обробки даних витрачають на покращення якості даних, на що зазвичай припадає до 80% їхніх зусиль.

У сучасному світі, що керується даними, важлива можливість швидко й надійно отримувати статистичні дані з баз даних. Text-to-SQL, який дозволяє надсилати запити до бази даних простою мовою, розглядається як важливий крок у забезпеченні більшої доступності даних. Однак брак високоякісних різноманітних навчальних даних Text-to-SQL уповільнив прогрес і вдосконалення цієї технології.

Набір даних Gretel намагається усунути цю прогалину, пропонуючи надійний ресурс для навчання великих мовних моделей (LLM) у задачах Text-to-SQL. Він надає широкий доступ до аналітичних даних і полегшує розробку програм штучного інтелекту, які можуть взаємодіяти з базами даних у більш природний спосіб.

Створення синтетичного набору даних_text_to_sql викликало проблеми, зокрема у підтримці високої якості даних і труднощах у переговорах щодо ліцензії, які часто обмежують використання та розповсюдження існуючих наборів даних. Gretel вирішила ці труднощі за допомогою свого інструменту Navigator, який використовує складну систему ШІ для створення високоякісних синтетичних даних у величезному масштабі.

Використання LLM як оцінювачів було інноваційним підходом до оцінки якості набору даних. Цей підхід виявився досить ефективним, узгоджуючи його з критеріями оцінки людських даних і демонструючи відповідність набору даних SQL, точність і дотримання норм, перевершуючи інші набори даних.

Випуск Gretel AI набору даних synthetic_text_to_sql на Hugging Face знаменує собою визначне досягнення в області синтетичних даних. Він представляє величезний і різноманітний набір даних з відкритим кодом, прискорюючи розвиток технологій Text-to-SQL і підкреслюючи важливість високоякісних даних для створення ефективних систем ШІ.

Code Labs Academy © 2025 Всі права захищені.