Gretel AI устанавливает новый стандарт с выпуском комплексного набора данных для преобразования текста в SQL

Обновлено на June 25, 2024 2 Прочнет минуты

Gretel AI внесла революционный вклад в развитие искусственного интеллекта (ИИ), выпустив наиболее полный на сегодняшний день набор данных Text-to-SQL с открытым исходным кодом. Это изобретение может значительно ускорить обучение моделей ИИ, повышая качество понимания, полученного на основе данных в широком спектре отраслей.

Синтетический набор данных Gretel_text_to_sql, размещенный на Hugging Face, содержит 105 851 запись, 100 000 из которых предназначены для обучения и 5851 для проверки. Этот огромный набор данных содержит в общей сложности около 23 миллионов токенов, включая примерно 12 миллионов токенов SQL из 100 различных секторов или доменов. Он предназначен для решения широкого спектра задач SQL, включая определение, извлечение, изменение данных, анализ и отчетность данных, с различными уровнями сложности SQL.

Этот набор данных выделяется своим огромным размером и тщательным вниманием к деталям при его создании. Он включает в себя настройки базы данных, такие как операторы создания таблиц и представлений, описания SQL-запросов на естественном языке и контекстные теги, помогающие усовершенствовать обучение модели. Такой уровень глубины и разнообразия значительно сокращает время и ресурсы, которые группы обработки данных тратят на улучшение качества данных, на которое обычно уходит до 80% их усилий.

В современном мире, управляемом данными, важна возможность быстрого и надежного извлечения информации из баз данных. Преобразование текста в SQL, позволяющее выполнять запросы к базе данных простым языком, рассматривается как важнейший шаг в обеспечении большей доступности данных. Однако отсутствие высококачественных и разнообразных данных для обучения преобразованию текста в SQL замедлило прогресс и совершенствование этой технологии.

Набор данных Gretel призван восполнить этот пробел, предлагая надежный ресурс для обучения моделей большого языка (LLM) задачам преобразования текста в SQL. Он обеспечивает широкий доступ к аналитическим данным и облегчает разработку приложений искусственного интеллекта, которые могут взаимодействовать с базами данных более естественным образом.

Создание синтетического набора данных_text_to_sql сопряжено с трудностями, особенно в плане поддержания высокого качества данных и согласования проблем с лицензиями, которые часто ограничивают использование и распространение существующих наборов данных. Gretel решила эти трудности с помощью своего инструмента Navigator, который использует сложную систему искусственного интеллекта для генерации высококачественных синтетических данных в огромных масштабах.

Использование LLM в качестве оценщиков было инновационным подходом к оценке качества набора данных. Этот подход оказался весьма эффективным: он соответствует критериям оценки человеческих данных и демонстрирует соответствие набора данных SQL, его точность и соответствие нормам, превосходя другие наборы данных.

Выпуск Gretel AI набора синтетических_text_to_sql данных на Hugging Face знаменует собой знаковое достижение в области синтетических данных. Он представляет собой массивный и разнообразный набор данных с открытым исходным кодом, ускоряя развитие технологий преобразования текста в SQL и подчеркивая важность высококачественных данных для создания эффективных систем искусственного интеллекта.