Gretel AI establece un novo estándar co lanzamento do seu conxunto de datos completo de texto a SQL

Actualizado en September 23, 2024 3 Minutos lidos

Gretel AI fixo unha contribución revolucionaria ao avance da intelixencia artificial (IA) ao lanzar o conxunto de datos de texto a SQL de código aberto máis completo ata a data. Este invento ten o potencial de acelerar moito o adestramento de modelos de IA, aumentando a calidade dos coñecementos obtidos a partir dos datos nunha ampla gama de industrias.

O conxunto de datos sintéticos_text_to_sql de Gretel, aloxado en Hugging Face, ten 105.851 rexistros, 100.000 dos cales son para adestramento e 5.851 para validación. Este enorme conxunto de datos contén uns 23 millóns de tokens en total, incluíndo aproximadamente 12 millóns de tokens SQL de 100 sectores ou dominios diferentes. Ten a intención de resolver unha ampla gama de tarefas de SQL, incluíndo definición de datos, recuperación, modificación, análise e informes, con niveis variados de complexidade de SQL.

Este conxunto de datos destaca polo seu enorme tamaño e unha minuciosa atención aos detalles na súa creación. Inclúe configuracións de base de datos como instrucións de creación de táboas e vistas, descricións en linguaxe natural de consultas SQL e etiquetas contextuais para mellorar o adestramento do modelo. Este nivel de profundidade e diversidade reduce considerablemente o tempo e os recursos que os equipos de datos dedican a mellorar a calidade dos datos, que normalmente representaron ata o 80 % dos seus esforzos.

No mundo actual baseado en datos, é importante poder extraer información das bases de datos de forma rápida e fiable. Text-to-SQL, que permite consultas de bases de datos en linguaxe sinxela, é visto como un paso crítico para facer os datos máis accesibles. Non obstante, a falta de datos de adestramento de texto a SQL diversos e de alta calidade retardou o progreso e a mellora desta tecnoloxía.

O conxunto de datos de Gretel busca pechar esta brecha ofrecendo un recurso fiable para adestrar grandes modelos de linguaxe (LLM) en tarefas de texto a SQL. Ofrece un amplo acceso a información sobre os datos e facilita o desenvolvemento de aplicacións de IA que poden interactuar coas bases de datos dun xeito máis natural.

A creación do conxunto de datos sintéticos_text_to_sql presentou desafíos, especialmente para manter unha alta calidade de datos e negociar dificultades de licenza, que con frecuencia limitan o uso e a difusión dos conxuntos de datos existentes. Gretel abordou estas dificultades coa súa ferramenta Navigator, que utiliza un complicado sistema de intelixencia artificial para xerar datos sintéticos de alta calidade a gran escala.

O uso de LLM como avaliador foi un enfoque innovador para avaliar a calidade do conxunto de datos. Este enfoque demostrou ser bastante efectivo, aliñandose cos criterios de avaliación de datos humanos e demostrando o cumprimento, a precisión e o cumprimento das normas de SQL do conxunto de datos, superando a outros conxuntos de datos.

O lanzamento de Gretel AI do conxunto de datos sintéticos_text_to_sql en Hugging Face marca un logro histórico no campo dos datos sintéticos. Presenta un conxunto de datos de código aberto masivo e diverso, que acelera o desenvolvemento de tecnoloxías de texto a SQL e destaca a importancia dos datos de alta calidade para crear sistemas de IA eficaces.