Gretel AI establece un nuevo estándar con el lanzamiento de su conjunto completo de datos de texto a SQL

Actualizado el June 05, 2024 3 min de lectura

Gretel AI ha hecho una contribución revolucionaria al avance de la inteligencia artificial (IA) al lanzar el conjunto de datos de texto a SQL de código abierto más completo hasta la fecha. Esta invención tiene el potencial de acelerar enormemente el entrenamiento de modelos de IA, aumentando la calidad de los conocimientos obtenidos a partir de los datos en una amplia gama de industrias.

El conjunto de datos sintético_text_to_sql de Gretel, alojado en Hugging Face, tiene 105.851 registros, 100.000 de los cuales son para entrenamiento y 5.851 para validación. Este enorme conjunto de datos contiene alrededor de 23 millones de tokens en total, incluidos aproximadamente 12 millones de tokens SQL de 100 sectores o dominios diferentes. Tiene como objetivo resolver una amplia gama de tareas SQL, incluida la definición, recuperación, modificación, análisis e informes de datos, con distintos niveles de complejidad SQL.

Este conjunto de datos destaca por su enorme tamaño y su meticulosa atención al detalle en su creación. Incluye configuraciones de bases de datos, como declaraciones de creación de tablas y vistas, descripciones en lenguaje natural de consultas SQL y etiquetas contextuales para ayudar a refinar el entrenamiento del modelo. Este nivel de profundidad y diversidad reduce considerablemente el tiempo y los recursos que los equipos de datos dedican a mejorar la calidad de los datos, que normalmente representa hasta el 80 % de sus esfuerzos.

En el mundo actual impulsado por los datos, es importante poder extraer información de las bases de datos de forma rápida y confiable. El texto a SQL, que permite consultas de bases de datos en lenguaje sencillo, se considera un paso fundamental para hacer que los datos sean más accesibles. Sin embargo, la falta de datos de capacitación de Texto a SQL diversos y de alta calidad ha frenado el progreso y la mejora de esta tecnología.

El conjunto de datos de Gretel busca cerrar esta brecha ofreciendo un recurso confiable para entrenar modelos de lenguaje grande (LLM) en tareas de texto a SQL. Proporciona un amplio acceso a conocimientos de datos y facilita el desarrollo de aplicaciones de inteligencia artificial que pueden interactuar con bases de datos de una manera más natural.

La creación del conjunto de datos sintético_text_to_sql presentó desafíos, particularmente en el mantenimiento de una alta calidad de los datos y las dificultades de negociación de licencias, que frecuentemente limitan el uso y la difusión de los conjuntos de datos existentes. Gretel abordó estas dificultades con su herramienta Navigator, que utiliza un complicado sistema de inteligencia artificial para generar datos sintéticos de alta calidad a gran escala.

El uso de LLM como evaluadores fue un enfoque innovador para evaluar la calidad del conjunto de datos. Este enfoque ha demostrado ser bastante efectivo, alineándose con los criterios de evaluación de datos humanos y demostrando el cumplimiento, la precisión y el cumplimiento de las normas de SQL del conjunto de datos, superando a otros conjuntos de datos.

El lanzamiento por parte de Gretel AI del conjunto de datos sintético_text_to_sql en Hugging Face marca un logro histórico en el campo de los datos sintéticos. Presenta un conjunto de datos de código abierto masivo y diverso, que acelera el desarrollo de tecnologías de texto a SQL y enfatiza la importancia de los datos de alta calidad en la creación de sistemas de inteligencia artificial eficaces.