Gretel AI a apporté une contribution révolutionnaire à l'avancement de l'intelligence artificielle (IA) en publiant l'ensemble de données Text-to-SQL open source le plus complet à ce jour. Cette invention a le potentiel d’accélérer considérablement la formation de modèles d’IA, améliorant ainsi la qualité des informations obtenues à partir des données dans un large éventail d’industries.
L'ensemble de données synthétiques_text_to_sql de Gretel, hébergé sur Hugging Face, contient 105 851 enregistrements, dont 100 000 pour la formation et 5 851 pour la validation. Cet énorme ensemble de données contient environ 23 millions de jetons au total, dont environ 12 millions de jetons SQL provenant de 100 secteurs ou domaines différents. Il vise à résoudre un large éventail de tâches SQL, notamment la définition, la récupération, la modification, l'analyse et le reporting de données, avec différents niveaux de complexité SQL.
Cet ensemble de données se distingue par sa taille énorme et l’attention méticuleuse portée aux détails lors de sa création. Il comprend des paramètres de base de données tels que des instructions de création de tables et de vues, des descriptions en langage naturel des requêtes SQL et des balises contextuelles pour aider à affiner la formation du modèle. Ce niveau de profondeur et de diversité réduit considérablement le temps et les ressources que les équipes de données consacrent à l'amélioration de la qualité des données, qui représente généralement jusqu'à 80 % de leurs efforts.
Dans le monde actuel axé sur les données, il est important de pouvoir extraire des informations des bases de données de manière rapide et fiable. Text-to-SQL, qui permet d'effectuer des requêtes de base de données en langage simple, est considéré comme une étape cruciale pour rendre les données plus accessibles. Cependant, le manque de données de formation Text-to-SQL diversifiées et de haute qualité a ralenti les progrès et l'amélioration de cette technologie.
L'ensemble de données de Gretel cherche à combler cette lacune en offrant une ressource fiable pour la formation de grands modèles linguistiques (LLM) dans les tâches Text-to-SQL. Il offre un large accès aux informations sur les données et facilite le développement d’applications d’IA capables d’interagir avec les bases de données de manière plus naturelle.
La création de l'ensemble de données synthétiques_text_to_sql présentait des défis, notamment en termes de maintien d'une qualité de données élevée et de difficultés de négociation de licence, qui limitent fréquemment l'utilisation et la diffusion des ensembles de données existants. Gretel a résolu ces difficultés avec son outil Navigator, qui utilise un système d'IA complexe pour générer des données synthétiques de haute qualité à grande échelle.
L'utilisation de LLM comme évaluateurs était une approche innovante pour évaluer la qualité de l'ensemble de données. Cette approche s'est avérée très efficace, s'alignant sur les critères d'évaluation des données humaines et démontrant la conformité SQL, l'exactitude et le respect des normes de l'ensemble de données, surpassant ainsi les autres ensembles de données.
La publication par Gretel AI de l'ensemble de données synthétiques_text_to_sql sur Hugging Face marque une réalisation historique dans le domaine des données synthétiques. Il présente un ensemble de données open source massif et diversifié, accélérant le développement des technologies Text-to-SQL et soulignant l'importance de données de haute qualité dans la création de systèmes d'IA efficaces.