Gretel AI estableix un nou estàndard amb el llançament del seu conjunt de dades complet de text a SQL

Actualitzat a August 30, 2024 3 minuts de lectura

Gretel AI ha fet una contribució innovadora a l'avenç de la intel·ligència artificial (IA) al llançar el conjunt de dades de codi obert de text a SQL més complet fins ara. Aquest invent té el potencial d'accelerar molt la formació de models d'IA, augmentant la qualitat de la informació obtinguda a partir de les dades d'una àmplia gamma d'indústries.

El conjunt de dades sintètics_text_to_sql de Gretel, allotjat a Hugging Face, té 105.851 registres, 100.000 dels quals són per a la formació i 5.851 per a la validació. Aquest enorme conjunt de dades conté uns 23 milions de fitxes en total, inclosos aproximadament 12 milions de fitxes SQL de 100 sectors o dominis diferents. Té la intenció de resoldre una àmplia gamma de tasques SQL, com ara la definició de dades, la recuperació, la modificació, l'anàlisi i la generació d'informes, amb diferents nivells de complexitat SQL.

Aquest conjunt de dades destaca per la seva enorme mida i l'atenció meticulosa als detalls en la seva creació. Inclou la configuració de la base de dades, com ara declaracions de creació de taules i vistes, descripcions en llenguatge natural de consultes SQL i etiquetes contextuals per ajudar a perfeccionar l'entrenament del model. Aquest nivell de profunditat i diversitat redueix considerablement el temps i els recursos que els equips de dades dediquen a millorar la qualitat de les dades, que normalment ha representat fins al 80% dels seus esforços.

En el món actual basat en dades, és important poder extreure informació de manera ràpida i fiable de les bases de dades. Text-to-SQL, que permet consultes de bases de dades en llenguatge senzill, es considera un pas crític per fer que les dades siguin més accessibles. Tanmateix, la manca de dades d'entrenament de Text a SQL d'alta qualitat i diverses ha frenat el progrés i la millora d'aquesta tecnologia.

El conjunt de dades de Gretel pretén tancar aquesta bretxa oferint un recurs fiable per a la formació de grans models de llenguatge (LLM) en tasques de text a SQL. Proporciona un ampli accés a la informació de les dades i facilita el desenvolupament d'aplicacions d'IA que poden interactuar amb bases de dades d'una manera més natural.

La creació del conjunt de dades sintètic_text_to_sql presentava reptes, especialment per mantenir una alta qualitat de dades i negociar dificultats de llicència, que sovint limiten l'ús i la difusió dels conjunts de dades existents. Gretel va abordar aquestes dificultats amb la seva eina Navigator, que utilitza un sistema d'IA complicat per generar dades sintètiques d'alta qualitat a gran escala.

L'ús de LLM com a avaluadors va ser un enfocament innovador per avaluar la qualitat del conjunt de dades. Aquest enfocament ha demostrat ser bastant eficaç, alineant-se amb els criteris d'avaluació de dades humanes i demostrant el compliment, la precisió i l'adhesió a les normes SQL del conjunt de dades, superant altres conjunts de dades.

El llançament de Gretel AI del conjunt de dades sintètic_text_to_sql a Hugging Face marca un assoliment històric en el camp de les dades sintètiques. Presenta un conjunt de dades de codi obert massiu i divers, que accelera el desenvolupament de tecnologies de text a SQL i posa l'accent en la importància de les dades d'alta qualitat per crear sistemes d'IA eficaços.