Gretel AI stabilește un nou standard prin lansarea setului său cuprinzător de date text-to-SQL

Gretel AI stabilește un nou standard prin lansarea setului său cuprinzător de date text-to-SQL

Gretel AI a adus o contribuție decisivă la progresul inteligenței artificiale (AI) prin lansarea celui mai cuprinzător set de date open-source Text-to-SQL de până acum. Această invenție are potențialul de a accelera foarte mult instruirea modelelor AI, sporind calitatea informațiilor obținute din date într-o gamă largă de industrii.

Setul de date sintetice_text_to_sql al lui Gretel, găzduit pe Hugging Face, are 105.851 de înregistrări, dintre care 100.000 sunt pentru antrenament și 5.851 pentru validare. Acest set de date uriaș conține aproximativ 23 de milioane de jetoane în total, inclusiv aproximativ 12 milioane de jetoane SQL din 100 de sectoare sau domenii diferite. Intenționează să rezolve o gamă largă de sarcini SQL, inclusiv definirea datelor, preluarea, modificarea, analiza și raportarea, cu niveluri variate de complexitate SQL.

Acest set de date se remarcă prin dimensiunea sa enormă și atenția meticuloasă la detalii în crearea sa. Include setări ale bazei de date, cum ar fi declarații de creare a tabelelor și a vizualizării, descrieri în limbaj natural ale interogărilor SQL și etichete contextuale pentru a ajuta la perfecționarea antrenamentului modelului. Acest nivel de profunzime și diversitate reduce considerabil timpul și resursele pe care echipele de date le alocă îmbunătățirii calității datelor, care de obicei a reprezentat până la 80% din eforturile lor.

În lumea actuală bazată pe date, este important să poți extrage rapid și fiabil informații din bazele de date. Text-to-SQL, care permite interogări de baze de date într-un limbaj simplu, este privit ca un pas critic în a face datele mai accesibile. Cu toate acestea, lipsa datelor de instruire Text-to-SQL de înaltă calitate și diverse a încetinit progresul și îmbunătățirea acestei tehnologii.

Setul de date Gretel încearcă să reducă acest decalaj oferind o resursă de încredere pentru antrenarea modelelor de limbaj mari (LLM) în sarcinile text-to-SQL. Oferă acces larg la informații despre date și facilitează dezvoltarea de aplicații AI care pot interacționa cu bazele de date într-un mod mai natural.

Crearea setului de date sintetice_text_to_sql a prezentat provocări, în special în menținerea unei calități ridicate a datelor și în negocierea dificultăților de licență, care limitează frecvent utilizarea și diseminarea seturilor de date existente. Gretel a abordat aceste dificultăți cu instrumentul său Navigator, care utilizează un sistem AI complicat pentru a genera date sintetice de înaltă calitate la scară mare.

Utilizarea LLM-urilor ca evaluatori a fost o abordare inovatoare de evaluare a calității setului de date. Această abordare s-a dovedit a fi destul de eficientă, aliniindu-se cu criteriile de evaluare a datelor umane și demonstrând conformitatea SQL, acuratețea și aderarea la norme ale setului de date, depășind alte seturi de date.

Lansarea de către Gretel AI a setului de date sintetic_text_to_sql pe Hugging Face marchează o realizare de referință în domeniul datelor sintetice. Prezintă un set de date open-source masiv și divers, accelerând dezvoltarea tehnologiilor Text-to-SQL și subliniind importanța datelor de înaltă calitate în crearea unor sisteme AI eficiente.

Code Labs Academy © 2025 Toate drepturile rezervate.