Gretel AI postavlja nov standard z uvedbo svojega celovitega nabora podatkov Text-to-SQL

Gretel AI postavlja nov standard z uvedbo svojega celovitega nabora podatkov Text-to-SQL

Umetna inteligenca Gretel je spremenila igro k napredku umetne inteligence (AI) z izdajo najobsežnejšega odprtokodnega nabora podatkov Text-to-SQL do sedaj. Ta izum lahko močno pospeši usposabljanje modelov umetne inteligence in poveča kakovost vpogledov, pridobljenih iz podatkov v številnih panogah.

Gretelin sintetični nabor podatkov_text_to_sql, ki gostuje na Hugging Face, ima 105.851 zapisov, od katerih jih je 100.000 za usposabljanje in 5.851 za preverjanje. Ta ogromen nabor podatkov vsebuje približno 23 milijonov žetonov, vključno s približno 12 milijoni žetonov SQL iz 100 različnih sektorjev ali domen. Namenjen je reševanju širokega spektra nalog SQL, vključno z definicijo podatkov, iskanjem, spreminjanjem, analitiko in poročanjem, z različnimi stopnjami kompleksnosti SQL.

Ta niz podatkov izstopa po svoji ogromni velikosti in natančni pozornosti do podrobnosti pri ustvarjanju. Vključuje nastavitve baze podatkov, kot so izjave za ustvarjanje tabel in pogledov, opisi poizvedb SQL v naravnem jeziku in kontekstualne oznake za pomoč pri izboljšanju usposabljanja modela. Ta stopnja globine in raznolikosti znatno skrajša čas in sredstva, ki jih podatkovne ekipe namenijo izboljšanju kakovosti podatkov, kar je običajno predstavljalo do 80 % njihovih prizadevanj.

V današnjem svetu, ki temelji na podatkih, je pomembna možnost hitrega in zanesljivega pridobivanja vpogledov iz podatkovnih baz. Pretvorba besedila v SQL, ki omogoča poizvedbe po bazi podatkov v preprostem jeziku, velja za ključni korak pri zagotavljanju večje dostopnosti podatkov. Vendar pa je pomanjkanje visokokakovostnih in raznolikih podatkov za usposabljanje Text-to-SQL upočasnilo napredek in izboljšanje te tehnologije.

Gretelin nabor podatkov skuša zapolniti to vrzel s ponudbo zanesljivega vira za usposabljanje velikih jezikovnih modelov (LLM) v nalogah Text-to-SQL. Omogoča širok dostop do vpogledov v podatke in olajša razvoj aplikacij umetne inteligence, ki lahko komunicirajo z bazami podatkov na bolj naraven način.

Ustvarjanje sintetičnega nabora podatkov_text_to_sql je predstavljalo izzive, zlasti pri ohranjanju visoke kakovosti podatkov in pogajanjih o težavah z licencami, ki pogosto omejujejo uporabo in razširjanje obstoječih naborov podatkov. Gretel je te težave rešil s svojim orodjem Navigator, ki uporablja zapleten sistem AI za ustvarjanje visokokakovostnih sintetičnih podatkov v velikem obsegu.

Uporaba LLM kot ocenjevalcev je bil inovativen pristop ocenjevanja kakovosti nabora podatkov. Ta pristop se je izkazal za precej učinkovitega, saj je usklajen z merili za ocenjevanje človeških podatkov in dokazuje skladnost nabora podatkov s SQL, točnost in upoštevanje norm, s čimer prekaša druge nabore podatkov.

Izdaja podatkovnega nabora synthetic_text_to_sql na Hugging Face, ki jo je izvedel Gretel AI, pomeni pomemben dosežek na področju sintetičnih podatkov. Predstavlja ogromen in raznolik odprtokodni nabor podatkov, pospešuje razvoj tehnologij Text-to-SQL in poudarja pomen visokokakovostnih podatkov pri ustvarjanju učinkovitih sistemov umetne inteligence.

Code Labs Academy © 2025 Vse pravice pridržane.