„Gretel AI“ nustato naują standartą, paleisdamas išsamų teksto į SQL duomenų rinkinį

„Gretel AI“ nustato naują standartą, paleisdamas išsamų teksto į SQL duomenų rinkinį

„Gretel AI“ prisidėjo prie dirbtinio intelekto (DI) pažangos, išleisdamas iki šiol išsamiausią atvirojo kodo teksto į SQL duomenų rinkinį. Šis išradimas gali labai paspartinti dirbtinio intelekto modelių mokymą ir pagerinti įžvalgų, gautų iš įvairių pramonės šakų, kokybę.

Gretel sintetinis_text_to_sql duomenų rinkinys, priglobtas Hugging Face, turi 105 851 įrašą, iš kurių 100 000 yra skirti mokymui ir 5 851 patvirtinimui. Šiame didžiuliame duomenų rinkinyje iš viso yra apie 23 milijonai žetonų, įskaitant maždaug 12 milijonų SQL prieigos raktų iš 100 skirtingų sektorių ar domenų. Ja siekiama išspręsti daugybę SQL užduočių, įskaitant duomenų apibrėžimą, gavimą, modifikavimą, analizę ir ataskaitų teikimą, su įvairaus sudėtingumo SQL lygiais.

Šis duomenų rinkinys išsiskiria didžiuliu dydžiu ir kruopščiu dėmesiu detalėms jį kuriant. Tai apima duomenų bazės parametrus, tokius kaip lentelių ir rodinių kūrimo sakiniai, SQL užklausų aprašymai natūralia kalba ir kontekstinės žymos, padedančios tobulinti modelio mokymą. Toks išsamumo ir įvairovės lygis žymiai sumažina laiką ir išteklius, kuriuos duomenų komandos skiria duomenų kokybei gerinti, o tai paprastai sudaro iki 80 % jų pastangų.

Šiandieniniame duomenimis pagrįstame pasaulyje svarbu greitai ir patikimai išgauti įžvalgas iš duomenų bazių. Tekstas į SQL, leidžiantis duomenų bazių užklausas paprasta kalba, yra laikomas svarbiu žingsniu, kad duomenys būtų prieinamesni. Tačiau aukštos kokybės, įvairių teksto į SQL mokymo duomenų trūkumas sulėtino šios technologijos pažangą ir tobulėjimą.

„Gretel“ duomenų rinkinys siekia užpildyti šią spragą, siūlydamas patikimą šaltinį, skirtą didelių kalbų modelių (LLM) mokymui atliekant teksto į SQL užduotis. Tai suteikia plačią prieigą prie duomenų įžvalgų ir palengvina dirbtinio intelekto programų, kurios gali natūraliau sąveikauti su duomenų bazėmis, kūrimą.

Kuriant sintetinį_text_to_sql duomenų rinkinį iškilo iššūkių, ypač palaikant aukštą duomenų kokybę ir sprendžiant sunkumus dėl licencijų, kurie dažnai riboja esamų duomenų rinkinių naudojimą ir platinimą. „Gretel“ išsprendė šiuos sunkumus naudodama „Navigator“ įrankį, kuris naudoja sudėtingą AI sistemą, kad sukurtų aukštos kokybės sintetinius duomenis didžiuliu mastu.

LLM naudojimas vertintojams buvo novatoriškas metodas vertinant duomenų rinkinio kokybę. Šis metodas pasirodė esąs gana veiksmingas, derantis su žmogaus duomenų vertinimo kriterijais ir parodantis duomenų rinkinio atitiktį SQL, tikslumą ir normų laikymąsi, pranokdamas kitus duomenų rinkinius.

Gretel AI išleido sintetinį_text_to_sql duomenų rinkinį Hugging Face programoje – tai reikšmingas pasiekimas sintetinių duomenų srityje. Jame pateikiamas didžiulis ir įvairus atvirojo kodo duomenų rinkinys, paspartinantis teksto į SQL technologijų kūrimą ir pabrėžiantis aukštos kokybės duomenų svarbą kuriant veiksmingas AI sistemas.

Code Labs Academy © 2025 Visos teisės saugomos.