Gretel AI ir devis spēli mainīgu ieguldījumu mākslīgā intelekta (AI) attīstībā, izlaižot līdz šim visplašāko atvērtā koda teksta-SQL datu kopu. Šim izgudrojumam ir potenciāls ievērojami paātrināt AI modeļu apmācību, uzlabojot ieskatu kvalitāti, kas iegūta no datiem dažādās nozarēs.
Gretel sintētiskajā_text_to_sql datu kopā, kas tiek mitināta Hugging Face, ir 105 851 ieraksts, no kuriem 100 000 ir paredzēti apmācībai un 5 851 pārbaudei. Šajā milzīgajā datu kopā ir aptuveni 23 miljoni marķieru, tostarp aptuveni 12 miljoni SQL marķieru no 100 dažādiem sektoriem vai domēniem. Tas ir paredzēts, lai atrisinātu plašu SQL uzdevumu klāstu, tostarp datu definēšanu, izgūšanu, modifikāciju, analīzi un atskaites, ar dažādu SQL sarežģītības līmeni.
Šī datu kopa izceļas ar savu milzīgo izmēru un rūpīgu uzmanību detaļām tās izveidē. Tajā ir iekļauti datu bāzes iestatījumi, piemēram, tabulu un skatu izveides priekšraksti, SQL vaicājumu apraksti dabiskā valodā un kontekstuālie tagi, lai palīdzētu uzlabot modeļu apmācību. Šis dziļuma un daudzveidības līmenis ievērojami samazina laiku un resursus, ko datu komandas velta datu kvalitātes uzlabošanai, kas parasti veido līdz pat 80% no viņu pūlēm.
Mūsdienu uz datiem balstītajā pasaulē ir svarīgi ātri un droši iegūt ieskatus no datu bāzēm. Teksta pārveide uz SQL, kas ļauj veikt datu bāzes vaicājumus vienkāršā valodā, tiek uzskatīta par būtisku soli datu pieejamības uzlabošanā. Tomēr augstas kvalitātes, daudzveidīgu teksta-SQL apmācības datu trūkums ir palēninājuši šīs tehnoloģijas progresu un uzlabošanos.
Gretel datu kopa cenšas novērst šo plaisu, piedāvājot uzticamu resursu lielu valodu modeļu (LLM) apmācībai teksta pārveides uzdevumos. Tas nodrošina plašu piekļuvi datu ieskatiem un atvieglo AI lietojumprogrammu izstrādi, kas var mijiedarboties ar datu bāzēm dabiskākā veidā.
Sintētiskās _text_to_sql datu kopas izveide radīja problēmas, jo īpaši saistībā ar augstas datu kvalitātes uzturēšanu un licenču grūtībām, kas bieži ierobežo esošo datu kopu izmantošanu un izplatīšanu. Gretel šīs grūtības risināja ar savu Navigator rīku, kas izmanto sarežģītu AI sistēmu, lai ģenerētu augstas kvalitātes sintētiskos datus milzīgā mērogā.
LLM izmantošana kā vērtētāji bija novatoriska pieeja datu kopas kvalitātes novērtēšanai. Šī pieeja ir izrādījusies diezgan efektīva, saskaņojot ar cilvēku datu novērtēšanas kritērijiem un demonstrējot datu kopas atbilstību SQL, precizitāti un normu ievērošanu, pārspējot citas datu kopas.
Gretel AI sintētiskās_text_to_sql datu kopas izlaišana vietnē Hugging Face ir ievērojams sasniegums sintētisko datu jomā. Tā piedāvā apjomīgu un daudzveidīgu atvērtā pirmkoda datu kopu, kas paātrina teksta pārveides tehnoloģiju attīstību un uzsver augstas kvalitātes datu nozīmi efektīvu AI sistēmu izveidē.