Gretel AI het 'n spelveranderende bydrae tot die bevordering van kunsmatige intelligensie (KI) gemaak deur die mees omvattende oopbron-Teks-na-SQL-datastel tot nog toe vry te stel. Hierdie uitvinding het die potensiaal om die opleiding van KI-modelle aansienlik te versnel, wat die kwaliteit van insigte wat verkry word uit data oor 'n wye reeks nywerhede, 'n hupstoot gee.
Gretel se sintetiese _text_to_sql-datastel, aangebied op Hugging Face, het 105 851 rekords, waarvan 100 000 vir opleiding en 5 851 vir validering is. Hierdie groot datastel bevat in totaal ongeveer 23 miljoen tokens, insluitend ongeveer 12 miljoen SQL-tokens van 100 verskillende sektore of domeine. Dit beoog om 'n wye reeks SQL-take op te los, insluitend datadefinisie, herwinning, wysiging, analise en verslagdoening, met verskillende vlakke van SQL-kompleksiteit.
Hierdie datastel staan uit vir sy enorme grootte en noukeurige aandag aan detail in die skepping daarvan. Dit bevat databasisinstellings soos tabel- en aansigskeppingstellings, natuurlike taalbeskrywings van SQL-navrae en kontekstuele etikette om modelopleiding te help verfyn. Hierdie vlak van diepte en diversiteit verminder aansienlik die tyd en hulpbronne wat dataspanne bestee aan die verbetering van datakwaliteit, wat tipies tot 80% van hul pogings uitgemaak het.
In vandag se data-gedrewe wêreld is dit belangrik om vinnig en betroubaar insigte uit databasisse te onttrek. Teks-na-SQL, wat databasisnavrae in gewone taal moontlik maak, word beskou as 'n kritieke stap om data meer toeganklik te maak. 'n Gebrek aan hoëgehalte, diverse teks-na-SQL-opleidingsdata het egter die vordering en verbetering van hierdie tegnologie vertraag.
Gretel se datastel poog om hierdie gaping te sluit deur 'n betroubare hulpbron te bied vir die opleiding van groottaalmodelle (LLM's) in teks-na-SQL-take. Dit bied breë toegang tot data-insigte en fasiliteer die ontwikkeling van KI-toepassings wat op 'n meer natuurlike manier met databasisse kan kommunikeer.
Die skep van die sintetiese_text_to_sql-datastel het uitdagings gebied, veral in die handhawing van hoë datakwaliteit en onderhandeling van lisensieprobleme, wat gereeld die gebruik en verspreiding van bestaande datastelle beperk. Gretel het hierdie probleme aangespreek met sy Navigator-instrument, wat 'n ingewikkelde AI-stelsel gebruik om sintetiese data van hoë gehalte op 'n groot skaal te genereer.
Die gebruik van LLM'e as evalueerders was 'n innoverende benadering om die datastel se kwaliteit te assesseer. Hierdie benadering het bewys dat dit redelik doeltreffend is, wat ooreenstem met menslike data-assesseringskriteria en die datastel se SQL-voldoening, akkuraatheid en nakoming van norme demonstreer, wat beter presteer as ander datastelle.
Gretel AI se vrystelling van die sintetiese_text_to_sql-datastel op Hugging Face is 'n landmerkprestasie op die gebied van sintetiese data. Dit bied 'n massiewe en diverse oopbrondatastel, wat die ontwikkeling van teks-na-SQL-tegnologieë versnel en die belangrikheid van hoëgehaltedata beklemtoon om effektiewe KI-stelsels te skep.