Gretel AI on antanut pelin muuttavan panoksen tekoälyn (AI) kehitykseen julkaisemalla tähän mennessä kattavimman avoimen lähdekoodin tekstistä SQL:ksi -tietojoukon. Tällä keksinnöllä on potentiaalia nopeuttaa huomattavasti tekoälymallien koulutusta, mikä parantaa datasta saatavien oivallusten laatua useilla eri toimialoilla.
Gretelin synteettisessä_text_to_sql-tietojoukossa, jota isännöidään Hugging Facessa, on 105 851 tietuetta, joista 100 000 on koulutusta ja 5 851 validointia varten. Tämä valtava tietojoukko sisältää yhteensä noin 23 miljoonaa merkkiä, mukaan lukien noin 12 miljoonaa SQL-tunnusta 100 eri sektorilta tai toimialueelta. Se aikoo ratkaista monenlaisia SQL-tehtäviä, mukaan lukien tietojen määrittely, haku, muokkaus, analytiikka ja raportointi, ja SQL:n monimutkaisuus vaihtelee.
Tämä tietojoukko erottuu valtavasta koostaan ja huolellisesta yksityiskohdistaan sen luomisessa. Se sisältää tietokanta-asetuksia, kuten taulukoiden ja näkymien luontilausekkeita, SQL-kyselyiden luonnollisen kielen kuvauksia ja kontekstuaalisia tunnisteita, jotka auttavat parantamaan mallin koulutusta. Tämä syvyyden ja monimuotoisuuden taso vähentää huomattavasti aikaa ja resursseja, jotka datatiimit käyttävät tietojen laadun parantamiseen, mikä on yleensä muodostanut jopa 80 % heidän ponnisteluistaan.
Nykypäivän tietovetoisessa maailmassa on tärkeää pystyä poimimaan tietoa tietokannoista nopeasti ja luotettavasti. Text-to-SQL, joka mahdollistaa tietokantakyselyt selkeällä kielellä, nähdään tärkeänä askeleena tietojen saatavuuden parantamisessa. Laadukkaiden ja monipuolisten Text-to-SQL-harjoitustietojen puute on kuitenkin hidastanut tämän tekniikan edistymistä ja parantamista.
Gretelin tietojoukko pyrkii paikkaamaan tämän aukon tarjoamalla luotettavan resurssin suurten kielimallien (LLM) koulutukseen tekstistä SQL:ksi -tehtävissä. Se tarjoaa laajan pääsyn tietoihin ja helpottaa sellaisten tekoälysovellusten kehittämistä, jotka voivat olla vuorovaikutuksessa tietokantojen kanssa luonnollisemmalla tavalla.
Synteettisen_text_to_sql-tietojoukon luominen toi haasteita, erityisesti korkean tiedonlaadun ylläpitämisessä ja lisenssivaikeuksien neuvottelemisessa, mikä usein rajoittaa olemassa olevien tietojoukkojen käyttöä ja levittämistä. Gretel ratkaisi nämä ongelmat Navigator-työkalullaan, joka käyttää monimutkaista tekoälyjärjestelmää tuottaakseen korkealaatuista synteettistä dataa valtavassa mittakaavassa.
LLM:ien käyttäminen arvioijina oli innovatiivinen tapa arvioida aineiston laatua. Tämä lähestymistapa on osoittautunut varsin tehokkaaksi, sillä se on linjassa ihmistietojen arviointikriteereiden kanssa ja osoittaa tietojoukon SQL-yhteensopivuuden, tarkkuuden ja normien noudattamisen, mikä ylittää muut tietojoukot.
Gretel AI:n synteettisen_text_to_sql-tietojoukon julkaisu Hugging Facessa on merkkisaavutus synteettisten tietojen alalla. Se esittelee massiivisen ja monipuolisen avoimen lähdekoodin tietojoukon, joka nopeuttaa Text-to-SQL-tekniikoiden kehitystä ja korostaa korkealaatuisen datan merkitystä tehokkaiden tekoälyjärjestelmien luomisessa.