Gretel AI har gjort ett spelförändrande bidrag till utvecklingen av artificiell intelligens (AI) genom att släppa den mest omfattande text-till-SQL-datauppsättningen med öppen källkod hittills. Denna uppfinning har potentialen att avsevärt påskynda utbildningen av AI-modeller, vilket ökar kvaliteten på insikter som erhålls från data inom ett brett spektrum av branscher.
Gretels syntetiska_text_to_sql-datauppsättning, värd på Hugging Face, har 105 851 poster, varav 100 000 är för utbildning och 5 851 för validering. Denna enorma datauppsättning innehåller cirka 23 miljoner tokens totalt, inklusive cirka 12 miljoner SQL-tokens från 100 olika sektorer eller domäner. Den har för avsikt att lösa ett brett spektrum av SQL-uppgifter, inklusive datadefinition, hämtning, modifiering, analys och rapportering, med olika nivåer av SQL-komplexitet.
Denna datauppsättning sticker ut för sin enorma storlek och noggranna uppmärksamhet på detaljer i sin skapelse. Den innehåller databasinställningar som tabell- och vyskapande uttalanden, naturliga språkbeskrivningar av SQL-frågor och kontextuella taggar för att förfina modellträning. Denna nivå av djup och mångfald minskar avsevärt den tid och de resurser som datateam ägnar åt att förbättra datakvaliteten, vilket vanligtvis har stått för upp till 80 % av deras ansträngningar.
I dagens datadrivna värld är det viktigt att snabbt och tillförlitligt extrahera insikter från databaser. Text-to-SQL, som möjliggör databasfrågor på vanligt språk, ses som ett viktigt steg för att göra data mer tillgänglig. Men bristen på högkvalitativ, mångsidig text-till-SQL-träningsdata har bromsat framstegen och förbättringen av denna teknik.
Gretels datauppsättning strävar efter att överbrygga denna lucka genom att erbjuda en pålitlig resurs för utbildning av stora språkmodeller (LLM) i text-till-SQL-uppgifter. Det ger bred tillgång till datainsikter och underlättar utvecklingen av AI-applikationer som kan interagera med databaser på ett mer naturligt sätt.
Att skapa den syntetiska_text_to_sql-datauppsättningen innebar utmaningar, särskilt när det gäller att upprätthålla hög datakvalitet och förhandlingslicenssvårigheter, som ofta begränsar användningen och spridningen av befintliga datauppsättningar. Gretel åtgärdade dessa svårigheter med sitt Navigator-verktyg, som använder ett komplicerat AI-system för att generera högkvalitativ syntetisk data i stor skala.
Att använda LLM som utvärderare var ett innovativt tillvägagångssätt för att bedöma datasetets kvalitet. Detta tillvägagångssätt har visat sig vara ganska effektivt, i linje med kriterier för utvärdering av mänskliga data och demonstrerar datasetets SQL-efterlevnad, noggrannhet och efterlevnad av normer, vilket överträffar andra datamängder.
Gretel AI:s release av den syntetiska_text_to_sql-datauppsättningen på Hugging Face markerar en landmärkeprestation inom området syntetisk data. Den presenterar en massiv och mångsidig datauppsättning med öppen källkod, som påskyndar utvecklingen av text-till-SQL-teknologier och betonar vikten av data av hög kvalitet för att skapa effektiva AI-system.