A Gretel AI az eddigi legátfogóbb nyílt forráskódú Text-to-SQL adatkészlet kiadásával a mesterséges intelligencia (AI) fejlődéséhez járult hozzá a játék megváltoztatásához. Ez a találmány nagymértékben felgyorsíthatja az AI-modellek képzését, javítva az adatokból nyert betekintések minőségét az iparágak széles körében.
A Gretel Hugging Face-en tárolt szintetikus_text_to_sql adatkészlete 105 851 rekordot tartalmaz, amelyek közül 100 000 képzésre, 5 851 pedig érvényesítésre szolgál. Ez a hatalmas adatkészlet összesen körülbelül 23 millió tokent tartalmaz, köztük körülbelül 12 millió SQL tokent 100 különböző szektorból vagy tartományból. Az SQL-feladatok széles skáláját kívánja megoldani, beleértve az adatdefiníciót, -visszakeresést, -módosítást, -elemzést és -jelentést, különböző szintű SQL-összetettséggel.
Ez az adatkészlet hatalmas méretével és létrehozása során a részletekre való aprólékos odafigyeléssel tűnik ki. Tartalmazza az adatbázis-beállításokat, például a tábla- és nézetlétrehozási utasításokat, az SQL-lekérdezések természetes nyelvű leírását, valamint a kontextuális címkéket a modellképzés finomítására. Ez a mélység és sokszínűség jelentősen csökkenti azt az időt és erőforrást, amelyet az adatkezelő csapatok az adatminőség javítására fordítanak, ami általában erőfeszítéseik 80%-át tette ki.
A mai adatközpontú világban fontos, hogy gyorsan és megbízhatóan tudjunk információkat nyerni az adatbázisokból. A text-to-SQL, amely lehetővé teszi az adatbázis-lekérdezéseket egyszerű nyelven, kritikus lépésnek tekintik az adatok hozzáférhetőbbé tételében. A kiváló minőségű, változatos szöveg-SQL-tanítási adatok hiánya azonban lelassította ennek a technológiának a fejlődését és fejlesztését.
A Gretel adatkészlete ezt a hiányosságot igyekszik megszüntetni azáltal, hogy megbízható forrást kínál a nagy nyelvi modellek (LLM) betanításához szöveg-SQL feladatokban. Széles körű hozzáférést biztosít az adatokhoz, és megkönnyíti az olyan mesterséges intelligencia-alkalmazások fejlesztését, amelyek természetesebb módon tudnak együttműködni az adatbázisokkal.
A szintetikus_text_to_sql adatkészlet létrehozása kihívásokat jelentett, különösen a magas adatminőség fenntartása és a licencproblémák leküzdése terén, amelyek gyakran korlátozzák a meglévő adatkészletek használatát és terjesztését. A Gretel ezeket a nehézségeket a Navigator eszközével oldotta meg, amely egy bonyolult mesterségesintelligencia-rendszert használ a kiváló minőségű szintetikus adatok hatalmas méretekben történő előállításához.
Az LLM-ek értékelőként való alkalmazása innovatív megközelítést jelentett az adatkészlet minőségének értékelésében. Ez a megközelítés meglehetősen hatékonynak bizonyult, összhangban van az emberi adatok értékelési kritériumaival, és bemutatja az adatkészlet SQL-megfelelőségét, pontosságát és a normák betartását, felülmúlva más adatkészleteket.
A Gretel AI kiadta a szintetikus_text_to_sql adatkészletet Hugging Face-en, mérföldkőnek számít a szintetikus adatok terén. Hatalmas és változatos nyílt forráskódú adatkészletet mutat be, felgyorsítva a Text-to-SQL technológiák fejlesztését, és hangsúlyozva a jó minőségű adatok fontosságát a hatékony AI-rendszerek létrehozásában.