Gretel AI nastavuje nový štandard uvedením svojej komplexnej množiny údajov typu Text-to-SQL

Aktualizované na July 12, 2024 2 minúty čítania

Gretel AI prispela k pokroku v oblasti umelej inteligencie (AI) a prispela k rozvoju umelej inteligencie vydaním doteraz najkomplexnejšieho open source súboru údajov typu Text-to-SQL. Tento vynález má potenciál výrazne urýchliť trénovanie modelov AI, čím sa zvýši kvalita poznatkov získaných z údajov v širokom spektre odvetví.

Gretel's syntetický_text_to_sql dataset hostovaný na Hugging Face má 105 851 záznamov, z ktorých 100 000 je na školenie a 5 851 na overenie. Tento obrovský súbor údajov obsahuje celkovo približne 23 miliónov tokenov, vrátane približne 12 miliónov tokenov SQL zo 100 rôznych sektorov alebo domén. Má v úmysle riešiť širokú škálu úloh SQL, vrátane definície údajov, ich získavania, modifikácie, analýzy a zostavovania, s rôznymi úrovňami zložitosti SQL.

Tento súbor údajov vyniká svojou obrovskou veľkosťou a starostlivým dôrazom na detaily pri jeho vytváraní. Zahŕňa nastavenia databázy, ako sú príkazy na vytvorenie tabuliek a pohľadov, popisy dopytov SQL v prirodzenom jazyku a kontextové značky, ktoré pomáhajú spresniť trénovanie modelu. Táto úroveň hĺbky a rozmanitosti výrazne znižuje čas a zdroje, ktoré tímy údajov venujú zlepšovaniu kvality údajov, čo zvyčajne predstavuje až 80 % ich úsilia.

V dnešnom svete založenom na údajoch je dôležité vedieť rýchlo a spoľahlivo extrahovať poznatky z databáz. Text-to-SQL, ktorý umožňuje databázové dotazy v jednoduchom jazyku, sa považuje za kritický krok k lepšej dostupnosti údajov. Nedostatok kvalitných a rôznorodých trénovacích údajov Text-to-SQL však spomalil pokrok a zlepšenie tejto technológie.

Gretel's dataset sa snaží vyplniť túto medzeru tým, že ponúka spoľahlivý zdroj na školenie veľkých jazykových modelov (LLM) v úlohách Text-to-SQL. Poskytuje široký prístup k prehľadom údajov a uľahčuje vývoj aplikácií AI, ktoré môžu interagovať s databázami prirodzenejším spôsobom.

Vytvorenie syntetického súboru údajov_text_to_sql predstavovalo výzvy, najmä pokiaľ ide o udržiavanie vysokej kvality údajov a vyjednávanie problémov s licenciou, ktoré často obmedzujú používanie a šírenie existujúcich súborov údajov. Gretel tieto ťažkosti riešil pomocou svojho nástroja Navigator, ktorý využíva komplikovaný systém AI na generovanie vysokokvalitných syntetických údajov v obrovskom rozsahu.

Použitie LLM ako hodnotiteľov predstavovalo inovatívny prístup k hodnoteniu kvality súboru údajov. Tento prístup sa ukázal ako celkom efektívny, pretože je v súlade s kritériami hodnotenia ľudských údajov a demonštruje súlad s SQL, presnosť a dodržiavanie noriem, čím prevyšuje ostatné súbory údajov.

Vydanie syntetického súboru údajov_text_to_sql na Hugging Face od Gretel AI predstavuje prelomový úspech v oblasti syntetických údajov. Predstavuje masívny a rôznorodý open source súbor údajov, ktorý urýchľuje vývoj technológií Text-to-SQL a zdôrazňuje dôležitosť vysokokvalitných údajov pri vytváraní efektívnych systémov AI.