Gretel AI nastavuje nový standard uvedením své komplexní datové sady Text-to-SQL

Aktualizováno na August 07, 2024 2 minuty čte

Umělá inteligence Gretel přispěla k pokroku umělé inteligence (AI) změnou hry vydáním dosud nejkomplexnější open source datové sady Text-to-SQL. Tento vynález má potenciál výrazně urychlit trénování modelů umělé inteligence a zvýšit kvalitu poznatků získaných z dat v celé řadě průmyslových odvětví.

Gretel's syntetický_text_to_sql dataset, hostovaný na Hugging Face, má 105 851 záznamů, z nichž 100 000 je pro školení a 5 851 pro ověření. Tato obrovská datová sada obsahuje celkem asi 23 milionů tokenů, včetně přibližně 12 milionů tokenů SQL ze 100 různých sektorů nebo domén. Má v úmyslu řešit širokou škálu úloh SQL, včetně definice dat, získávání, modifikace, analýzy a vytváření sestav, s různou úrovní složitosti SQL.

Tato datová sada vyniká svou obrovskou velikostí a pečlivou pozorností k detailům při jejím vytváření. Zahrnuje nastavení databáze, jako jsou příkazy pro vytváření tabulek a pohledů, popisy dotazů SQL v přirozeném jazyce a kontextové značky, které pomáhají upřesnit trénování modelu. Tato úroveň hloubky a rozmanitosti výrazně snižuje čas a zdroje, které datové týmy věnují zlepšování kvality dat, což obvykle představuje až 80 % jejich úsilí.

V dnešním světě založeném na datech je důležitá schopnost rychle a spolehlivě extrahovat poznatky z databází. Text-to-SQL, který umožňuje databázové dotazy v jednoduchém jazyce, je považován za kritický krok při zpřístupňování dat. Nedostatek vysoce kvalitních, různorodých školicích dat Text-to-SQL však zpomalil pokrok a zlepšování této technologie.

Gretel's dataset se snaží tuto mezeru zaplnit tím, že nabízí spolehlivý zdroj pro školení velkých jazykových modelů (LLM) v úlohách Text-to-SQL. Poskytuje široký přístup k informacím o datech a usnadňuje vývoj aplikací umělé inteligence, které mohou interagovat s databázemi přirozenějším způsobem.

Vytvoření syntetického_text_to_sql datového souboru představovalo problémy, zejména při udržování vysoké kvality dat a vyjednávání licenčních potíží, které často omezují používání a šíření stávajících datových sad. Gretel tyto potíže vyřešil svým nástrojem Navigator, který využívá komplikovaný systém umělé inteligence ke generování vysoce kvalitních syntetických dat v obrovském měřítku.

Použití LLM jako hodnotitelů představovalo inovativní přístup k hodnocení kvality datového souboru. Tento přístup se ukázal jako docela účinný, protože splňuje kritéria hodnocení lidských dat a prokazuje shodu datové sady s SQL, přesnost a dodržování norem, čímž předčí ostatní datové sady.

Vydání syntetického_text_to_sql datového souboru na Hugging Face od Gretel AI znamená přelomový úspěch na poli syntetických dat. Představuje masivní a rozmanitou open-source datovou sadu, urychlující vývoj technologií Text-to-SQL a zdůrazňující důležitost vysoce kvalitních dat při vytváření efektivních systémů umělé inteligence.