Ang Gretel AI ay gumawa ng isang kontribusyon sa pagbabago ng laro sa pagsulong ng artificial intelligence (AI) sa pamamagitan ng paglalabas ng pinakakomprehensibong open-source na Text-to-SQL na dataset hanggang sa kasalukuyan. Ang imbensyon na ito ay may potensyal na lubos na mapabilis ang pagsasanay ng mga modelo ng AI, na nagpapalakas sa kalidad ng mga insight na nakuha mula sa data sa malawak na hanay ng mga industriya.
Ang synthetic_text_to_sql dataset ng Gretel, na naka-host sa Hugging Face, ay mayroong 105,851 record, 100,000 sa mga ito ay para sa pagsasanay at 5,851 para sa validation. Ang malaking dataset na ito ay naglalaman ng humigit-kumulang 23 milyong token sa kabuuan, kabilang ang humigit-kumulang 12 milyong SQL token mula sa 100 iba't ibang sektor o domain. Nilalayon nitong lutasin ang isang malawak na hanay ng mga gawain sa SQL, kabilang ang kahulugan ng data, pagkuha, pagbabago, analytics, at pag-uulat, na may iba't ibang antas ng pagiging kumplikado ng SQL.
Namumukod-tangi ang dataset na ito para sa napakalaking sukat nito at masusing atensyon sa detalye sa paggawa nito. Kabilang dito ang mga setting ng database tulad ng mga pahayag ng paggawa ng talahanayan at view, mga paglalarawan ng natural na wika ng mga query sa SQL, at mga tag sa konteksto upang makatulong na pinuhin ang pagsasanay sa modelo. Ang antas ng lalim at pagkakaiba-iba na ito ay lubos na nakakabawas sa oras at mga mapagkukunang inilalaan ng mga data team sa pagpapabuti ng kalidad ng data, na karaniwang umabot ng hanggang 80% ng kanilang mga pagsisikap.
Sa mundong hinihimok ng data ngayon, ang kakayahang mabilis at mapagkakatiwalaang kumuha ng mga insight mula sa mga database ay mahalaga. Ang Text-to-SQL, na nagbibigay-daan para sa mga query sa database sa simpleng wika, ay tinitingnan bilang isang kritikal na hakbang sa paggawa ng data na mas madaling ma-access. Gayunpaman, ang kakulangan ng mataas na kalidad, magkakaibang data ng pagsasanay sa Text-to-SQL ay nagpabagal sa pag-unlad at pagpapabuti ng teknolohiyang ito.
Ang dataset ng Gretel ay naglalayong isara ang puwang na ito sa pamamagitan ng pag-aalok ng maaasahang mapagkukunan para sa pagsasanay ng Large Language Models (LLMs) sa mga gawaing Text-to-SQL. Nagbibigay ito ng malawak na access sa mga insight ng data at pinapadali ang pagbuo ng mga AI application na maaaring makipag-ugnayan sa mga database sa mas natural na paraan.
Ang paggawa ng synthetic_text_to_sql dataset ay nagharap ng mga hamon, lalo na sa pagpapanatili ng mataas na kalidad ng data at pakikipag-ayos sa mga paghihirap sa lisensya, na kadalasang naglilimita sa paggamit at pagpapakalat ng mga kasalukuyang dataset. Tinutugunan ng Gretel ang mga paghihirap na ito gamit ang Navigator tool nito, na gumagamit ng isang kumplikadong AI system upang makabuo ng mataas na kalidad na sintetikong data sa napakalaking sukat.
Ang paggamit ng mga LLM bilang mga evaluator ay isang makabagong diskarte sa pagtatasa sa kalidad ng dataset. Napatunayan na ang diskarteng ito ay lubos na epektibo, na umaayon sa mga pamantayan sa pagtatasa ng data ng tao at nagpapakita ng pagsunod, katumpakan, at pagsunod sa SQL ng dataset sa mga pamantayan, na higit sa pagganap ng iba pang mga dataset.
Ang paglabas ng Gretel AI ng synthetic_text_to_sql dataset sa Hugging Face ay nagmamarka ng isang mahalagang tagumpay sa larangan ng synthetic na data. Nagpapakita ito ng napakalaking at magkakaibang open-source na dataset, na nagpapabilis sa pagbuo ng mga teknolohiyang Text-to-SQL at binibigyang-diin ang kahalagahan ng mataas na kalidad na data sa paglikha ng mga epektibong AI system.