Gretel AI, bu günə qədər ən əhatəli açıq mənbəli Text-to-SQL verilənlər toplusunu buraxmaqla süni intellektin (AI) inkişafına oyun dəyişdirən töhfə verdi. Bu ixtira süni intellekt modellərinin təlimini əhəmiyyətli dərəcədə sürətləndirmək potensialına malikdir, sənayenin geniş spektri üzrə məlumatlardan əldə edilən anlayışların keyfiyyətini artırır.
Hugging Face-də yerləşdirilən Gretel-in sintetik _text_to_sql verilənlər bazasında 105.851 qeyd var, bunlardan 100.000-i təlim, 5.851-i isə doğrulama üçündür. Bu nəhəng verilənlər bazası 100 müxtəlif sektordan və ya domendən təxminən 12 milyon SQL tokeni də daxil olmaqla ümumilikdə təxminən 23 milyon tokendən ibarətdir. O, müxtəlif səviyyələrdə SQL mürəkkəbliyi ilə məlumatların müəyyən edilməsi, axtarışı, modifikasiyası, analitikası və hesabatı daxil olmaqla, geniş SQL tapşırıqlarını həll etmək niyyətindədir.
Bu verilənlər bazası nəhəng ölçüsü və yaradılması zamanı təfərrüata diqqət yetirilməsi ilə seçilir. Buraya cədvəl və görünüş yaratma ifadələri, SQL sorğularının təbii dil təsvirləri və model təlimini təkmilləşdirməyə kömək etmək üçün kontekstual teqlər kimi verilənlər bazası parametrləri daxildir. Bu dərinlik və müxtəliflik səviyyəsi məlumat qruplarının məlumat keyfiyyətinin yaxşılaşdırılmasına sərf etdiyi vaxt və resursları əhəmiyyətli dərəcədə azaldır ki, bu da adətən onların səylərinin 80%-ni təşkil edir.
Bugünkü dataya əsaslanan dünyada verilənlər bazalarından məlumatı tez və etibarlı şəkildə çıxara bilmək vacibdir. Sadə dildə verilənlər bazası sorğularına imkan verən Text-to-SQL, verilənlərin daha əlçatan olması üçün kritik addım kimi qiymətləndirilir. Bununla belə, yüksək keyfiyyətli, müxtəlif Text-to-SQL təlim məlumatlarının olmaması bu texnologiyanın tərəqqisini və təkmilləşdirilməsini ləngidir.
Gretel-in verilənlər bazası Text-to-SQL tapşırıqlarında Böyük Dil Modellərini (LLM) öyrətmək üçün etibarlı mənbə təklif edərək bu boşluğu aradan qaldırmağa çalışır. O, məlumat anlayışlarına geniş çıxışı təmin edir və verilənlər bazası ilə daha təbii şəkildə qarşılıqlı əlaqə qura bilən AI proqramlarının inkişafını asanlaşdırır.
Sintetik _text_to_sql verilənlər bazasının yaradılması, xüsusən də yüksək məlumat keyfiyyətinin saxlanması və mövcud məlumat dəstlərinin istifadəsini və yayılmasını tez-tez məhdudlaşdıran lisenziya çətinliklərini müzakirə etməkdə çətinliklər yaradırdı. Gretel bu çətinlikləri böyük miqyasda yüksək keyfiyyətli sintetik məlumat yaratmaq üçün mürəkkəb AI sistemindən istifadə edən Navigator aləti ilə həll etdi.
LLM-lərdən qiymətləndirici kimi istifadə məlumat toplusunun keyfiyyətini qiymətləndirmək üçün yenilikçi bir yanaşma idi. Bu yanaşma insan məlumatlarının qiymətləndirilməsi meyarlarına uyğunlaşaraq və verilənlər bazasının SQL uyğunluğunu, dəqiqliyini və normalara uyğunluğunu nümayiş etdirərək digər verilənlər dəstlərini üstələməklə kifayət qədər effektiv olduğunu sübut etdi.
Gretel AI-nin Hugging Face-də sintetik _text_to_sql verilənlər bazasını buraxması sintetik məlumatlar sahəsində əlamətdar nailiyyəti qeyd edir. O, Text-to-SQL texnologiyalarının inkişafını sürətləndirən və effektiv AI sistemlərinin yaradılmasında yüksək keyfiyyətli məlumatların vacibliyini vurğulayan kütləvi və müxtəlif açıq mənbəli verilənlər toplusunu təqdim edir.