Gretel AI-ն խաղը փոխող ներդրում է կատարել արհեստական ինտելեկտի (AI) առաջխաղացման գործում՝ թողարկելով մինչ օրս ամենաընդգրկուն բաց կոդով Text-to-SQL տվյալների բազան: Այս գյուտը ներուժ ունի մեծապես արագացնելու AI մոդելների ուսուցումը` բարձրացնելով արդյունաբերության լայն շրջանակի տվյալներից ստացված պատկերացումների որակը:
Գրետելի սինթետիկ_text_to_sql տվյալների բազան, որը տեղակայված է Hugging Face-ում, ունի 105,851 գրառում, որից 100,000-ը վերապատրաստման, իսկ 5,851-ը՝ վավերացման համար: Այս հսկայական տվյալների հավաքածուն ընդհանուր առմամբ պարունակում է մոտ 23 միլիոն նշան, ներառյալ մոտավորապես 12 միլիոն SQL նշաններ 100 տարբեր հատվածներից կամ տիրույթներից: Այն մտադիր է լուծել SQL առաջադրանքների լայն շրջանակ, ներառյալ տվյալների սահմանումը, որոնումը, փոփոխումը, վերլուծությունը և հաշվետվությունները՝ SQL բարդության տարբեր մակարդակներով:
Այս տվյալների հավաքածուն առանձնանում է իր ահռելի չափերով և մանրուքների նկատմամբ մանրակրկիտ ուշադրությամբ իր ստեղծման ժամանակ: Այն ներառում է տվյալների բազայի կարգավորումներ, ինչպիսիք են աղյուսակների և դիտումների ստեղծման հայտարարությունները, SQL հարցումների բնական լեզվի նկարագրությունները և համատեքստային պիտակները, որոնք կօգնեն կատարելագործել մոդելի ուսուցումը: Խորության և բազմազանության այս մակարդակը զգալիորեն նվազեցնում է տվյալների որակի բարելավմանը հատկացված ժամանակն ու ռեսուրսները, ինչը սովորաբար կազմում է նրանց ջանքերի մինչև 80%-ը:
Տվյալների վրա հիմնված այսօրվա աշխարհում շատ կարևոր է տվյալների բազաներից արագ և հուսալիորեն արդյունահանել պատկերացումները: Text-to-SQL, որը թույլ է տալիս տվյալների բազայի հարցումները պարզ լեզվով, դիտվում է որպես կարևոր քայլ՝ տվյալներն ավելի մատչելի դարձնելու համար: Այնուամենայնիվ, բարձրորակ, բազմազան Text-to-SQL ուսուցման տվյալների բացակայությունը դանդաղեցրել է այս տեխնոլոգիայի առաջընթացը և կատարելագործումը:
Գրետելի տվյալների շտեմարանը փորձում է փակել այս բացը` առաջարկելով հուսալի ռեսուրս՝ Text-to-SQL առաջադրանքներում Large Language Models (LLMs) ուսուցման համար: Այն ապահովում է տվյալների պատկերացումների լայն հասանելիություն և հեշտացնում է AI հավելվածների զարգացումը, որոնք կարող են ավելի բնական կերպով փոխազդել տվյալների բազաների հետ:
Սինթետիկ_text_to_sql տվյալների շտեմարանի ստեղծումը մարտահրավերներ է առաջացրել, մասնավորապես տվյալների բարձր որակի պահպանման և լիցենզիայի հետ կապված դժվարությունների հետ բանակցություններում, որոնք հաճախ սահմանափակում են առկա տվյալների հավաքածուների օգտագործումն ու տարածումը: Գրետելը այս դժվարություններին լուծեց իր Navigator գործիքով, որն օգտագործում է բարդ AI համակարգ՝ հսկայական մասշտաբով բարձրորակ սինթետիկ տվյալներ ստեղծելու համար:
LLM-ների օգտագործումը որպես գնահատողներ տվյալների բազայի որակը գնահատելու նորարարական մոտեցում էր: Այս մոտեցումն ապացուցել է, որ բավականին արդյունավետ է, որը համահունչ է մարդու տվյալների գնահատման չափանիշներին և ցույց է տալիս տվյալների բազայի SQL համապատասխանությունը, ճշգրտությունը և նորմերին համապատասխանելը, գերազանցելով տվյալների այլ հավաքածուները:
Gretel AI-ի կողմից Hugging Face-ի սինթետիկ_text_to_sql տվյալների թողարկումը նշանավոր ձեռքբերում է սինթետիկ տվյալների ոլորտում: Այն ներկայացնում է զանգվածային և բազմազան բաց կոդով տվյալների բազա՝ արագացնելով Text-to-SQL տեխնոլոգիաների զարգացումը և ընդգծելով բարձրորակ տվյալների կարևորությունը արդյունավետ AI համակարգեր ստեղծելու համար: