Gretel AI зрабіла істотны ўклад у развіццё штучнага інтэлекту (AI), выпусціўшы самы поўны на сённяшні дзень набор даных Text-to-SQL з адкрытым зыходным кодам. Гэта вынаходніцтва можа значна паскорыць навучанне мадэляў штучнага інтэлекту, павышаючы якасць разумення, атрыманага з даных у шырокім дыяпазоне галін.
Сінтэтычны набор даных Грэтэль_text_to_sql, размешчаны на Hugging Face, змяшчае 105 851 запіс, 100 000 з якіх прызначаны для навучання і 5851 для праверкі. Гэты велізарны набор даных змяшчае каля 23 мільёнаў токенаў, у тым ліку каля 12 мільёнаў токенаў SQL са 100 розных сектараў або даменаў. Ён мае намер вырашаць шырокі спектр задач SQL, уключаючы вызначэнне, пошук, мадыфікацыю даных, аналітыку і справаздачнасць, з рознымі ўзроўнямі складанасці SQL.
Гэты набор даных вылучаецца сваім велізарным памерам і дбайнай увагай да дэталяў пры яго стварэнні. Ён уключае параметры базы дадзеных, такія як інструкцыі па стварэнні табліц і прадстаўленняў, апісанні SQL-запытаў на натуральнай мове і кантэкстныя тэгі, якія дапамагаюць удасканаліць навучанне мадэлі. Такі ўзровень глыбіні і разнастайнасці значна скарачае час і рэсурсы, якія каманды па апрацоўцы дадзеных прысвячаюць паляпшэнню якасці даных, на што звычайна прыходзіцца да 80% іх намаганняў.
У сучасным свеце, які кіруецца дадзенымі, важная магчымасць хутка і надзейна здабываць інфармацыю з баз дадзеных. Text-to-SQL, які дазваляе рабіць запыты да базы дадзеных на простай мове, разглядаецца як найважнейшы крок у павышэнні даступнасці даных. Аднак недахоп высакаякасных разнастайных навучальных даных Text-to-SQL запаволіў прагрэс і ўдасканаленне гэтай тэхналогіі.
Набор даных Грэтэль імкнецца ліквідаваць гэты прабел, прапаноўваючы надзейны рэсурс для навучання Вялікім моўным мадэлям (LLM) задачам Text-to-SQL. Гэта забяспечвае шырокі доступ да ацэнкі дадзеных і палягчае распрацоўку прыкладанняў штучнага інтэлекту, якія могуць узаемадзейнічаць з базамі даных больш натуральным чынам.
Стварэнне сінтэтычнага набору даных_text_to_sql выклікала праблемы, асабліва ў падтрыманні высокай якасці даных і праблемах з ліцэнзіямі, якія часта абмяжоўваюць выкарыстанне і распаўсюджванне існуючых набораў даных. Gretel вырашыла гэтыя цяжкасці з дапамогай свайго інструмента Navigator, які выкарыстоўвае складаную сістэму штучнага інтэлекту для стварэння высакаякасных сінтэтычных даных у велізарных маштабах.
Выкарыстанне LLM ў якасці ацэншчыкаў было інавацыйным падыходам да ацэнкі якасці набору даных. Гэты падыход апынуўся даволі эфектыўным, ён адпавядае крытэрам ацэнкі даных чалавека і дэманструе адпаведнасць набору даных SQL, дакладнасць і адпаведнасць нормам, пераўзыходзячы іншыя наборы даных.
Выпуск Gretel AI набору даных synthetic_text_to_sql на Hugging Face азначае важнае дасягненне ў галіне сінтэтычных даных. Ён прадстаўляе масіўны і разнастайны набор даных з адкрытым зыходным кодам, паскараючы развіццё тэхналогій Text-to-SQL і падкрэсліваючы важнасць высакаякасных даных для стварэння эфектыўных сістэм штучнага інтэлекту.