Gretel AI wniosła przełomowy wkład w rozwój sztucznej inteligencji (AI), udostępniając najbardziej wszechstronny jak dotąd zestaw danych typu open source typu Text-to-SQL. Wynalazek ten może znacznie przyspieszyć uczenie modeli sztucznej inteligencji, poprawiając jakość wniosków uzyskiwanych z danych w wielu różnych branżach.
Syntetyczny zbiór danych_text_to_sql Gretel, hostowany na Hugging Face, zawiera 105 851 rekordów, z czego 100 000 służy do uczenia, a 5851 do sprawdzania poprawności. Ten ogromny zbiór danych zawiera łącznie około 23 milionów tokenów, w tym około 12 milionów tokenów SQL ze 100 różnych sektorów lub domen. Zamierza rozwiązywać szeroki zakres zadań SQL, w tym definiowanie, pobieranie, modyfikację, analizę i raportowanie danych, o różnym poziomie złożoności SQL.
Ten zbiór danych wyróżnia się ogromnymi rozmiarami i niezwykłą dbałością o szczegóły podczas jego tworzenia. Zawiera ustawienia bazy danych, takie jak instrukcje tworzenia tabel i widoków, opisy zapytań SQL w języku naturalnym i znaczniki kontekstowe, które pomagają udoskonalić uczenie modelu. Ten poziom szczegółowości i różnorodności znacznie zmniejsza czas i zasoby, jakie zespoły zajmujące się danymi poświęcają na poprawę jakości danych, co zwykle stanowi do 80% ich wysiłków.
W dzisiejszym świecie opartym na danych ważna jest możliwość szybkiego i niezawodnego wydobywania spostrzeżeń z baz danych. Zamiana tekstu na SQL, umożliwiająca wysyłanie zapytań do bazy danych w prostym języku, jest postrzegana jako kluczowy krok w zwiększaniu dostępności danych. Jednak brak wysokiej jakości, różnorodnych danych szkoleniowych typu Text-to-SQL spowolnił postęp i doskonalenie tej technologii.
Zbiór danych Gretel stara się wypełnić tę lukę, oferując niezawodne źródło do szkolenia modeli dużych języków (LLM) w zadaniach zamiany tekstu na SQL. Zapewnia szeroki dostęp do wglądu w dane i ułatwia rozwój aplikacji AI, które mogą wchodzić w interakcję z bazami danych w bardziej naturalny sposób.
Tworzenie syntetycznego zbioru danych_text_to_sql wiązało się z wyzwaniami, szczególnie w zakresie utrzymywania wysokiej jakości danych i negocjowania trudności licencyjnych, które często ograniczają wykorzystanie i rozpowszechnianie istniejących zbiorów danych. Gretel rozwiązała te trudności dzięki narzędziu Navigator, które wykorzystuje skomplikowany system sztucznej inteligencji do generowania wysokiej jakości syntetycznych danych na ogromną skalę.
Wykorzystanie LLM jako ewaluatorów było innowacyjnym podejściem do oceny jakości zbioru danych. Podejście to okazało się dość skuteczne, zgodne z kryteriami oceny danych ludzkich i wykazujące zgodność, dokładność i zgodność zbioru danych z SQL z normami, przewyższając inne zbiory danych.
Udostępnienie przez Gretel AI zbioru danych syntetycznych_text_to_sql na platformie Hugging Face stanowi przełomowe osiągnięcie w dziedzinie danych syntetycznych. Prezentuje ogromny i zróżnicowany zbiór danych typu open source, przyspieszając rozwój technologii Text-to-SQL i podkreślając znaczenie wysokiej jakości danych w tworzeniu skutecznych systemów AI.