Gretel AI, bugüne kadarki en kapsamlı açık kaynaklı Metinden SQL'e veri kümesini yayınlayarak yapay zekanın (AI) ilerlemesine oyunun kurallarını değiştiren bir katkıda bulundu. Bu buluş, çok çeşitli sektörlerdeki verilerden elde edilen içgörülerin kalitesini artırarak, yapay zeka modellerinin eğitimini büyük ölçüde hızlandırma potansiyeline sahiptir.
Hugging Face'te barındırılan Gretel'in sentetik_text_to_sql veri kümesinde 105.851 kayıt bulunuyor; bunların 100.000'i eğitim ve 5.851'i doğrulama için. Bu devasa veri kümesi, 100 farklı sektör veya alandan yaklaşık 12 milyon SQL tokenı da dahil olmak üzere toplamda yaklaşık 23 milyon token içeriyor. Veri tanımlama, alma, değiştirme, analiz ve raporlama dahil olmak üzere çeşitli SQL karmaşıklık düzeylerinde çok çeşitli SQL görevlerini çözmeyi amaçlamaktadır.
Bu veri kümesi, muazzam boyutu ve oluşturulurken detaylara gösterilen titizlikle dikkat çekiyor. Model eğitimini iyileştirmeye yardımcı olacak tablo ve görünüm oluşturma ifadeleri, SQL sorgularının doğal dil açıklamaları ve bağlamsal etiketler gibi veritabanı ayarlarını içerir. Bu düzeydeki derinlik ve çeşitlilik, veri ekiplerinin genellikle çabalarının %80'ini oluşturan veri kalitesini iyileştirmeye ayırdığı zamanı ve kaynakları önemli ölçüde azaltır.
Günümüzün veri odaklı dünyasında, veritabanlarından hızlı ve güvenilir bir şekilde içgörü elde edebilmek önemlidir. Sade bir dille veritabanı sorgularına izin veren Text-to-SQL, verileri daha erişilebilir hale getirmede kritik bir adım olarak görülüyor. Ancak yüksek kaliteli, çeşitli Metinden SQL'e eğitim verilerinin eksikliği, bu teknolojinin ilerlemesini ve gelişmesini yavaşlattı.
Gretel'in veri kümesi, Metinden SQL'e görevlerinde Büyük Dil Modellerinin (LLM'ler) eğitimi için güvenilir bir kaynak sunarak bu açığı kapatmayı amaçlıyor. Veri içgörülerine geniş erişim sağlar ve veritabanlarıyla daha doğal bir şekilde etkileşim kurabilen yapay zeka uygulamalarının geliştirilmesini kolaylaştırır.
Sentetik_text_to_sql veri kümesinin oluşturulması, özellikle yüksek veri kalitesinin sürdürülmesinde ve mevcut veri kümelerinin kullanımını ve dağıtımını sıklıkla sınırlayan lisans zorluklarının müzakere edilmesinde zorluklar ortaya çıkardı. Gretel, büyük ölçekte yüksek kaliteli sentetik veriler üretmek için karmaşık bir yapay zeka sistemi kullanan Navigator aracıyla bu zorlukların üstesinden geldi.
Yüksek Lisans'ları değerlendirici olarak kullanmak, veri kümesinin kalitesini değerlendirmede yenilikçi bir yaklaşımdı. Bu yaklaşımın oldukça etkili olduğu, insan verileri değerlendirme kriterleriyle uyumlu olduğu ve veri kümesinin SQL uyumluluğunu, doğruluğunu ve normlara bağlılığını göstererek diğer veri kümelerinden daha iyi performans gösterdiği kanıtlanmıştır.
Gretel AI'nin Hugging Face'te sentetik_text_to_sql veri kümesini yayınlaması, sentetik veriler alanında çığır açan bir başarıya işaret ediyor. Metinden SQL'e teknolojilerinin gelişimini hızlandıran ve etkili yapay zeka sistemleri oluşturmada yüksek kaliteli verilerin önemini vurgulayan devasa ve çeşitli bir açık kaynak veri kümesi sunuyor.