Gretel AI telah memberikan kontribusi yang mengubah keadaan terhadap kemajuan kecerdasan buatan (AI) dengan merilis kumpulan data Text-to-SQL sumber terbuka terlengkap hingga saat ini. Penemuan ini berpotensi mempercepat pelatihan model AI, meningkatkan kualitas wawasan yang diperoleh dari data di berbagai industri.
Kumpulan data sintetik_text_to_sql Gretel, yang dihosting di Hugging Face, memiliki 105.851 catatan, 100.000 di antaranya untuk pelatihan dan 5.851 untuk validasi. Kumpulan data besar ini berisi total sekitar 23 juta token, termasuk sekitar 12 juta token SQL dari 100 sektor atau domain berbeda. Ini dimaksudkan untuk menyelesaikan berbagai tugas SQL, termasuk definisi data, pengambilan, modifikasi, analitik, dan pelaporan, dengan berbagai tingkat kompleksitas SQL.
Kumpulan data ini menonjol karena ukurannya yang sangat besar dan perhatian yang cermat terhadap detail dalam pembuatannya. Ini mencakup pengaturan database seperti pernyataan pembuatan tabel dan tampilan, deskripsi bahasa alami kueri SQL, dan tag kontekstual untuk membantu menyempurnakan pelatihan model. Tingkat kedalaman dan keragaman ini sangat mengurangi waktu dan sumber daya yang dicurahkan tim data untuk meningkatkan kualitas data, yang biasanya menghabiskan hingga 80% upaya mereka.
Di dunia yang berbasis data saat ini, kemampuan mengekstraksi wawasan dari database dengan cepat dan andal adalah hal yang penting. Text-to-SQL, yang memungkinkan kueri database dalam bahasa sederhana, dipandang sebagai langkah penting dalam membuat data lebih mudah diakses. Namun, kurangnya data pelatihan Text-to-SQL yang berkualitas tinggi dan beragam telah memperlambat kemajuan dan peningkatan teknologi ini.
Kumpulan data Gretel berupaya menutup kesenjangan ini dengan menawarkan sumber daya yang andal untuk melatih Model Bahasa Besar (LLM) dalam tugas Text-to-SQL. Ini memberikan akses luas terhadap wawasan data dan memfasilitasi pengembangan aplikasi AI yang dapat berinteraksi dengan database dengan cara yang lebih alami.
Membuat kumpulan data sintetik_text_to_sql menghadirkan tantangan, khususnya dalam menjaga kualitas data yang tinggi dan kesulitan dalam menegosiasikan lisensi, yang sering kali membatasi penggunaan dan penyebaran kumpulan data yang ada. Gretel mengatasi kesulitan ini dengan alat Navigatornya, yang menggunakan sistem AI yang rumit untuk menghasilkan data sintetis berkualitas tinggi dalam skala besar.
Menggunakan LLM sebagai evaluator adalah pendekatan inovatif dalam menilai kualitas kumpulan data. Pendekatan ini terbukti cukup efektif, selaras dengan kriteria penilaian data manusia dan menunjukkan kepatuhan, keakuratan, dan kepatuhan terhadap norma SQL kumpulan data, sehingga mengungguli kumpulan data lainnya.
Peluncuran kumpulan data sintetik_text_to_sql oleh Gretel AI di Hugging Face menandai pencapaian penting dalam bidang data sintetik. Ini menghadirkan kumpulan data sumber terbuka yang besar dan beragam, mempercepat pengembangan teknologi Text-to-SQL dan menekankan pentingnya data berkualitas tinggi dalam menciptakan sistem AI yang efektif.