Gretel AI มีส่วนสนับสนุนการเปลี่ยนแปลงเกมต่อความก้าวหน้าของปัญญาประดิษฐ์ (AI) ด้วยการเปิดตัวชุดข้อมูล Text-to-SQL แบบโอเพ่นซอร์สที่ครอบคลุมที่สุดในปัจจุบัน สิ่งประดิษฐ์นี้มีศักยภาพในการเร่งการฝึกอบรมโมเดล AI ได้อย่างมาก โดยช่วยเพิ่มคุณภาพของข้อมูลเชิงลึกที่ได้รับจากข้อมูลในอุตสาหกรรมต่างๆ มากมาย
ชุดข้อมูลสังเคราะห์_text_to_sql ของ Gretel ซึ่งโฮสต์บน Hugging Face มีบันทึก 105,851 รายการ โดย 100,000 รายการมีไว้สำหรับการฝึกอบรม และ 5,851 รายการสำหรับการตรวจสอบ ชุดข้อมูลขนาดใหญ่นี้มีโทเค็นทั้งหมดประมาณ 23 ล้านโทเค็น รวมถึงโทเค็น SQL ประมาณ 12 ล้านโทเค็นจาก 100 ภาคหรือโดเมนที่แตกต่างกัน มีจุดมุ่งหมายที่จะแก้ปัญหางาน SQL ที่หลากหลาย รวมถึงการกำหนดข้อมูล การเรียกค้น การแก้ไข การวิเคราะห์ และการรายงาน โดยมีระดับความซับซ้อนของ SQL ที่แตกต่างกัน
ชุดข้อมูลนี้โดดเด่นด้วยขนาดที่ใหญ่โตและความใส่ใจอย่างพิถีพิถันในรายละเอียดในการสร้าง ประกอบด้วยการตั้งค่าฐานข้อมูล เช่น คำสั่งการสร้างตารางและมุมมอง คำอธิบายภาษาธรรมชาติของการสืบค้น SQL และแท็กตามบริบทเพื่อช่วยปรับแต่งการฝึกโมเดล ระดับความลึกและความหลากหลายนี้ช่วยลดเวลาและทรัพยากรที่ทีมข้อมูลทุ่มเทในการปรับปรุงคุณภาพข้อมูลได้อย่างมาก ซึ่งโดยทั่วไปคิดเป็นถึง 80% ของความพยายามของพวกเขา
ในโลกที่ขับเคลื่อนด้วยข้อมูลในปัจจุบัน ความสามารถในการดึงข้อมูลเชิงลึกจากฐานข้อมูลได้อย่างรวดเร็วและเชื่อถือได้ถือเป็นสิ่งสำคัญ Text-to-SQL ซึ่งช่วยให้การสืบค้นฐานข้อมูลเป็นภาษาธรรมดาถูกมองว่าเป็นขั้นตอนสำคัญในการทำให้สามารถเข้าถึงข้อมูลได้มากขึ้น อย่างไรก็ตาม การขาดข้อมูลการฝึกอบรม Text-to-SQL ที่หลากหลายและคุณภาพสูงได้ชะลอความคืบหน้าและการปรับปรุงเทคโนโลยีนี้
ชุดข้อมูลของ Gretel พยายามปิดช่องว่างนี้ด้วยการนำเสนอทรัพยากรที่เชื่อถือได้สำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่ (LLM) ในงานแปลงข้อความเป็น SQL ให้การเข้าถึงข้อมูลเชิงลึกในวงกว้าง และอำนวยความสะดวกในการพัฒนาแอปพลิเคชัน AI ที่สามารถโต้ตอบกับฐานข้อมูลในลักษณะที่เป็นธรรมชาติมากขึ้น
การสร้างชุดข้อมูลสังเคราะห์_text_to_sql นำเสนอความท้าทาย โดยเฉพาะอย่างยิ่งในการรักษาคุณภาพของข้อมูลที่สูงและการเจรจาต่อรองปัญหาด้านใบอนุญาต ซึ่งมักจำกัดการใช้งานและการเผยแพร่ชุดข้อมูลที่มีอยู่ Gretel จัดการกับปัญหาเหล่านี้ด้วยเครื่องมือ Navigator ซึ่งใช้ระบบ AI ที่ซับซ้อนเพื่อสร้างข้อมูลสังเคราะห์คุณภาพสูงในวงกว้าง
การใช้ LLM เป็นผู้ประเมินเป็นแนวทางใหม่ในการประเมินคุณภาพของชุดข้อมูล วิธีการนี้ได้รับการพิสูจน์แล้วว่าค่อนข้างมีประสิทธิผล โดยสอดคล้องกับเกณฑ์การประเมินข้อมูลของมนุษย์ และแสดงให้เห็นถึงการปฏิบัติตาม SQL ของชุดข้อมูล ความแม่นยำ และการยึดมั่นในบรรทัดฐาน ซึ่งมีประสิทธิภาพเหนือกว่าชุดข้อมูลอื่นๆ
การเปิดตัวชุดข้อมูลสังเคราะห์_text_to_sql ของ Gretel AI บน Hugging Face ถือเป็นความสำเร็จครั้งสำคัญในด้านข้อมูลสังเคราะห์ นำเสนอชุดข้อมูลโอเพ่นซอร์สขนาดใหญ่และหลากหลาย ช่วยเร่งการพัฒนาเทคโนโลยี Text-to-SQL และเน้นความสำคัญของข้อมูลคุณภาพสูงในการสร้างระบบ AI ที่มีประสิทธิภาพ