Gretel AI estabelece um novo padrão com o lançamento de seu conjunto de dados abrangente de texto para SQL

Gretel AI estabelece um novo padrão com o lançamento de seu conjunto de dados abrangente de texto para SQL

Gretel AI fez uma contribuição revolucionária para o avanço da inteligência artificial (IA) ao lançar o conjunto de dados Text-to-SQL de código aberto mais abrangente até o momento. Esta invenção tem o potencial de acelerar enormemente o treinamento de modelos de IA, aumentando a qualidade dos insights obtidos a partir de dados em uma ampla gama de setores.

O conjunto de dados sintético_text_to_sql de Gretel, hospedado no Hugging Face, tem 105.851 registros, 100.000 dos quais são para treinamento e 5.851 para validação. Este enorme conjunto de dados contém cerca de 23 milhões de tokens no total, incluindo aproximadamente 12 milhões de tokens SQL de 100 setores ou domínios diferentes. Ele pretende resolver uma ampla gama de tarefas SQL, incluindo definição, recuperação, modificação, análise e relatórios de dados, com níveis variados de complexidade SQL.

Este conjunto de dados destaca-se pelo seu enorme tamanho e pela atenção meticulosa aos detalhes na sua criação. Inclui configurações de banco de dados, como instruções de criação de tabelas e visualizações, descrições em linguagem natural de consultas SQL e tags contextuais para ajudar a refinar o treinamento do modelo. Este nível de profundidade e diversidade reduz consideravelmente o tempo e os recursos que as equipas de dados dedicam à melhoria da qualidade dos dados, o que normalmente representa até 80% dos seus esforços.

No mundo atual, orientado por dados, é importante ser capaz de extrair insights de bancos de dados de maneira rápida e confiável. Text-to-SQL, que permite consultas ao banco de dados em linguagem simples, é visto como uma etapa crítica para tornar os dados mais acessíveis. No entanto, a falta de dados de treinamento Text-to-SQL diversificados e de alta qualidade retardou o progresso e o aprimoramento dessa tecnologia.

O conjunto de dados de Gretel busca preencher essa lacuna, oferecendo um recurso confiável para treinar Large Language Models (LLMs) em tarefas Text-to-SQL. Fornece amplo acesso a insights de dados e facilita o desenvolvimento de aplicações de IA que podem interagir com bancos de dados de maneira mais natural.

A criação do conjunto de dados sintético_text_to_sql apresentou desafios, especialmente na manutenção da alta qualidade dos dados e nas dificuldades de negociação de licenças, que frequentemente limitam o uso e a disseminação dos conjuntos de dados existentes. A Gretel abordou estas dificuldades com a sua ferramenta Navigator, que utiliza um complicado sistema de IA para gerar dados sintéticos de alta qualidade em grande escala.

Usar LLMs como avaliadores foi uma abordagem inovadora para avaliar a qualidade do conjunto de dados. Esta abordagem provou ser bastante eficaz, alinhando-se aos critérios de avaliação de dados humanos e demonstrando a conformidade SQL do conjunto de dados, a precisão e a adesão às normas, superando outros conjuntos de dados.

O lançamento do conjunto de dados sintético_text_to_sql pela Gretel AI no Hugging Face marca uma conquista histórica no campo de dados sintéticos. Apresenta um conjunto de dados de código aberto enorme e diversificado, acelerando o desenvolvimento de tecnologias Text-to-SQL e enfatizando a importância de dados de alta qualidade na criação de sistemas de IA eficazes.

Code Labs Academy © 2025 Todos os direitos reservados.