Google AI introduziu recentemente um novo recurso chamado "Revisar" no Gboard, o popular aplicativo de teclado móvel. Com um único toque, esse recurso permite modificações e correções contínuas nos níveis de frase e parágrafo, melhorando a experiência geral de digitação.
Enfrentando o problema do 'dedo gordo'
O Gboard usa decodificação estatística como forma de resolver o problema do "dedo gordo", que é a imprecisão natural da entrada por toque em telas pequenas. A pesquisa mostra que a taxa de erro por letra pode chegar a 8 a 9 por cento sem decodificação. O Gboard vem com vários recursos de correção de erros para tornar a digitação mais fácil e suave. Esses recursos combinam tarefas manuais que envolvem entrada humana com correções proativas e automatizadas.
Ferramentas abrangentes de correção de erros
A digitação é facilitada coletivamente pelos recursos do Gboard, que incluem preenchimento de palavras, previsões da próxima palavra, correção automática ativa (AC) e correção de chave ativa (KC). Essas ferramentas incluem composição inteligente, correção de erros e candidatos de várias palavras na barra de sugestões ou inline. A pós-correção (PC) também facilita a retificação de erros em palavras já cometidas. Apesar desses recursos, duas restrições principais prejudicam a experiência do usuário.
-
Embora os modelos de correção no dispositivo, como KC, AC e PC, sejam rápidos e compactos, eles têm dificuldade em lidar com erros sofisticados e complexos que precisam de contextos mais longos. Para evitar que esses modelos sejam ativados, os usuários devem digitar de forma lenta e precisa.
-
A velocidade de digitação diminui porque os usuários precisam corrigir manualmente as palavras comprometidas usando corretores gramaticais e ortográficos, o que pode ser mental e visualmente desgastante.
A necessidade de correção de erros de alto nível
Os digitadores rápidos frequentemente ignoram as palavras que já digitaram e se concentram apenas no teclado. Podem surgir taxas de erro mais elevadas, necessitando do uso de sentenças ou mecanismos de correção de nível superior.
Apresentando a revisão
O Proofread resolve essas reclamações frequentes, oferecendo aumentos notáveis de produtividade. Ele torna a correção de erros mais simples, fornecendo correções em nível de frase e parágrafo com um toque.
A tecnologia por trás da revisão
O recurso Revisão é composto de quatro componentes principais: produção de dados, design de métricas, ajustes de modelo e serviço de modelo. Juntos, todos esses componentes garantem eficácia. Para garantir que a distribuição de dados esteja alinhada com o domínio do Gboard, o sistema imita erros frequentes de teclado usando uma arquitetura sintética de erros construída de forma precisa e metódica.
Métricas Avançadas e Otimização de Modelo
Para avaliar o modelo, os pesquisadores incorporaram uma série de métricas, com ênfase particular nas verificações de presença de erros gramaticais e verificações de significado semelhantes derivadas de grandes modelos de linguagem (LLMs). O ajuste fino supervisionado e o ajuste de aprendizado por reforço (RL) são usados na técnica InstructGPT para melhorar o modelo. O desempenho de revisão do modelo é bastante melhorado por este procedimento.
Implantação e desempenho
Usando quantização de 8 bits, o LLM PaLM2-XS de tamanho médio é adaptado para caber dentro de um único TPU v5 e serve como base para o recurso de revisão. A otimização reduz o custo de servir. Pesquisas anteriores demonstraram que segmentação, decodificação especulativa e chaves de bucket podem reduzir a latência.
Impacto no mundo real
Dezenas de milhares de usuários do Pixel 8 se beneficiarão das edições de alta qualidade fornecidas pelo recurso Proofread, que já está disponível. Uma geração completa de dados sintéticos e várias iterações de ajuste fino produziram um modelo que reduz substancialmente os erros gramaticais, como visto por uma diminuição relativa de 5,74% na proporção ruim do modelo PaLM2-XS. Além disso, as otimizações resultaram em uma redução de 39,4% na latência média.
Perspectivas futuras
Este estudo demonstra como os LLMs podem melhorar a experiência do usuário e criar possibilidades intrigantes para investigações futuras. A utilização de dados de utilizadores reais, suporte multilingue, assistência de escrita personalizada e soluções de privacidade de dispositivos são alguns exemplos de áreas que podem levar a novos avanços no setor.
A IA do Google está expandindo as possibilidades da tecnologia de teclado móvel com a introdução do recurso Proofread, melhorando a digitação para pessoas em todo o mundo.