Google AI presentou recentemente unha nova función chamada "Corrección" en Gboard, a popular aplicación de teclado para móbiles. Cun só toque, esta función permite modificacións e correccións sen problemas nos niveis de frases e parágrafos, mellorando a experiencia de dixitación en xeral.
Afrontando o problema do "dedo gordo".
Gboard utiliza a decodificación estatística como un medio para resolver o problema do "dedo gordo", que é a imprecisión natural da entrada táctil en pantallas pequenas. A investigación mostra que a taxa de erro por letra pode alcanzar entre o 8 e o 9 por cento sen decodificar. Gboard inclúe varias funcións de corrección de erros para facilitar e facilitar a escritura. Estas funcións combinan tarefas manuais que implican a entrada humana con correccións automatizadas e proactivas.
Ferramentas completas de corrección de erros
As funcións de Gboard facilitan a dixitación colectivamente, que inclúen completar palabras, predicións de palabras seguintes, corrección automática activa (AC) e corrección de teclas activas (KC). Estas ferramentas inclúen composición intelixente, corrección de erros e candidatos de varias palabras na barra de suxestións ou en liña. A poscorrección (PC) tamén facilita a rectificación de erros en palabras xa cometidas. A pesar destas características, dúas restricións clave prexudican a experiencia do usuario.
-
Aínda que os modelos de corrección no dispositivo como KC, AC e PC son rápidos e compactos, teñen dificultades para xestionar erros sofisticados e complexos que precisan contextos máis longos. Para evitar que estes modelos se activen, os usuarios deben escribir de forma lenta e precisa.
-
A velocidade de escritura diminúe como resultado de que os usuarios teñan que corrixir manualmente as palabras comprometidas mediante correctores gramatical e ortográfico, o que pode resultar agobiante mental e visualmente.
A necesidade dunha corrección de erros de alto nivel
Os que mecanografían rápido adoitan ignorar as palabras que xa escribiron e concéntranse só no teclado. Poden xurdir taxas de erro máis altas disto, polo que é necesario o uso de sentenzas ou mecanismos de corrección de nivel superior.
Presentando a corrección
Proofread resolve estas queixas frecuentes ofrecendo notables aumentos de produtividade. Facilita a corrección de erros proporcionando correccións a nivel de frases e parágrafos cun só toque.
A tecnoloxía detrás da corrección
A función de revisión está formada por catro compoñentes principais: produción de datos, deseño de métricas, axuste de modelos e servizo de modelos. En conxunto, todos estes compoñentes garanten a eficacia. Para garantir que a distribución de datos está en consonancia co dominio Gboard, o sistema imita os erros frecuentes do teclado mediante unha arquitectura sintética de erros construída de forma precisa e metódica.
Métricas avanzadas e optimización de modelos
Para avaliar o modelo, os investigadores incorporaron unha serie de métricas, con especial énfase nas comprobacións de presenza de erros gramaticais e as comprobacións de significados similares derivadas dos grandes modelos lingüísticos (LLM). Na técnica InstructGPT utilízanse o axuste fino supervisado e o axuste de aprendizaxe por reforzo (RL) para mellorar o modelo. O rendemento de corrección do modelo mellora moito con este procedemento.
Implantación e rendemento
Usando a cuantificación de 8 bits, o LLM PaLM2-XS de tamaño medio está adaptado para encaixar nun único TPU v5 e serve como base para a función de revisión. A optimización reduce o custo do servizo. Investigacións anteriores demostraron que a segmentación, a decodificación especulativa e as claves de depósito poden reducir a latencia.
Impacto no mundo real
Decenas de miles de usuarios de Pixel 8 beneficiaranse das edicións de alta calidade proporcionadas pola función Proofread, que xa está dispoñible. Unha xeración completa de datos sintéticos e varias iteracións de axuste fino produciron un modelo que reduce substancialmente os erros gramaticais, como se pode ver cunha diminución relativa do 5,74 por cento na relación Bad do modelo PaLM2-XS. Ademais, as optimizacións provocaron unha diminución do 39,4 % da latencia media.
Perspectivas de futuro
Este estudo demostra como os LLM poden mellorar a experiencia do usuario e crear posibilidades interesantes para unha investigación posterior. O uso de datos de usuarios reais, a asistencia multilingüe, a asistencia de escritura a medida e as solucións de privacidade do dispositivo son algúns exemplos de áreas que poderían levar a novos avances no sector.
A intelixencia artificial de Google está a ampliar as posibilidades da tecnoloxía do teclado móbil coa introdución da función de corrección de probas, que mellora a escritura para persoas de todo o mundo.