Google AI ha introduït recentment una nova funció anomenada "Revisió" a Gboard, la popular aplicació de teclat mòbil. Amb un sol toc, aquesta funció permet modificacions i correccions sense problemes als nivells de frase i paràgraf, millorant l'experiència d'escriptura general.
Abordant el problema del "dit gros".
Gboard utilitza la descodificació estadística com a mitjà per abordar el problema del "dit gros", que és la inexactitud natural de l'entrada tàctil a les pantalles petites. La investigació mostra que la taxa d'error per lletra pot arribar al 8 al 9 per cent sense descodificar. Gboard inclou diverses funcions de correcció d'errors per fer que l'escriptura sigui més fàcil i fluida. Aquestes funcions combinen tasques manuals que impliquen intervencions humanes amb correccions proactives i automatitzades.
Eines integrals de correcció d'errors
L'escriptura es facilita col·lectivament gràcies a les funcions de Gboard, que inclouen l'acabament de paraules, les prediccions de la paraula següent, la correcció automàtica activa (AC) i la correcció de tecles activa (KC). Aquestes eines inclouen composició intel·ligent, correcció d'errors i candidats de diverses paraules a la barra de suggeriments o en línia. La postcorrecció (PC) també facilita la rectificació d'errors en paraules que ja s'han comès. Malgrat aquestes característiques, dues restriccions clau perjudiquen l'experiència de l'usuari.
-
Tot i que els models de correcció al dispositiu, com ara KC, AC i PC, són ràpids i compactes, tenen dificultats per gestionar errors sofisticats i complexos que necessiten contextos més llargs. Per evitar que aquests models s'activin, els usuaris han d'escriure lentament i amb precisió.
-
La velocitat d'escriptura disminueix perquè els usuaris han de corregir manualment les paraules compromeses mitjançant correctors gramaticals i ortogràfics, que poden resultar pesants mentalment i visualment.
La necessitat d'una correcció d'errors d'alt nivell
Els que escriuen ràpidament sovint ignoren les paraules que ja han escrit i es concentren només en el teclat. D'això poden derivar-se taxes d'error més altes, la qual cosa requereix l'ús d'oracions o mecanismes de correcció de nivell superior.
Presentació de la correcció
Proofread resol aquestes queixes freqüents oferint notables augments de productivitat. Facilita la correcció d'errors proporcionant correccions a nivell de frase i paràgraf amb un sol toc.
La tecnologia darrere de la correcció
La funció de correcció està formada per quatre components principals: producció de dades, disseny de mètriques, retoc de models i servei de models. En conjunt, tots aquests components garanteixen l'eficàcia. Per garantir que la distribució de dades s'ajusti al domini Gboard, el sistema imita els errors freqüents del teclat mitjançant una arquitectura sintètica d'errors construïda de manera precisa i metòdica.
Mètriques avançades i optimització de models
Per avaluar el model, els investigadors han incorporat una sèrie de mètriques, amb un èmfasi particular en les comprovacions de presència d'errors gramaticals i comprovacions de significats similars derivades dels grans models de llenguatge (LLM). A la tècnica InstructGPT s'utilitzen l'afinació supervisada i l'afinació de l'aprenentatge per reforç (RL) per millorar el model. El rendiment de correcció del model es millora molt amb aquest procediment.
Desplegament i rendiment
Utilitzant la quantificació de 8 bits, el LLM PaLM2-XS de mida mitjana està dissenyat per adaptar-se a una única TPU v5 i serveix com a base per a la funció de correcció de proves. L'optimització redueix el cost del servei. Investigacions prèvies han demostrat que la segmentació, la descodificació especulativa i les claus de cub poden reduir la latència.
Impacte al món real
Desenes de milers d'usuaris de Pixel 8 es beneficiaran de les edicions d'alta qualitat que ofereix la funció de correcció de proves, que ja està disponible. Una generació exhaustiva de dades sintètiques i diverses iteracions d'ajustaments han produït un model que redueix substancialment els errors gramaticals, tal com s'observa per una disminució relativa del 5,74 per cent de la relació Bad del model PaLM2-XS. A més, les optimitzacions han donat lloc a una disminució del 39,4% de la latència mitjana.
Perspectives de futur
Aquest estudi demostra com els LLM poden millorar l'experiència de l'usuari i crear possibilitats intrigants per a una investigació posterior. L'ús de dades d'usuari real, el suport multilingüe, l'assistència d'escriptura a mida i les solucions de privadesa del dispositiu són alguns exemples d'àrees que podrien portar a nous avenços en el sector.
La intel·ligència artificial de Google està ampliant les possibilitats de la tecnologia del teclat mòbil amb la introducció de la funció de correcció, millorant l'escriptura per a persones de tot el món.