Google AI ha recentemente introdotto una nuova funzionalità chiamata "Proofread" in Gboard, la popolare applicazione per tastiera mobile. Con un solo tocco, questa funzione consente modifiche e correzioni continue a livello di frase e paragrafo, migliorando l'esperienza di digitazione complessiva.
Affrontare il problema del "dito grasso".
Gboard utilizza la decodifica statistica come mezzo per affrontare il problema del "dito grasso", ovvero la naturale imprecisione dell'input tattile su schermi di piccole dimensioni. La ricerca mostra che il tasso di errore per lettera può raggiungere l'8-9% senza decodifica. Gboard è dotato di diverse funzionalità di correzione degli errori per rendere la digitazione più semplice e fluida. Queste funzionalità combinano attività manuali che coinvolgono input umani con correzioni proattive e automatizzate.
Strumenti completi per la correzione degli errori
La digitazione è resa più semplice collettivamente dalle funzionalità di Gboard, che includono il completamento delle parole, la previsione della parola successiva, la correzione automatica attiva (AC) e la correzione della chiave attiva (KC). Questi strumenti includono composizione intelligente, correzione degli errori e candidati composti da più parole nella barra dei suggerimenti o in linea. La post-correzione (PC) facilita anche la rettifica di errori in parole già commesse. Nonostante queste funzionalità, due restrizioni chiave compromettono l'esperienza dell'utente.
-
Sebbene i modelli di correzione sul dispositivo come KC, AC e PC siano veloci e compatti, hanno difficoltà a gestire errori sofisticati e complessi che richiedono contesti più lunghi. Per evitare che questi modelli vengano attivati, gli utenti devono digitare lentamente e con precisione.
-
La velocità di digitazione diminuisce a causa del fatto che gli utenti devono correggere manualmente le parole memorizzate utilizzando i correttori grammaticali e ortografici, il che può essere faticoso sia dal punto di vista mentale che visivo.
La necessità di una correzione degli errori di alto livello
Chi scrive velocemente spesso trascura le parole che ha già digitato e si concentra solo sulla tastiera. Da ciò possono derivare tassi di errore più elevati, che richiedono l’uso di meccanismi di frase o di correzione di livello superiore.
Presentazione di Proofread
Proofread risolve questi frequenti reclami offrendo notevoli aumenti di produttività. Semplifica la correzione degli errori fornendo correzioni a livello di frase e paragrafo con un solo tocco.
La tecnologia dietro la correzione di bozze
La funzionalità Proofread è composta da quattro componenti principali: produzione di dati, progettazione di metriche, modifica del modello e pubblicazione del modello. Insieme, tutti questi componenti garantiscono l’efficacia. Per garantire che la distribuzione dei dati sia in linea con il dominio Gboard, il sistema imita i frequenti errori della tastiera utilizzando un'architettura sintetica degli errori costruita in modo preciso e metodico.
Metriche avanzate e ottimizzazione dei modelli
Per valutare il modello, i ricercatori hanno incorporato una serie di parametri, con particolare enfasi sui controlli della presenza di errori grammaticali e controlli di significato simili derivati da modelli linguistici di grandi dimensioni (LLM). La messa a punto supervisionata e l'apprendimento per rinforzo (RL) vengono utilizzati nella tecnica InstructGPT per migliorare il modello. Le prestazioni di correzione del modello vengono notevolmente migliorate da questa procedura.
Distribuzione e prestazioni
Utilizzando la quantizzazione a 8 bit, il LLM PaLM2-XS di medie dimensioni è personalizzato per adattarsi a un singolo TPU v5 e funge da base per la funzionalità Proofread. L'ottimizzazione riduce il costo del servizio. Ricerche precedenti hanno dimostrato che la segmentazione, la decodifica speculativa e le chiavi bucket possono ridurre la latenza.
Impatto nel mondo reale
Decine di migliaia di utenti Pixel 8 trarranno vantaggio dalle modifiche di alta qualità fornite dalla funzione Proofread, ora disponibile. Una generazione approfondita di dati sintetici e diverse iterazioni di messa a punto hanno prodotto un modello che riduce sostanzialmente gli errori grammaticali, come dimostrato da una diminuzione relativa del 5,74% nel rapporto Bad del modello PaLM2-XS. Inoltre, le ottimizzazioni hanno comportato una diminuzione del 39,4% della latenza media.
Prospettive future
Questo studio dimostra come gli LLM potrebbero migliorare l'esperienza dell'utente e creare interessanti possibilità per ulteriori indagini. L’uso dei dati degli utenti reali, il supporto multilingue, l’assistenza personalizzata nella scrittura e le soluzioni per la privacy dei dispositivi sono alcuni esempi di aree che potrebbero portare a ulteriori progressi nel settore.
L'intelligenza artificiale di Google sta espandendo le possibilità della tecnologia delle tastiere mobili con l'introduzione della funzione Proofread, migliorando la digitazione per le persone di tutto il mondo.