Google AI avslöjar "korrekturläsning": Gboard-funktion för enkel korrigering av meningar och stycken

Uppdaterad på June 13, 2024 3 minuter läst

Google AI introducerade nyligen en ny funktion som heter “korrekturläsa” till Gboard, den populära mobiltangentbordsapplikationen. Med ett enda tryck möjliggör den här funktionen sömlösa ändringar och korrigeringar på menings- och styckenivå, vilket förbättrar den övergripande skrivupplevelsen.

Ta itu med problemet med “Fet Finger”.

Gboard använder statistisk avkodning som ett sätt att lösa problemet med “fettfinger”, som är den naturliga felaktigheten i pekinmatning på små skärmar. Forskning visar att felfrekvensen per bokstav kan nå 8 till 9 procent utan avkodning. Gboard kommer med flera felkorrigerande funktioner för att göra det enklare och smidigare att skriva. Dessa funktioner kombinerar manuella uppgifter som involverar mänsklig input med proaktiva, automatiserade korrigeringar.

Omfattande felkorrigeringsverktyg

Att skriva blir enklare kollektivt av Gboards funktioner, som inkluderar ordkomplettering, nästa ords prediktion, aktiv automatisk korrigering (AC) och aktiv tangentkorrigering (KC). Dessa verktyg inkluderar smart sammansättning, felkorrigering och kandidater med flera ord i förslagsfältet eller inline. Efterkorrigering (PC) underlättar också rättelse av fel i ord som redan har begåtts. Trots dessa funktioner försämrar två viktiga begränsningar användarupplevelsen.

Även om korrigeringsmodeller på enheten som KC, AC och PC är snabba och kompakta, har de svårt att hantera sofistikerade och komplexa fel som behöver längre sammanhang. För att förhindra att dessa modeller aktiveras måste användarna skriva långsamt och exakt.
Skrivhastigheten minskar som ett resultat av att användarna måste manuellt korrigera beskrivna ord med hjälp av grammatik och stavningskontroll, vilket kan vara mentalt och visuellt påfrestande.

Behovet av felkorrigering på hög nivå

Snabbtyper ignorerar ofta ord de redan har skrivit och koncentrerar sig bara på tangentbordet. Högre felfrekvens kan uppstå av detta, vilket gör det nödvändigt att använda meningar eller korrigeringsmekanismer på högre nivå.

Vi introducerar korrekturläsning

Korrekturläsning löser dessa frekventa klagomål genom att erbjuda anmärkningsvärda produktivitetshöjningar. Det gör felkorrigering enklare genom att tillhandahålla korrigeringar på menings- och styckenivå med en knapptryckning.

Tekniken bakom korrekturläsning

Korrekturläsningsfunktionen består av fyra primära komponenter: dataproduktion, måttdesign, modelljustering och modellvisning. Tillsammans garanterar alla dessa komponenter effektivitet. För att säkerställa att datadistributionen är i linje med Gboard-domänen, härmar systemet frekventa tangentbordsfel med hjälp av en exakt och metodiskt byggd felsyntetisk arkitektur.

Avancerad statistik och modelloptimering

För att bedöma modellen har forskare införlivat ett antal mätetal, med särskild tonvikt på närvarokontroller av grammatiska fel och liknande betydelsekontroller härledda från stora språkmodeller (LLM). Övervakad finjustering och Reinforcement Learning (RL) tuning används i InstructGPT-tekniken för att förbättra modellen. Modellens korrekturläsningsprestanda förbättras avsevärt genom denna procedur.

Implementering och prestanda

Med hjälp av 8-bitars kvantisering är den medelstora LLM PaLM2-XS skräddarsydd för att passa in i en enda TPU v5 och fungerar som grunden för korrekturläsningsfunktionen. Optimeringen sänker kostnaden för serveringen. Tidigare forskning har visat att segmentering, spekulativ avkodning och hinknycklar kan minska latensen.

Verkliga inverkan på världen

Tiotusentals Pixel 8-användare kommer att dra nytta av de högkvalitativa redigeringarna som tillhandahålls av korrekturläsfunktionen, som nu är tillgänglig. En grundlig generering av syntetiska data och flera upprepningar av finjustering har producerat en modell som avsevärt sänker grammatiska fel, vilket kan ses av en 5,74 procents relativ minskning av PaLM2-XS-modellens Bad ratio. Dessutom har optimeringar resulterat i en minskning med 39,4 % i median latens.

Framtida prospekt

Denna studie visar hur LLM:er kan förbättra användarupplevelsen och skapa spännande möjligheter för ytterligare undersökningar. Användningen av verkliga användares data, flerspråkig support, skräddarsydd skrivhjälp och enhetssekretesslösningar är några exempel på områden som kan leda till ytterligare framsteg inom sektorn.

Google AI utökar möjligheterna med mobil tangentbordsteknik med introduktionen av korrekturläsfunktionen, vilket förbättrar skrivningen för människor över hela världen.