Google AI afslører 'korrektur': Gboard-funktion til ubesværet rettelser af sætninger og afsnit

Senest opdateret June 19, 2024 3 minutters læsning

Google AI introducerede for nylig en ny funktion kaldet ‘korrekturlæs’ til Gboard, den populære mobiltastaturapplikation. Med et enkelt tryk giver denne funktion mulighed for problemfrie ændringer og rettelser på sætnings- og afsnitsniveauer, hvilket forbedrer den overordnede skriveoplevelse.

Løsning af ‘Fed Finger’-problemet

Gboard bruger statistisk afkodning som et middel til at løse problemet med “fed finger”, som er den naturlige unøjagtighed af berøringsinput på små skærme. Forskning viser, at fejlprocenten pr. bogstav kan nå op på 8 til 9 procent uden afkodning. Gboard kommer med adskillige fejlkorrigerende funktioner for at gøre indtastning nemmere og smidigere. Disse funktioner kombinerer manuelle opgaver, der involverer menneskelig input, med proaktive, automatiserede rettelser.

Omfattende fejlretningsværktøjer

Indtastning gøres kollektivt lettere af Gboards funktioner, som omfatter ordfuldførelse, næste ord forudsigelser, aktiv automatisk korrektion (AC) og aktiv nøglekorrektion (KC). Disse værktøjer omfatter smart sammensætning, fejlkorrektion og kandidater med flere ord i forslagslinjen eller inline. Efterkorrektion (PC) letter også udbedring af fejl i ord, der allerede er begået. På trods af disse funktioner forringer to vigtige begrænsninger brugeroplevelsen.

Mens korrektionsmodeller på enheden som KC, AC og PC er hurtige og kompakte, har de svært ved at håndtere sofistikerede og komplekse fejl, der kræver længere sammenhænge. For at forhindre, at disse modeller aktiveres, skal brugerne skrive langsomt og præcist.
Indtastningshastigheden falder som følge af, at brugerne manuelt skal korrigere forpligtede ord ved hjælp af grammatik og stavekontrol, hvilket kan være mentalt og visuelt belastende.

Behovet for fejlkorrektion på højt niveau

Hurtige typer ignorerer ofte ord, de allerede har skrevet, og koncentrerer sig kun på tastaturet. Højere fejlrater kan opstå som følge af dette, hvilket nødvendiggør brugen af sætnings- eller korrektionsmekanismer på højere niveau.

Introduktion af korrekturlæsning

Korrekturlæsning løser disse hyppige klager ved at tilbyde bemærkelsesværdige produktivitetsstigninger. Det gør fejlkorrektion enklere ved at levere rettelser på sætnings- og afsnitsniveau med et enkelt tryk.

Teknologien bag korrekturlæsning

Korrekturlæsningsfunktionen består af fire primære komponenter: dataproduktion, metrikdesign, modeljustering og modelvisning. Tilsammen garanterer alle disse komponenter effektivitet. For at sikre, at datadistribution er på linje med Gboard-domænet, efterligner systemet hyppige tastaturfejl ved hjælp af en præcist og metodisk bygget fejlsyntetisk arkitektur.

Avancerede målinger og modeloptimering

For at vurdere modellen har forskere indarbejdet en række metrikker med særlig vægt på grammatiske fejltilstedeværelsestjek og lignende betydningstjek afledt af store sprogmodeller (LLM’er). Overvåget finjustering og Reinforcement Learning (RL) tuning bruges i InstructGPT-teknikken for at forbedre modellen. Modellens korrekturydelse forbedres væsentligt ved denne procedure.

Implementering og ydeevne

Ved hjælp af 8-bit kvantisering er den mellemstore LLM PaLM2-XS skræddersyet til at passe ind i en enkelt TPU v5 og fungerer som grundlaget for korrektur-funktionen. Optimeringen sænker omkostningerne ved servering. Tidligere forskning har vist, at segmentering, spekulativ afkodning og bucket-nøgler kan reducere latens.

Virkning på den virkelige verden

Titusindvis af Pixel 8-brugere vil drage fordel af de højkvalitetsredigeringer, der leveres af korrektur-funktionen, som nu er tilgængelig. En grundig generering af syntetiske data og adskillige gentagelser af finjustering har produceret en model, der sænker grammatiske fejl væsentligt, hvilket ses af et 5,74 procent relativt fald i PaLM2-XS modellens dårlige forhold. Derudover har optimeringer resulteret i et fald på 39,4 % i median latenstid.

Fremtidsudsigter

Denne undersøgelse viser, hvordan LLM’er kan forbedre brugeroplevelsen og skabe spændende muligheder for yderligere undersøgelser. Brugen af reelle brugerdata, flersproget support, skræddersyet skriveassistance og enhedsbeskyttelsesløsninger er nogle få eksempler på områder, der kan føre til yderligere fremskridt i sektoren.

Google AI udvider mulighederne for mobiltastaturteknologi med introduktionen af korrekturlæsningsfunktionen, hvilket forbedrer indtastning for folk over hele verden.