Google AI onthult 'Proofread': Gboard-functie voor moeiteloze zins- en alineacorrecties

Bijgewerkt op June 13, 2024 3 Minuten lezen

Google AI heeft onlangs een nieuwe functie geïntroduceerd genaamd ‘Proofread’ in Gboard, de populaire mobiele toetsenbordapplicatie. Met een enkele tik maakt deze functie naadloze aanpassingen en correcties op zin- en alineaniveau mogelijk, waardoor de algehele typervaring wordt verbeterd.

Het probleem van de ‘dikke vingers’ aanpakken

Gboard gebruikt statistische decodering om het probleem van de ‘dikke vinger’ aan te pakken, wat de natuurlijke onnauwkeurigheid is van aanraakinvoer op kleine schermen. Uit onderzoek blijkt dat het foutenpercentage per letter zonder decodering 8 tot 9 procent kan bedragen. Gboard wordt geleverd met verschillende foutcorrectiefuncties om typen gemakkelijker en soepeler te maken. Deze functies combineren handmatige taken met menselijke input met proactieve, geautomatiseerde correcties.

Uitgebreide foutcorrectietools

Typen wordt collectief gemakkelijker gemaakt door de functies van Gboard, waaronder woordaanvulling, voorspellingen voor het volgende woord, actieve autocorrectie (AC) en actieve sleutelcorrectie (KC). Deze tools omvatten slimme compositie, foutcorrectie en kandidaten van meerdere woorden in de suggestiebalk of inline. Postcorrectie (PC) vergemakkelijkt ook het corrigeren van fouten in reeds gemaakte woorden. Ondanks deze functies zijn er twee belangrijke beperkingen die de gebruikerservaring belemmeren.

Hoewel correctiemodellen op het apparaat, zoals KC, AC en PC, snel en compact zijn, hebben ze moeite met het verwerken van geavanceerde en complexe fouten die langere contexten vereisen. Om te voorkomen dat deze modellen worden geactiveerd, moeten gebruikers langzaam en nauwkeurig typen.
De typsnelheid neemt af doordat gebruikers handmatig vastgelegde woorden moeten corrigeren met behulp van grammatica- en spellingcontroles, wat mentaal en visueel belastend kan zijn.

De noodzaak van foutcorrectie op hoog niveau

Snelle typers negeren vaak woorden die ze al hebben getypt en concentreren zich alleen op het toetsenbord. Hierdoor kunnen hogere foutenpercentages ontstaan, waardoor het gebruik van straffen of correctiemechanismen op een hoger niveau noodzakelijk is.

Introductie van proeflezen

Proofread lost deze veel voorkomende klachten op door opmerkelijke productiviteitsverbeteringen te bieden. Het maakt foutcorrectie eenvoudiger door correcties op zins- en alineaniveau met één tik aan te bieden.

De technologie achter proeflezen

De functie Proeflezen bestaat uit vier hoofdcomponenten: gegevensproductie, ontwerp van statistieken, aanpassing van modellen en weergave van modellen. Samen garanderen al deze componenten de effectiviteit. Om ervoor te zorgen dat de gegevensdistributie in lijn is met het Gboard-domein, bootst het systeem frequente toetsenbordfouten na met behulp van een nauwkeurig en methodisch opgebouwde foutsynthetische architectuur.

Geavanceerde statistieken en modeloptimalisatie

Om het model te beoordelen, hebben onderzoekers een aantal metrieken ingebouwd, met een bijzondere nadruk op controles op de aanwezigheid van grammaticale fouten en soortgelijke betekeniscontroles afgeleid van grote taalmodellen (LLM’s). Supervised fine-tuning en Reinforcement Learning (RL)-afstemming worden gebruikt in de InstructGPT-techniek om het model te verbeteren. Door deze procedure worden de proefleesprestaties van het model aanzienlijk verbeterd.

Implementatie en prestaties

Met behulp van 8-bit kwantisering is de middelgrote LLM PaLM2-XS op maat gemaakt om in een enkele TPU v5 te passen en dient als basis voor de proefleesfunctie. De optimalisatie verlaagt de servicekosten. Eerder onderzoek heeft aangetoond dat segmentatie, speculatieve decodering en bucket-sleutels de latentie kunnen verminderen.

Impact in de echte wereld

Tienduizenden Pixel 8-gebruikers zullen profiteren van de hoogwaardige bewerkingen die worden geboden door de functie Proeflezen, die nu beschikbaar is. Een grondige generatie van synthetische data en diverse aanpassingen hebben een model opgeleverd dat de grammaticale fouten aanzienlijk terugdringt, zoals blijkt uit een relatieve afname van 5,74 procent in de Bad ratio van het PaLM2-XS-model. Bovendien hebben optimalisaties geresulteerd in een afname van 39,4% in de gemiddelde latentie.

Toekomstperspectieven

Deze studie laat zien hoe LLM’s de gebruikerservaring kunnen verbeteren en intrigerende mogelijkheden voor verder onderzoek kunnen creëren. Het gebruik van echte gebruikersgegevens, meertalige ondersteuning, schrijfhulp op maat en oplossingen voor apparaatprivacy zijn enkele voorbeelden van gebieden die tot verdere vooruitgang in de sector zouden kunnen leiden.

Google AI breidt de mogelijkheden van mobiele toetsenbordtechnologie uit met de introductie van de Proofread-functie, waardoor typen voor mensen over de hele wereld wordt verbeterd.