Google AI stellt „Korrekturlesen“ vor: Gboard-Funktion für mühelose Satz- und Absatzkorrekturen

Aktualisiert am June 13, 2024 Lesedauer: 3 Minuten

Google AI hat kürzlich eine neue Funktion namens „Korrekturlesen“ für Gboard, die beliebte mobile Tastaturanwendung, eingeführt. Mit einem einzigen Tastendruck ermöglicht diese Funktion nahtlose Änderungen und Korrekturen auf Satz- und Absatzebene und verbessert so das gesamte Tipperlebnis.

Das Problem der „fetten Finger“ angehen

Gboard nutzt statistische Dekodierung, um das Problem der „fetten Finger“ anzugehen, bei dem es sich um die natürliche Ungenauigkeit von Berührungseingaben auf kleinen Bildschirmen handelt. Untersuchungen zeigen, dass die Fehlerquote pro Buchstabe ohne Dekodierung 8 bis 9 Prozent erreichen kann. Gboard verfügt über mehrere Fehlerkorrekturfunktionen, die das Tippen einfacher und reibungsloser machen. Diese Funktionen kombinieren manuelle Aufgaben mit menschlichem Input mit proaktiven, automatisierten Korrekturen.

Umfassende Tools zur Fehlerkorrektur

Das Tippen wird insgesamt durch die Funktionen von Gboard erleichtert, zu denen Wortvervollständigung, Vorhersage des nächsten Wortes, aktive Autokorrektur (AC) und aktive Tastenkorrektur (KC) gehören. Zu diesen Tools gehören intelligente Komposition, Fehlerkorrektur und Mehrwortkandidaten in der Vorschlagsleiste oder inline. Die Nachkorrektur (PC) erleichtert auch die Berichtigung bereits begangener Wortfehler. Trotz dieser Funktionen beeinträchtigen zwei wesentliche Einschränkungen das Benutzererlebnis.

Während geräteinterne Korrekturmodelle wie KC, AC und PC schnell und kompakt sind, haben sie Schwierigkeiten, anspruchsvolle und komplexe Fehler zu verarbeiten, die längere Kontexte erfordern. Um zu verhindern, dass diese Modelle aktiviert werden, müssen Benutzer langsam und präzise tippen.
Die Tippgeschwindigkeit nimmt ab, da Benutzer festgelegte Wörter mithilfe von Grammatik- und Rechtschreibprüfungen manuell korrigieren müssen, was geistig und visuell anstrengend sein kann.

Die Notwendigkeit einer Fehlerkorrektur auf hoher Ebene

Wer schnell schreibt, ignoriert häufig bereits getippte Wörter und konzentriert sich nur auf die Tastatur. Dadurch kann es zu höheren Fehlerquoten kommen, die den Einsatz von Satz- oder übergeordneten Korrekturmechanismen erforderlich machen.

Einführung des Korrekturlesens

Korrekturlesen löst diese häufigen Beschwerden, indem es spürbare Produktivitätssteigerungen bietet. Es vereinfacht die Fehlerkorrektur, indem es Korrekturen auf Satz- und Absatzebene mit nur einem Tastendruck ermöglicht.

Die Technologie hinter dem Korrekturlesen

Die Korrekturlesefunktion besteht aus vier Hauptkomponenten: Datenproduktion, Metrikdesign, Modelloptimierung und Modellbereitstellung. Alle diese Komponenten zusammen garantieren die Wirksamkeit. Um sicherzustellen, dass die Datenverteilung im Einklang mit der Gboard-Domäne steht, ahmt das System häufige Tastaturfehler mithilfe einer präzise und methodisch aufgebauten Fehlersynthesearchitektur nach.

Erweiterte Metriken und Modelloptimierung

Um das Modell zu bewerten, haben Forscher eine Reihe von Metriken einbezogen, wobei der Schwerpunkt auf der Prüfung des Vorhandenseins grammatikalischer Fehler und ähnlichen Bedeutungsprüfungen liegt, die aus großen Sprachmodellen (LLMs) abgeleitet werden. Überwachte Feinabstimmung und Reinforcement Learning (RL)-Abstimmung werden in der InstructGPT-Technik verwendet, um das Modell zu verbessern. Die Korrekturleseleistung des Modells wird durch dieses Vorgehen deutlich verbessert.

Bereitstellung und Leistung

Mithilfe der 8-Bit-Quantisierung ist der mittelgroße LLM PaLM2-XS so zugeschnitten, dass er in eine einzelne TPU v5 passt und als Grundlage für die Proofread-Funktion dient. Die Optimierung senkt die Bereitstellungskosten. Frühere Untersuchungen haben gezeigt, dass Segmentierung, spekulative Dekodierung und Bucket-Schlüssel die Latenz reduzieren können.

Auswirkungen auf die reale Welt

Zehntausende Pixel 8-Nutzer werden von den hochwertigen Bearbeitungen profitieren, die die Korrekturlesefunktion bietet, die jetzt verfügbar ist. Eine gründliche Generierung synthetischer Daten und mehrere Iterationen der Feinabstimmung haben ein Modell hervorgebracht, das Grammatikfehler erheblich reduziert, was sich in einer relativen Verringerung des Schlecht-Verhältnisses des PaLM2-XS-Modells um 5,74 Prozent zeigt. Darüber hinaus haben Optimierungen zu einer Verringerung der mittleren Latenz um 39,4 % geführt.

Zukunftsaussichten

Diese Studie zeigt, wie LLMs das Benutzererlebnis verbessern und interessante Möglichkeiten für weitere Untersuchungen schaffen können. Die Verwendung realer Benutzerdaten, mehrsprachiger Support, maßgeschneiderte Schreibhilfen und Geräteschutzlösungen sind einige Beispiele für Bereiche, die zu weiteren Fortschritten in der Branche führen könnten.

Google AI erweitert die Möglichkeiten der mobilen Tastaturtechnologie mit der Einführung der Korrekturlesefunktion und verbessert so das Tippen für Menschen auf der ganzen Welt.