Bewerben Sie sich für unsere neuen Teilzeit-Kohorten Data Science und Cybersecurity

Die Rolle der Längennormierung bei der Strahlensuche und der Erzeugung von Sequenzen

Längennormalisierung in NLP
Balkensuchtechnik
Fairness bei der Sequenzerstellung
Fairness im NLP: Verständnis der Längennormalisierung bei der Sequenzerstellung cover image

Die Längennormalisierung ist eine Technik, die bei der Balkensuche oder anderen Algorithmen zur Sequenzerzeugung eingesetzt wird, um Verzerrungen zugunsten kürzerer oder längerer Sequenzen auszugleichen. Sie zielt darauf ab, eine faire Bewertung und Einstufung von Sequenzen unterschiedlicher Länge zu gewährleisten, insbesondere bei Verwendung wahrscheinlichkeitsbasierter Bewertungsmethoden.

Im Zusammenhang mit der Strahlensuche:

Behandeltes Problem

  • Längenverzerrungen: Ohne Längennormalisierung neigen längere Sequenzen dazu, im Vergleich zu kürzeren Sequenzen geringere Wahrscheinlichkeiten zu haben, allein aufgrund der Multiplikation der Wahrscheinlichkeiten bei jedem Schritt. Infolgedessen dominieren kürzere Sequenzen aufgrund ihrer höheren Auftretenswahrscheinlichkeit häufig bei der Balkensuche.

Wie die Längennormalisierung funktioniert

  • Zielsetzung: Das Ziel der Längennormalisierung ist es, die Bewertungen oder Wahrscheinlichkeiten von Kandidatensequenzen auf der Grundlage ihrer Länge anzupassen, um eine Verzerrung zugunsten einer bestimmten Länge zu vermeiden.

  • Normalisierungsfaktor: Dabei werden die Werte der Sequenzen mit einem Faktor skaliert, der die Länge der Sequenzen berücksichtigt.

  • Längen-Penalisierung: Normalerweise wird dabei die logarithmische Wahrscheinlichkeit ( oder eine beliebige Bewertungsmetrik) durch die Länge der Sequenz geteilt oder ein Strafwert angewandt, der umgekehrt proportional zur Sequenzlänge ist.

Beispiel

  • Angenommen, Sie haben zwei Sequenzen: Sequenz A hat eine Länge von 5 und eine logarithmische Wahrscheinlichkeit von -10, und Sequenz B hat eine Länge von 7 und eine logarithmische Wahrscheinlichkeit von -15.

  • Ohne Längennormalisierung scheint Sequenz A eine höhere Wahrscheinlichkeit zu haben, (seit -10 > -15), obwohl sie kürzer ist.

  • Mit der Längennormalisierung können die Werte angepasst werden, indem die log-Wahrscheinlichkeiten durch die jeweiligen Sequenzlängen geteilt werden: Der angepasste Wert von Sequenz A wird zu -10/5 = -2, und der angepasste Wert von Sequenz B wird zu -15/7 ≈ -2,14.

  • Nach der Längennormalisierung könnte Sequenz B angesichts ihrer größeren Länge eine etwas höhere angepasste Wahrscheinlichkeit aufweisen.

Zweck und Auswirkungen

  • Gleiche Bewertung: Die Längennormalisierung zielt darauf ab, eine faire Bewertung und Einstufung von Sequenzen zu gewährleisten, indem ihre Länge berücksichtigt wird, um die Voreingenommenheit gegenüber kürzeren Sequenzen zu verringern.

  • Ausgewogene Erkundung: Durch die Normalisierung der Punktzahlen auf der Grundlage der Länge kann die Balkensuche Sequenzen unterschiedlicher Länge gleichmäßiger untersuchen und so die Vielfalt der erzeugten Ergebnisse fördern.

Bedeutung bei der Sequenzerstellung

  • Die Längennormalisierung ist besonders wichtig bei Aufgaben, bei denen die Länge der Ausgabesequenz stark variiert oder bei denen die Bevorzugung kürzerer oder längerer Sequenzen zu verzerrten Ergebnissen führen könnte.

  • Es hilft dabei, ein Gleichgewicht zwischen der Erstellung prägnanter, kohärenter Ergebnisse und der Erkundung längerer, kontextbezogener Sequenzen herzustellen.

Im Wesentlichen passt die Längennormalisierung bei der Balkensuche die Punktzahlen der Kandidatensequenzen auf der Grundlage ihrer Länge an, um einen fairen Vergleich und eine faire Rangfolge zu gewährleisten und eine ausgewogenere Erkundung von Sequenzen unterschiedlicher Länge zu fördern.


Career Services background pattern

Karrieredienste

Contact Section background image

Lass uns in Kontakt bleiben

Code Labs Academy © 2024 Alle Rechte vorbehalten.