Нармалізацыя даўжыні - гэта метад, які выкарыстоўваецца ў пошуку па прамяню або іншых алгарытмах генерацыі паслядоўнасці для вырашэння зрушэнняў у бок больш кароткіх або больш доўгіх паслядоўнасцей. Яна накіравана на забеспячэнне справядлівай ацэнкі і ранжыравання паслядоўнасцей рознай даўжыні, асабліва пры выкарыстанні метадаў ацэнкі на аснове верагоднасці.
У кантэксце прамянёвага пошуку:
Праблема вырашана
- Зрушэнні даўжыні: без нармалізацыі даўжыні больш доўгія паслядоўнасці, як правіла, маюць больш нізкія імавернасці ў параўнанні з больш кароткімі, толькі з-за множання верагоднасцей на кожным кроку. У выніку больш кароткія паслядоўнасці часта дамінуюць у прамянёвым пошуку з-за большай верагоднасці іх з'яўлення.
Як працуе нармалізацыя даўжыні
-
Мэта: Мэтай нармалізацыі даўжыні з'яўляецца карэкціроўка балаў або імавернасцей паслядоўнасцей-кандыдатаў на аснове іх даўжыні, каб прадухіліць зрушэнне ў бок пэўнай даўжыні.
-
Каэфіцыент нармалізацыі: ён уключае маштабаванне балаў паслядоўнасцей па каэфіцыенце, які ўлічвае іх даўжыню.
-
Штраф за даўжыню: звычайна гэта прадугледжвае дзяленне логарыма верагоднасці (ці любога паказчыка вылічэння) на даўжыню паслядоўнасці або прымяненне штрафу, які зваротна прапарцыянальны даўжыні паслядоўнасці.
Прыклад
-
Выкажам здагадку, што ў вас ёсць дзве паслядоўнасці: паслядоўнасць A мае даўжыню 5 і логарифм імавернасці -10, а паслядоўнасць B мае даўжыню 7 і логарифм імавернасці -15.
-
Без нармалізацыі даўжыні паслядоўнасць A, здаецца, мае больш высокую верагоднасць (паколькі -10 > -15), нават калі яна карацейшая.
-
Пры нармалізацыі даўжыні балы могуць быць скарэкціраваны шляхам дзялення логарымаў імавернасцей на іх адпаведныя даўжыні паслядоўнасці: скарэкціраваны бал паслядоўнасці A становіцца -10/5 = -2, а скарэкціраваны бал паслядоўнасці B становіцца -15/7 ≈ -2,14.
-
Пасля нармалізацыі даўжыні паслядоўнасць B можа мець крыху больш высокую скарэкціраваную імавернасць з улікам яе большай даўжыні.
Мэта і ўздзеянне
-
Аднолькавая ацэнка: нармалізацыя даўжыні накіравана на забеспячэнне справядлівай ацэнкі і ранжыравання паслядоўнасцей шляхам уліку іх даўжыні, змякчаючы прадузятасць у бок больш кароткіх паслядоўнасцей.
-
Збалансаванае даследаванне: шляхам нармалізацыі балаў у залежнасці ад даўжыні прамянёвы пошук можа больш раўнамерна даследаваць паслядоўнасці рознай даўжыні, заахвочваючы разнастайнасць атрыманых вынікаў.
Важнасць у генерацыі паслядоўнасці
-
Нармалізацыя даўжыні асабліва важная ў задачах, дзе даўжыня выходнай паслядоўнасці істотна адрозніваецца або дзе перавага больш кароткіх або больш доўгіх паслядоўнасцей можа прывесці да неаб'ектыўных вынікаў.
-
Гэта дапамагае ў дасягненні балансу паміж стварэннем кароткіх, паслядоўных вынікаў і вывучэннем больш доўгіх, больш кантэкстуальна насычаных паслядоўнасцей.
Па сутнасці, нармалізацыя даўжыні ў прамянёвым пошуку карэктуе балы паслядоўнасцей-кандыдатаў на аснове іх даўжыні, каб забяспечыць справядлівае параўнанне і ранжыраванне, спрыяючы больш збалансаванаму вывучэнню паслядоўнасцей рознай даўжыні.