K-кратная перакрыжаваная праверка ў машынным навучанні

K-кратная перакрыжаваная праверка
ацэнка мадэлі
магчымасць абагульнення
K-кратная перакрыжаваная праверка ў машынным навучанні cover image

K-кратная перакрыжаваная праверка - гэта метад, які выкарыстоўваецца для ацэнкі прадукцыйнасці мадэлі. Гэта асабліва карысна для ацэнкі таго, наколькі добра мадэль будзе абагульняцца для новых, нябачаных дадзеных. Працэс уключае ў сябе падзел набору даных на «k» падмностваў або складкоў прыкладна аднолькавага памеру. Вось разбіўка этапаў:

1. Раздзяленне набору даных:

Набор даных падзелены на 'k' аднолькавых па памеры падмностваў або складкоў. Напрыклад, калі ў вас ёсць 1000 узораў і вы выбіраеце «k» як 5, кожная згортка будзе змяшчаць 200 узораў.

2. Ітэрацыйнае навучанне і ацэнка:

Мадэль навучана 'k' разоў. У кожнай ітэрацыі іншая складка выкарыстоўваецца ў якасці набору праверкі, а астатнія складкі выкарыстоўваюцца для навучання. Напрыклад:

  • Ітэрацыя 1: Складанне 1 у якасці праверкі, Складанне 2 у k для навучання

  • Ітэрацыя 2: Складанне 2 у якасці праверкі, Складанне 1 і 3 у k для навучання

  • Ітэрацыя 3: Fold 3 у якасці праверкі, Folds 1 і 2 і 4 to k для навучання

  • ... і гэтак далей, пакуль усе складкі не будуць выкарыстаны ў якасці набору праверкі.

3. Ацэнка прадукцыйнасці:

Пасля кожнай ітэрацыі прадукцыйнасць мадэлі ацэньваецца з дапамогай выбранай метрыкі (напрыклад, дакладнасці, дакладнасці, запамінання і г.д.) у наборы праверкі. Паказчыкі прадукцыйнасці кожнай ітэрацыі асерадняюцца або аб'ядноўваюцца, каб даць агульную ацэнку прадукцыйнасці мадэлі.

4. Агрэгацыя паказчыкаў:

Паказчыкі прадукцыйнасці (напрыклад, паказчыкі дакладнасці) з кожнай ітэрацыі ўсярэдніваюцца або аб'ядноўваюцца, каб даць агульную ацэнку прадукцыйнасці мадэлі. Гэты зводны паказчык уяўляе чаканую прадукцыйнасць мадэлі на нябачных даных.

Перавагі K-кратнай перакрыжаванай праверкі перад простым падзелам цягніка/тэсту

  • Лепшае выкарыстанне даных: К-кратная перакрыжаваная праверка лепш выкарыстоўвае даступныя даныя, паколькі кожны ўзор выкарыстоўваецца як для навучання, так і для праверкі.

  • Паменшаная дысперсія ў ацэнцы прадукцыйнасці: гэта забяспечвае больш надзейную ацэнку прадукцыйнасці мадэлі за кошт памяншэння дысперсіі, звязанай з падзелам аднаго цягніка/тэсту.

  • Абагульненне: дапамагае зразумець, як мадэль працуе на розных падмноствах даных, і, такім чынам, ацаніць яе магчымасці абагульнення.

Выбар значэння 'k'

  • Больш высокія значэнні «k»: выкарыстанне больш высокага значэння «k» (напрыклад, 10 і больш) прыводзіць да меншых набораў праверкі, што можа прывесці да меншага зрушэння ў ацэнцы прадукцыйнасці, але да большага вылічальнага кошту.

  • Нізкія значэнні 'k': выкарыстанне меншага значэння 'k' (напрыклад, 3 або 5) змяншае вылічальныя выдаткі, але можа прывесці да большага зрушэння ў ацэнцы прадукцыйнасці з-за меншай праверкі. наборы.

У практычных сцэнарах

  • Для вялікіх набораў даных больш высокія значэнні «k» могуць быць дарагімі ў плане вылічэнняў.

  • Калі набор даных невялікі, больш высокае "k" можа не даць дастаткова даных у кожнай згортцы для надзейнага навучання мадэлі.

  • Як правіла, такія значэнні, як 5 або 10, звычайна выкарыстоўваюцца, паколькі яны забяспечваюць баланс паміж вылічальнай эфектыўнасцю і надзейнай ацэнкай прадукцыйнасці.


Career Services background pattern

Кар'ерныя паслугі

Contact Section background image

Давайце заставацца на сувязі

Code Labs Academy © 2024 Усе правы абароненыя.