K-fold zehar-balioztapena Machine Learning-en

K-fold zehar-balioztapena
ereduaren ebaluazioa
orokortze gaitasuna
K-fold zehar-balioztapena Machine Learning-en cover image

K-fold gurutze-balioztapena eredu baten errendimendua ebaluatzeko erabiltzen den teknika da. Bereziki lagungarria da eredu bat zenbateraino orokortuko den datu berrietara eta ikusi gabekoetara kalkulatzeko. Prozesua datu-multzoa gutxi gorabehera tamaina bereko 'k' azpimultzo edo tolesturetan zatitzea dakar. Hona hemen urratsen banaketa:

1. Datu multzoen zatiketa:

Datu-multzoa 'k' tamaina berdineko azpimultzo edo tolesturetan banatzen da. Esate baterako, 1.000 lagin badituzu eta 'k' 5 aukeratzen baduzu, tolestu bakoitzak 200 lagin izango ditu.

2. Prestakuntza eta ebaluazio errepikakorra:

Eredua 'k' aldiz entrenatzen da. Iterazio bakoitzean, tolestura ezberdin bat erabiltzen da baliozkotze multzo gisa, eta gainerako tolesturak entrenatzeko erabiltzen dira. Adibidez:

  • 1. errepikapena: Tolestu 1 baliozkotze gisa, Tolestu 2 to k entrenatzeko

  • 2. errepikapena: Tolestu 2 baliozkotze gisa, Tolestu 1 eta 3 k to entrenatzeko

  • 3. errepikapena: Tolestu 3 baliozkotze gisa, Tolestu 1 eta 2, eta 4 to k entrenatzeko

  • ... eta horrela tolestura guztiak baliozkotze multzo gisa erabili arte.

3. Errendimenduaren ebaluazioa:

Iterazio bakoitzaren ondoren, ereduaren errendimendua ebaluatzen da baliozkotze multzoan aukeratutako metrika (adibidez, zehaztasuna, zehaztasuna, gogoratzea, etab.) erabiliz. Iterazio bakoitzeko errendimendu-neurriak batez bestekoa edo konbinatzen dira ereduaren errendimenduaren estimazio orokorra emateko.

4. Neurrien agregazioa:

Iterazio bakoitzeko errendimendu-neurriak (adibidez, zehaztasun puntuazioak) batez bestekoa edo konbinatzen dira ereduaren errendimenduaren balorazio orokorra emateko. Agregatutako metrika honek ereduak ikusi gabeko datuetan espero duen errendimendua adierazten du.

K-fold baliozkotze gurutzatuaren abantailak tren/proba zatiketa sinple baten aldean

  • Datuen erabilera hobea: K-fold gurutze-balioztapenak hobeto erabiltzen ditu eskuragarri dauden datuak, lagin bakoitza entrenamendurako eta baliozkotzeko erabiltzen baita.

  • Errendimenduaren estimazioan aldakuntza murriztua: ereduaren errendimenduaren estimazio fidagarriagoa eskaintzen du tren/proba zatiketa bakar batekin lotutako bariantza murriztuz.

  • Generalizazioa: ereduak datuen azpimultzo desberdinetan nola funtzionatzen duen ulertzen laguntzen du, beraz, orokortzeko gaitasuna ebaluatzen du.

'k'-ren balioa aukeratzea

  • 'k' balio handiagoak: 'k' balio handiagoa erabiltzeak (adibidez, 10 edo gehiago) baliozkotze-multzo txikiagoak sortzen ditu, eta horrek alborapen baxuagoa ekar dezake errendimenduaren estimazioan baina konputazio-kostu handiagoa..

  • 'k' balio txikiagoak: 'k' balio txikiagoa erabiltzeak (adibidez, 3 edo 5) konputazio-gastua murrizten du baina errendimenduaren estimazioan alborapen handiagoa ekar dezake baliozkotze txikiagoa dela eta. multzoak.

Eszenatoki praktikoetan

  • Datu multzo handietarako, 'k' balio altuagoak konputazionalki garestiak izan daitezke.

  • Datu-multzoa txikia denean, baliteke "k" altuago batek datu nahikorik ez ematea tolestura bakoitzean eredu sendoa prestatzeko.

  • Orokorrean, 5 edo 10 bezalako balioak erabili ohi dira, eraginkortasun konputazionalaren eta errendimendu fidagarriaren estimazioaren arteko oreka lortzen baitute.


Career Services background pattern

Lanbide Zerbitzuak

Contact Section background image

Jarrai gaitezen harremanetan

Code Labs Academy © 2024 Eskubide guztiak erreserbatuta.