K-fold zehar-balioztapena Machine Learning-en

K-fold zehar-balioztapena
ereduaren ebaluazioa
orokortze gaitasuna

Eguneratua September 24, 20244 Irakurri minutuak

K-fold zehar-balioztapena Machine Learning-en cover image

K-fold gurutze-balioztapena eredu baten errendimendua ebaluatzeko erabiltzen den teknika da. Bereziki lagungarria da eredu bat zenbateraino orokortuko den datu berrietara eta ikusi gabekoetara kalkulatzeko. Prozesua datu-multzoa gutxi gorabehera tamaina bereko 'k' azpimultzo edo tolesturetan zatitzea dakar. Hona hemen urratsen banaketa:

1. Datu multzoen zatiketa:

Datu-multzoa 'k' tamaina berdineko azpimultzo edo tolesturetan banatzen da. Esate baterako, 1.000 lagin badituzu eta 'k' 5 aukeratzen baduzu, tolestu bakoitzak 200 lagin izango ditu.

2. Prestakuntza eta ebaluazio errepikakorra:

Eredua 'k' aldiz entrenatzen da. Iterazio bakoitzean, tolestura ezberdin bat erabiltzen da baliozkotze multzo gisa, eta gainerako tolesturak entrenatzeko erabiltzen dira. Adibidez:

  • 1. errepikapena: Tolestu 1 baliozkotze gisa, Tolestu 2 to k entrenatzeko

  • 2. errepikapena: Tolestu 2 baliozkotze gisa, Tolestu 1 eta 3 k to entrenatzeko

  • 3. errepikapena: Tolestu 3 baliozkotze gisa, Tolestu 1 eta 2, eta 4 to k entrenatzeko

  • ... eta horrela tolestura guztiak baliozkotze multzo gisa erabili arte.

3. Errendimenduaren ebaluazioa:

Iterazio bakoitzaren ondoren, ereduaren errendimendua ebaluatzen da baliozkotze multzoan aukeratutako metrika (adibidez, zehaztasuna, zehaztasuna, gogoratzea, etab.) erabiliz. Iterazio bakoitzeko errendimendu-neurriak batez bestekoa edo konbinatzen dira ereduaren errendimenduaren estimazio orokorra emateko.

4. Neurrien agregazioa:

Iterazio bakoitzeko errendimendu-neurriak (adibidez, zehaztasun puntuazioak) batez bestekoa edo konbinatzen dira ereduaren errendimenduaren balorazio orokorra emateko. Agregatutako metrika honek ereduak ikusi gabeko datuetan espero duen errendimendua adierazten du.

K-fold baliozkotze gurutzatuaren abantailak tren/proba zatiketa sinple baten aldean

  • Datuen erabilera hobea: K-fold gurutze-balioztapenak hobeto erabiltzen ditu eskuragarri dauden datuak, lagin bakoitza entrenamendurako eta baliozkotzeko erabiltzen baita.

  • Errendimenduaren estimazioan aldakuntza murriztua: ereduaren errendimenduaren estimazio fidagarriagoa eskaintzen du tren/proba zatiketa bakar batekin lotutako bariantza murriztuz.

  • Generalizazioa: ereduak datuen azpimultzo desberdinetan nola funtzionatzen duen ulertzen laguntzen du, beraz, orokortzeko gaitasuna ebaluatzen du.

'k'-ren balioa aukeratzea

  • 'k' balio handiagoak: 'k' balio handiagoa erabiltzeak (adibidez, 10 edo gehiago) baliozkotze-multzo txikiagoak sortzen ditu, eta horrek alborapen baxuagoa ekar dezake errendimenduaren estimazioan baina konputazio-kostu handiagoa..

  • 'k' balio txikiagoak: 'k' balio txikiagoa erabiltzeak (adibidez, 3 edo 5) konputazio-gastua murrizten du baina errendimenduaren estimazioan alborapen handiagoa ekar dezake baliozkotze txikiagoa dela eta. multzoak.

Eszenatoki praktikoetan

  • Datu multzo handietarako, 'k' balio altuagoak konputazionalki garestiak izan daitezke.

  • Datu-multzoa txikia denean, baliteke "k" altuago batek datu nahikorik ez ematea tolestura bakoitzean eredu sendoa prestatzeko.

  • Orokorrean, 5 edo 10 bezalako balioak erabili ohi dira, eraginkortasun konputazionalaren eta errendimendu fidagarriaren estimazioaren arteko oreka lortzen baitute.

Kontuan hartu teknologiako karrera - Argibide gehiago CLAren lineako bootcamps buruz

Career Services background pattern

Lanbide Zerbitzuak

Contact Section background image

Jarrai gaitezen harremanetan

Code Labs Academy © 2025 Eskubide guztiak erreserbatuta.