Pārmērība notiek, kad modelis apgūst ne tikai apmācības datu pamatā esošos modeļus, bet arī troksni un nejaušību, kas atrodas konkrētajā datu kopā. Tā rezultātā tiek iegūts modelis, kas ļoti labi darbojas apmācību datiem, bet nespēj vispārināt uz jauniem, neredzētiem datiem.
Identifikācija
-
Augsta apmācības precizitāte, zema testa precizitāte: viens no primārajiem rādītājiem ir tas, ka modeļa veiktspēja ir ārkārtīgi laba apmācības datos, bet vāja testa vai validācijas datos.
-
Modeļa sarežģītība: Overfit modeļi mēdz būt pārāk sarežģīti, uztverot troksni, nevis pamatā esošos modeļus.
-
Vizualizācijas: diagrammas, piemēram, mācīšanās līknes, kas parāda veiktspēju apmācību un apstiprināšanas komplektos, var atklāt pārmērīgu pielāgošanos, ja treniņu veiktspēja turpina uzlaboties, kamēr validācijas veiktspējas līmenis ir nemainīgs vai samazinās.
Profilakse un paņēmieni pārmērīgas aprīkošanas mazināšanai
-
Savstarpēja validācija: tādas metodes kā kreizējā savstarpējā validācija var palīdzēt novērtēt modeļa veiktspēju dažādās datu apakškopās, nodrošinot tā labu vispārināšanu.
-
Vilcienu apstiprināšanas un pārbaudes sadalījums: datu sadalīšana atsevišķās kopās apmācībai, validācijai un testēšanai nodrošina, ka modelis tiek novērtēts, pamatojoties uz neredzamiem datiem.
-
Funkciju izvēle: izmantojiet tikai visatbilstošākās funkcijas, lai apmācītu modeli, izvairoties no mazāk informatīvo atribūtu radītā trokšņa.
-
Regulēšana: tādas metodes kā L1 vai L2 regulēšana modeļa zaudēšanas funkcijai pievieno soda nosacījumus, atturot no pārāk sarežģītiem modeļiem.
-
Agrīna apstāšanās: pārraugiet modeļa veiktspēju validācijas komplektā un pārtrauciet apmācību, kad veiktspēja sāk pasliktināties, neļaujot tai pārmērīgi optimizēt apmācības datus.
-
Komplekta metodes: tādu paņēmienu kā iepakošana maisos, paaugstināšana vai sakraušana var palīdzēt samazināt pārmērīgu ietilpību, apvienojot vairāku modeļu prognozes.
-
Datu palielināšana: noteiktiem modeļu veidiem papildu apmācības datu ģenerēšana, piemērojot transformācijas vai traucējumus esošajiem datiem, var palīdzēt novērst pārmērīgu pielāgošanu.
Modeļa sarežģītības, datu kopas lieluma un regularizācijas metožu līdzsvarošana ir ļoti svarīga, lai novērstu pārmērīgu pielāgošanu, vienlaikus nodrošinot, ka modelis labi vispārinās jauniem, neredzētiem datiem.