Funkcijų inžinerija – tai naujų funkcijų kūrimo arba esamų modifikavimo iš neapdorotų duomenų procesas, siekiant pagerinti mašininio mokymosi modelių našumą. Tai labai svarbus aspektas, nes funkcijų kokybė ir tinkamumas daro didelę įtaką modelio gebėjimui mokytis modelių ir tiksliai prognozuoti.
Kodėl funkcijų inžinerija yra svarbi
- Patobulintas modelio našumas: gerai suprojektuotos funkcijos gali išryškinti duomenų modelius ir ryšius, kurių išmokti modeliui kitu atveju gali būti sudėtinga. Tai užtikrina didesnį nuspėjimo tikslumą.
– Sumažintas perteklinis pritaikymas: funkcijų inžinerija gali padėti sumažinti perteklinį pritaikymą, suteikdama modeliui prasmingesnius ir apibendrintus duomenų vaizdus.
– Supaprastinimas ir aiškinamumas: sukurtos funkcijos gali supaprastinti sudėtingus duomenų ryšius, todėl modelis tampa aiškiau suprantamas ir suprantamesnis.
Įprastų metodų, naudojamų funkcijų inžinerijoje, pavyzdžiai
– Imputacija: trūkstamų verčių tvarkymas priskiriant jas statistiniais matmenimis, pvz., vidurkiu, mediana arba režimu.
-
One-Hot Encoding: kategorinių kintamųjų konvertavimas į dvejetainius vektorius, leidžiantis modeliams suprasti ir apdoroti kategorinius duomenis.
-
Funkcijų mastelio keitimas: skaitinių ypatybių normalizavimas arba standartizavimas iki panašaus masto, neleidžiant tam tikroms ypatybėms dominuoti dėl jų didesnio masto.
-
Polinominės savybės: naujų funkcijų generavimas padidinant esamas savybes ir fiksuojant netiesinius ryšius.
-
Funkcijų pasirinkimas: tinkamiausių funkcijų pasirinkimas ir mažiau informatyvių atmetimas, siekiant sumažinti duomenų matmenis ir triukšmą.
-
Sujungimas arba diskretizavimas: ištisinių skaitinių savybių grupavimas į dėžes arba kategorijas, supaprastinant sudėtingus ryšius.
-
Funkcijų kryžiai / sąveikos: naujų funkcijų kūrimas derinant arba sąveikaujant su esamomis, kad būtų užfiksuota jų sąveika.
– Funkcijų transformacija: matematinių transformacijų, pvz., logaritmų ar kvadratinių šaknų, taikymas, kad duomenys būtų paskirstyti normaliau arba kad būtų sumažintas iškrypimas.
– Teksto funkcijų inžinerija: tokios technikos kaip TF-IDF (termino dažnio atvirkštinis dokumento dažnis), žodžių įterpimas arba n-gramos, kad būtų galima efektyviai pateikti tekstinius duomenis.
– Laiko ypatybės: funkcijų išskyrimas iš laiko žymų, pvz., savaitės diena, mėnuo ar laiko skirtumai, kurie gali atskleisti su laiku susijusius modelius.
Kiekvienai problemai ir duomenų rinkiniui gali prireikti skirtingų požiūrių į funkcijų inžineriją. Ekspertų srities žinios dažnai vaidina lemiamą vaidmenį nustatant efektyviausius konkrečios užduoties metodus. Sėkmingas funkcijų inžinerija gali žymiai padidinti modelio nuspėjimo galią ir apibendrinimą, todėl tai yra pagrindinė mašininio mokymosi darbo eigos dalis.