Johdanto
Päätöspuut (DT) ovat ei-parametrinen ohjattu oppimismenetelmä, jota käytetään luokitukseen ja regressioon. Tavoitteena on luoda malli, joka ennustaa kohdemuuttujan arvon oppimalla dataominaisuuksista pääteltyjä yksinkertaisia päätössääntöjä.
Haje
Harjoittelun tavoitteena on löytää parhaat splitit solmuista optimaalisen puun löytämiseksi. Splitit tehdään käyttämällä joitain kriteerejä, kuten: Entropia.
Entropialle on olemassa monia määritelmiä, kuten:
-
Entropia vastaa tietolähteen sisältämän tiedon määrää.
-
Entropia voidaan nähdä myös sattumanvaraisuutena tai yllätyksen mittaamisena joukossa.
-
Entropia on mittari, joka mittaa järjestelmän arvaamattomuutta tai epäpuhtautta.
Päätöspuissa entropiaa pidetään solmun sisällä olevan puhtauden mittana. Päätöspuumallin tavoitteena on vähentää solmujen entropiaa jokaisessa jaossa:
Siten haluamme maksimoida eron pääsolmun ja lapsisolmun entropian välillä. Tätä eroa kutsutaan Tiedon vahvistukseksi.
Joukon entropia on matemaattisesti muotoiltu seuraavasti:
Tiedon saaminen
Informaatiovahvistus on ero emosolmun entropianjachlid-solmujen entropioiden****painotetun summan** välillä, joten se voidaan muotoilla seuraavasti:
missä:
-
on entropia.
-
on populaatio ennen jakoa, se edustaa pääsolmua.
-
on muuttuja, jota haluamme käyttää jakamiseen.
-
on X:n yksilöllinen arvo.
-
on jaettu luettelo, jossa on vain arvoja.
Otetaanpa oikea esimerkki:
Aiomme laskea tietovahvistuksen, kun jaamme pääsolmun X:n arvoilla:
\
Ensin lasketaan pääsolmun entropia:
\
Sitten aiomme laskea kunkin lapsisolmun sisäisen todennäköisyyden jaon jälkeen käyttämällä X:n yksilöllisiä arvoja:
Kuten:
-
: edustaa ensimmäisen lapsisolmun entropiaa.
-
: edustaa toisen lapsisolmun entropiaa.
\
Aloitamme ensimmäisestä lapsisolmusta:
\
Ja sitten toinen lapsisolmu:
\
Lopuksi korvaamme entropiat Information Gain -kaavassa:
\
\
Kuten aiemmin todettiin, solmujaon tavoitteena on maksimoida tiedon vahvistus ja siten minimoida tuloksena olevan lapsisolmun entropia. Tätä varten meidän on yritettävä jakaa solmu erilaisilla tulosarjoilla ja säilytetään vain jako, joka maksimoi tiedonsaannin:
Milloin jakaminen lopetetaan
Solmun jakaminen päätöspuissa on rekursiivinen, joten täytyy olla kriteerit, joita voimme käyttää jakamisen lopettamiseksi. Nämä ovat joitain eniten käytetyistä kriteereistä:
-
Kun solmu on puhdas: H(solmu) = 0. On turhaa jakaa solmua enempää.
-
Syvyyden maksimimäärä: Voimme asettaa suurimman syvyyden, jonka malli voi saavuttaa, se tarkoittaa, että vaikka solmu ei olisi puhdas, halkaisu pysähtyy.
-
Nytteiden vähimmäismäärä solmua kohti: Voimme myös asettaa näytteiden vähimmäismäärän solmua kohti. Jos näytteiden määrä solmua kohti on yhtä suuri kuin , lopetamme jakamisen, vaikka solmu ei olisi puhdas.
Harjoittelun loppuun mennessä (jakaminen) jokaista päätöspuun loppuun luottavaa solmua kutsutaan "Lehdeksi", koska se ei ole minkään alipuun juuri. Jokainen lehti edustaa sitä luokkaa, jolla on eniten näytteitä.
Johtopäätös
Päätöspuu on yksi tunnetuimmista koneoppimisalgoritmeista sen tehokkuuden, intuitiivisen taustan ja yksinkertaisen toteutuksen ansiosta. Tätä algoritmia voidaan käyttää edelleen numeeristen riippumattomien muuttujien ( Gaussin päätöspuu ) kanssa, ja sitä voidaan laajentaa ratkaisemaan myös regressiotehtäviä.