Introductie
Beslissingsbomen (DT's) zijn een niet-parametrische leermethode onder toezicht die wordt gebruikt voor classificatie en regressie. Het doel is om een model te creëren dat de waarde van een doelvariabele voorspelt door eenvoudige beslissingsregels te leren die zijn afgeleid van de gegevenskenmerken.
Entropie
Het doel van de training is om de beste splitsingen in de knooppunten te vinden om zo de meest optimale boom te vinden. De splitsingen worden gedaan met behulp van enkele criteria, zoals: Entropie.
Er bestaan veel definities van entropie, zoals:
-
Entropie komt overeen met de hoeveelheid informatie die een informatiebron bevat.
-
Entropie kan ook worden gezien als de willekeur of het meten van verrassing in een set.
-
Entropie is een maatstaf die de onvoorspelbaarheid of onzuiverheid in het systeem meet.
In beslissingsbomen zullen we entropie beschouwen als de maatstaf voor de zuiverheid binnen een knooppunt. Het doel van het beslissingsboommodel is om de entropie van de knooppunten bij elke splitsing te verminderen:
We willen dus het verschil tussen de entropie van het ouderknooppunt en de entropie van de onderliggende knooppunten maximaliseren. Dit verschil wordt de Informatiewinst genoemd.
De entropie van een verzameling wordt wiskundig als volgt geformuleerd:
Informatiewinst
Informatiewinst is het verschil tussen de entropie van het ouderknooppunt en de gewogen som van de entropieën van de onderliggende knooppunten, en kan dus als volgt worden geformuleerd:
waar:
-
is de entropie.
-
is de populatie vóór de splitsing, het vertegenwoordigt het bovenliggende knooppunt.
-
is de variabele die we willen gebruiken voor de splitsing.
-
is een unieke waarde van X.
-
is een gesplitste lijst met alleen waarden.
laten we een goed voorbeeld nemen:
We gaan de informatiewinst berekenen als we het bovenliggende knooppunt delen door de waarden van X te gebruiken:
\
Eerst berekenen we de entropie van het ouderknooppunt:
\
Vervolgens gaan we de interne waarschijnlijkheid van elk kindknooppunt na de splitsing berekenen door de unieke waarden van X te gebruiken:
Zoals:
-
: vertegenwoordigt de entropie van het eerste onderliggende knooppunt.
-
: vertegenwoordigt de entropie van het tweede kindknooppunt.
\
We beginnen met het eerste onderliggende knooppunt:
\
En dan het tweede kindknooppunt:
\
Ten slotte vervangen we de entropieën in de Information Gain-formule:
\
\
Zoals eerder vermeld, is het doel van een knooppuntsplitsing het maximaliseren van de informatiewinst, en dus het minimaliseren van de entropie in het resulterende onderliggende knooppunt. Om dit te doen, moeten we proberen het knooppunt te splitsen met verschillende sets invoer en we behouden alleen de splitsing die de informatiewinst maximaliseert:
Wanneer moet je stoppen met splitsen?
De knooppuntsplitsing in beslissingsbomen is recursief, dus er moeten criteria zijn die we kunnen gebruiken om de splitsing te stoppen. Dit zijn enkele van de meest geïmplementeerde criteria:
-
Als het knooppunt puur is: H(knooppunt) = 0. Het heeft geen zin om het knooppunt verder te splitsen.
-
Maximumaantal diepte: We kunnen een maximale diepte instellen die het model kan bereiken, dit betekent dat zelfs als het knooppunt niet zuiver is, het splitsen wordt gestopt.
-
Minimaal aantal monsters per knooppunt: We kunnen ook een minimumaantal aan monsters per knooppunt instellen. Als het aantal monsters per knooppunt gelijk is aan , stoppen we met splitsen, zelfs als het knooppunt niet zuiver is.
Aan het einde van de training (het splitsen) wordt elk knooppunt dat afhankelijk is van het einde van de beslissingsboom een "Blad" genoemd, omdat het geen wortel is van een subboom. Elk blad vertegenwoordigt de klasse met de meeste monsters.
Conclusie
Beslissingsboom is een van de bekendste machine learning-algoritmen vanwege de efficiëntie, intuïtieve achtergrond en eenvoudige implementatie. Dit algoritme kan verder worden gebruikt met numerieke onafhankelijke variabelen (Gaussiaanse beslissingsboom), en kan worden uitgebreid om ook regressietaken op te lossen.