Giriiş
Karar Ağaçları (DT'ler), sınıflandırma ve regresyon için kullanılan parametrik olmayan denetimli bir öğrenme yöntemidir. Amaç, veri özelliklerinden çıkarılan basit karar kurallarını öğrenerek hedef değişkenin değerini tahmin eden bir model oluşturmaktır.
Entropi
Eğitimin amacı, en uygun ağacı bulmak için düğümlerdeki en iyi bölünmeleri bulmaktır. Bölmeler aşağıdaki gibi bazı kriterler kullanılarak yapılır: Entropi.
Entropinin aşağıdaki gibi birçok tanımı vardır:
-
Entropi, bir bilgi kaynağının içerdiği bilgi miktarına karşılık gelir.
-
Entropi aynı zamanda bir kümedeki rastlantısallık veya sürprizin ölçümü olarak da görülebilir.
-
Entropi, sistemdeki öngörülemezliği veya kirliliği ölçen bir ölçümdür.
Karar ağaçlarında entropiyi bir düğümün içindeki saflığın ölçüsü olarak ele alacağız. Karar ağacı modelinin amacı, her bölünmede düğümlerin entropisini azaltmaktır:
Böylece ana düğümün entropisi ile alt düğümlerin entropisi arasındaki farkı maksimuma çıkarmak istiyoruz. Bu farka Bilgi kazancı denir.
Bir kümesinin Entropisi matematiksel olarak aşağıdaki şekilde formüle edilir:
Bilgi kazanımı
Bilgi Kazanımı, ana düğümün entropisi ile chlid düğümlerin entropilerinin ağırlıklı toplamı arasındaki farktır ve dolayısıyla aşağıdaki şekilde formüle edilebilir:
Neresi:
-
entropidir.
-
bölünmeden önceki popülasyondur, ana düğümü temsil eder.
-
bölme için kullanmak istediğimiz değişkendir.
-
, X'in benzersiz bir değeridir.
-
yalnızca değerlerine sahip bölünmüş bir listedir.
uygun bir örnek verelim:
Ana düğümü X değerlerini kullanarak böldüğümüzde Bilgi Kazancını hesaplayacağız:
\
İlk olarak ana düğümün entropisini hesaplıyoruz:
\
Daha sonra, X'in benzersiz değerlerini kullanarak, bölünme sonrasında her bir alt düğümün iç olasılığını hesaplayacağız:
Örneğin:
-
: ilk alt düğümün entropisini temsil eder.
-
: ikinci alt düğümün entropisini temsil eder.
\
İlk alt düğümle başlıyoruz:
\
Ve sonra ikinci alt düğüm:
\
Son olarak Bilgi Kazanımı formülündeki entropileri yerine koyarız:
\
\
Daha önce de belirtildiği gibi, düğüm bölünmesinin amacı Bilgi Kazanımını en üst düzeye çıkarmak ve böylece sonuçta ortaya çıkan alt düğümdeki Entropiyi en aza indirmektir. Bunu yapmak için, düğümü gibi farklı giriş kümeleriyle denememiz ve bölmemiz gerekir ve yalnızca Bilgi Kazanımını maksimuma çıkaran bölmeyi koruruz:
Bölmeyi ne zaman durdurmalı
Karar ağaçlarındaki düğüm bölünmesi özyinelemeli olduğundan, bölünmeyi durdurmak için kullanabileceğimiz bir kriterin olması gerekir. Bunlar en çok uygulanan kriterlerden bazıları:
-
Düğüm saf olduğunda: H(düğüm) = 0. Düğümü daha fazla bölmenin bir anlamı yoktur.
-
Maksimum derinlik sayısı: Modelin ulaşabileceği maksimum derinliği ayarlayabiliriz, bu, düğüm saf olmasa bile bölmenin durdurulduğu anlamına gelir.
-
Düğüm başına minimum örnek sayısı: Ayrıca düğüm başına minimum örnek sayısı da ayarlayabiliriz. Düğüm başına örnek sayısı 'a eşitse, düğüm saf olmasa bile bölmeyi durdururuz.
Eğitimin (bölme) sonunda, karar ağacının sonuna dayanan her düğüme "Yaprak" adı verilir çünkü bu, herhangi bir alt ağacın kökü değildir. Her yaprak en çok örneğe sahip sınıfı temsil edecektir.
Çözüm
Karar ağacı, verimliliği, sezgisel arka planı ve basit uygulaması nedeniyle en ünlü makine öğrenimi algoritmalarından biridir. Bu algoritma ayrıca sayısal bağımsız değişkenlerle ( Gauss Karar Ağacı ) kullanılabilir ve regresyon görevlerini çözmek için de genişletilebilir.