Perkenalan
Pohon Keputusan (DT) adalah metode pembelajaran terawasi non-parametrik yang digunakan untuk klasifikasi dan regresi. Tujuannya adalah untuk membuat model yang memprediksi nilai variabel target dengan mempelajari aturan keputusan sederhana yang disimpulkan dari fitur data.
Entropi
Tujuan dari pelatihan ini adalah untuk menemukan pemisahan node terbaik untuk menemukan pohon yang paling optimal. Pemisahan dilakukan dengan menggunakan beberapa kriteria seperti: Entropi.
Ada banyak definisi entropi seperti:
-
Entropi sesuai dengan jumlah informasi yang terkandung dalam suatu sumber informasi.
-
Entropi juga dapat dilihat sebagai keacakan atau ukuran kejutan dalam suatu himpunan.
-
Entropi adalah metrik yang mengukur ketidakpastian atau ketidakmurnian dalam sistem.
Dalam pohon keputusan, kita akan mempertimbangkan entropi sebagai ukuran kemurnian di dalam sebuah node. Tujuan dari model pohon keputusan adalah untuk mengurangi entropi node pada setiap pemisahan:
Oleh karena itu, kami ingin memaksimalkan perbedaan antara entropi node induk dan entropi node anak. Perbedaan ini disebut Perolehan informasi.
Entropi dari himpunan dirumuskan secara matematis sebagai berikut:
Perolehan informasi
Perolehan Informasi adalah selisih antara entropi node induk dan jumlah tertimbang dari entropi node anak, sehingga dapat dirumuskan sebagai berikut:
Di mana:
-
adalah entropi.
-
adalah populasi sebelum pemisahan, ini mewakili node induk.
-
adalah variabel yang ingin kita gunakan untuk pemisahan.
-
adalah nilai unik X.
-
adalah daftar terpisah dengan hanya nilai .
mari kita ambil contoh yang tepat:
Kita akan menghitung Perolehan Informasi ketika kita membagi node induk dengan menggunakan nilai X:
\
Pertama, kita menghitung entropi node induk:
\
Kemudian, kita akan menghitung probabilitas internal setiap node anak setelah pemisahan dengan menggunakan nilai unik X:
Seperti:
-
: mewakili entropi node anak pertama.
-
: mewakili entropi node anak kedua.
\
Kita mulai dengan node anak pertama:
\
Dan kemudian simpul anak kedua:
\
Terakhir, kami mengganti entropi ke dalam rumus Perolehan Informasi:
\
\
Seperti yang dinyatakan sebelumnya, tujuan pemisahan node adalah untuk memaksimalkan Perolehan Informasi, dan dengan demikian meminimalkan Entropi pada node turunan yang dihasilkan. Untuk melakukan ini, kita perlu mencoba dan membagi node dengan set input berbeda dan kita hanya menyimpan pemisahan yang memaksimalkan Perolehan Informasi:
Kapan harus berhenti membelah
Pemisahan node pada pohon keputusan bersifat rekursif, sehingga harus ada kriteria yang dapat kita gunakan untuk menghentikan pemisahan tersebut. Ini beberapa kriteria yang paling banyak diterapkan:
-
Jika nodenya murni: H(node) = 0. Tidak ada gunanya membagi node lebih jauh.
-
Jumlah kedalaman maksimum: Kita dapat menetapkan kedalaman maksimum yang dapat dicapai model, artinya meskipun node tidak murni, pemisahan akan dihentikan.
-
Jumlah minimum sampel per node: Kami juga dapat menetapkan jumlah minimum sampel per node. Jika jumlah sampel per node sama dengan maka kami berhenti memisahkan meskipun node tersebut tidak murni.
Pada akhir pelatihan (pemisahan), setiap node yang bergantung pada akhir pohon keputusan disebut "Leaf", karena node tersebut bukan merupakan akar dari subpohon mana pun. Setiap daun akan mewakili kelas hasil dengan sampel terbanyak.
Kesimpulan
Pohon keputusan adalah salah satu algoritme pembelajaran mesin paling terkenal karena efisiensinya, latar belakang intuitif, dan implementasinya yang sederhana. Algoritme ini selanjutnya dapat digunakan dengan variabel independen numerik (Gaussian Decision Tree), dan juga dapat diperluas untuk menyelesaikan tugas regresi.