决策树分类

分类、决策树、预测模型
决策树分类 cover image

## 介绍

决策树(DT)是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。

训练的目标是找到节点中的最佳分割,从而找到最优树。分割是使用一些标准完成的,例如:

熵有许多定义,例如:

  • 熵对应于信息源中包含的信息量。

  • 熵也可以被视为随机性或集合中惊喜的测量。

  • 熵是衡量系统中不可预测性或杂质的指标。

entropy

在决策树中,我们将熵视为节点内部纯度的度量。决策树模型的目标是减少每次分裂时节点的熵:

entropy_reductioin

因此,我们希望最大化父节点的熵和子节点的熵之间的差异。这种差异称为信息增益

集合 $X$ 的熵 $H$ 的数学公式如下:

$$ H(X) = - \sum\limits_{x \in X} p(x) \log p(x) $$

信息增益

信息增益是父节点的熵与子节点的熵的加权和之间的,因此可以用以下公式表示:

$$IG(Y, X) = H(Y) - \sum_{x \in unique(X)} P(x|X) \times H(Y | X = x)$$

$$= H(Y) - \sum_{x \in unique(X)} \frac{X.count(x)}{len(X)} \times H(Y[X == x])$$

在哪里:

  • $H(.)$ 是熵。

  • $Y$ 是分裂之前的种群,它代表父节点。

  • $X$ 是我们要用于分割的变量。

  • $x$ 是 X 的唯一值。

  • $Y[X==x]$ 是一个仅包含 $x$ 值的拆分列表。

让我们举一个适当的例子:

entropy_reductioin

当我们使用 X 的值除父节点时,我们将计算信息增益:

$$IG(parent, X) = H(parent) - \sum_{x \in unique(X)} P(x|X) \times H(parent | X = x)$$

\

首先,我们计算父节点的熵:

$$ H(parent) = - P(Y=Blue) \times \log P(Y=Blue) - P(Y=Yellow) \times \log P(Y=Yellow) $$

$$ = - \frac{11}{21} \times \log(\frac{11}{21}) - \frac{10}{21} \times \log(\frac{10}{21}) = 0.3 $$

\

然后,我们将使用 X 的唯一值来计算分割后每个子节点的内部概率:

$$ unique(X) = [Circle, Square] $$

$$ \sum_{x \in unique(X)} P(x|X) \times H(Y | X = x) = P(Square|X) \times H(Y | X = Square) $$

$$ + P(Circle|X) \times H(Y | X = Circle) $$

$$ = \frac{9}{21} \times H(Y | X = Square) + \frac{12}{21} \times H(Y | X = Circle) $$

例如:

  • $H(Y | X = Square)$ :表示第一个子节点的熵。

  • $H(Y | X = Circle)$ :表示第二个子节点的熵。

\

我们从第一个子节点开始:

$$ H(Y | X = Square) = - P(Y=Blue | X = Square) \times \log P(Y=Blue| X = Square) $$

$$ - P(Y=Yellow| X = Square) \times \log P(Y=Yellow| X = Square) $$

$$ = - \frac{7}{9} \times \log\frac{7}{9} - \frac{2}{9} \times \log\frac{2}{9} = 0.23 $$

\

然后是第二个子节点:

$$ H(Y | X = Circle) = - P(Y=Blue | X = Circle) \times \log P(Y=Blue| X = Circle) $$

$$ - P(Y=Yellow| X = Circle) \times \log P(Y=Yellow| X = Circle) $$

$$ = - \frac{4}{12} \times \log\frac{4}{12} - \frac{8}{12} \times \log\frac{8}{12} = 0.28 $$

\

最后,我们将熵代入信息增益公式中:

$$IG(parent, X) = H(parent) - \sum_{x \in unique(X)} P(x|X) \times H(parent | X = x)$$

$$ = 0.3 - \frac{9}{21} \times 0.23 - \frac{12}{21} \times 0.28 = 0.041 $$

\

\

如前所述,节点分裂的目标是最大化信息增益,从而最小化结果子节点中的熵。为此,我们需要尝试使用不同的输入集 $ X_1, X_2, \ldots, Xn $ 来分割节点,并且我们只保留最大化信息增益的分割:

$$ X^{*} = \underset{X_i}{\operatorname{argmax}} IG(Y, X_i) $$

何时停止分裂

决策树中的节点分裂是递归的,因此必须有一个我们可以使用的标准来停止分裂。这些是一些最常实施的标准:

  • 当节点是纯节点时: H(node) = 0。进一步分裂节点是没有意义的。

  • 最大深度数: 我们可以设置模型可以达到的最大深度,这意味着即使节点不纯,分裂也会停止。

  • 每个节点的最小样本数: 我们还可以设置每个节点的最小样本数 $N$。如果每个节点的样本数等于 $N$,那么即使该节点不是纯节点,我们也会停止分裂。

在训练结束时(分裂),依赖于决策树末端的每个节点被称为“叶子”,因为它不是任何子树的根。每片叶子将代表样本最多的类别的产量。

## 结论

决策树因其高效、直观的背景和简单的实现而成为最著名的机器学习算法之一。该算法可以进一步与数值自变量(高斯决策树)一起使用,并且也可以扩展到解决回归任务。


Career Services background pattern

职业服务

Contact Section background image

让我们保持联系

Code Labs Academy © 2024 版权所有.