监督学习
监督学习涉及在标记数据集上训练模型。标记数据意味着输入数据与正确的输出配对。模型的目标是学习输入和输出之间的映射或关系,以便能够准确地进行预测或对新的、看不见的数据进行分类。监督学习主要有两种类型:
-
分类: 这涉及预测 分类标签。例如,根据某些特征(如使用的词语、发件人等)确定电子邮件是否为垃圾邮件。支持向量机 (SVM)、决策树和神经网络等算法用于分类。
-
回归:涉及预测连续值。例如,根据房屋面积、卧室数量等特征来预测房屋的价格。线性回归、随机森林和梯度提升等算法用于回归任务。
无监督学习
无监督学习涉及在未标记的数据集上训练模型。在这里,算法试图在没有任何显式监督的情况下找到数据中隐藏的模式或内在结构。目的是探索数据、了解其结构并提取有意义的见解。无监督学习的常见类型包括:
-
聚类: 根据某些特征或相似性将相似的数据点分组在一起。例如,使用 K 均值或层次聚类等算法根据客户群的购买行为对其进行聚类。
-
**降维:**减少特征数量,同时保留基本信息。主成分分析 (PCA) 和 t 分布随机邻域嵌入 (t-SNE) 用于在低维空间中可视化高维数据。
何时使用每个
-
当您有标记数据并希望根据该标记数据预测或分类未来实例时,可以使用监督学习。例如,如果您有客户购买的历史数据并想要预测未来的购买,那么监督学习就适合。
-
当您没有标记数据或想要探索和理解数据的底层结构时,可以使用无监督学习。例如,在异常检测或在大型数据集中查找隐藏模式。
有时,当您拥有少量标记数据和大量未标记数据时,可以采用两种类型的学习的组合(称为“半监督学习”),从而使模型能够从两种信息源中受益。