forest专注森林克洛格森林

随机森林是一种由决策树组成的集成算法,通常具有良好的性能。

本文介绍随机森林的基本概念、4个结构步骤、4种方式的对比评价、10个优缺点和4个应用方向。

什么是随机森林?

随机森林属于综合学习中的baggingbootstrapaggregation的简称)方法。 用图表示他们的关系如下。

决策树诊断树

在解释随机森林之前,必须先提到决策树。 决策树是一种非常简单的算法,他的解释力很强,也符合人类的直觉思维。 这是一种基于if-then-else规则的监控学习算法,上面的图像可以直观地表达决策树的逻辑。

有关决策树的详细信息,请参阅《一文看懂决策树 Decision tree(3个步骤+3种典型算法+10个优缺点)》

随机森林随机森林|射频

随机森林由许多决策树组成,不同的决策树之间没有关联。

我们进行分类任务时,如果有新的输入样本,让森林内的一个决策树分别进行判断和分类,各决策树得到自己的分类结果,决策树的分类结果中哪个分类最多,随机森林将该结果作为最终结果。

构建随机森林的四个步骤

如果有n个样本,则有n个返回的随机选择样本。 每次随机选择一个样本,返回继续选择)。 这个被选择的n个样本用于训练决策树作为决策树的根节点的样本。 每个样本有m个属性时,决策树的各节点需要分裂时,从该m个属性中随机提取m个属性,满足条件mmm。 然后,从这m个属性中使用某种战略,例如信息增益,选择一个属性作为该节点的分裂属性。 在形成决策树的过程中,每个节点按照步骤2分裂。 其次如果该节点选择的属性之一是父节点分裂后立即使用的属性,则不难理解,该节点已经到达叶节点,不需要继续分裂)。 直到不能再分裂为止。 注意在整个决策树形成过程中没有进行剪枝。 按照步骤1 ̄3制作大量决策树后,构成随机森林。

随机森林的优缺点

好处

它可以发出非常高维的多特征的)数据,而且不降低维度,不选择特征就可以判断特征的重要度,不同特征之间的相互影响比拟合训练的速度更难,更容易制作并行化方法,并且实际上即使失去了大部分特征,也能够维持精度。 缺点

随机森林被证明过度符合噪声大的分类和回归问题。 对于具有不同值属性的数据,由于取值属性对随机森林的影响更大,随机森林用这种数据产出的属性权重是不可靠的随机森林的4种实现方法的比较测试

随机森林是常用的机器学习算法,既可以用于分类问题,也可以用于回归问题。 本文对scikit-learn、Spark MLlib、DolphinDB、XGBoost四个平台的随机森林算法的实现进行了比较测试。 评价指标包括内存使用量、执行速度和分类的准确性。

测试结果如下。

忽略测试过程和说明,有兴趣的人可以看原文《随机森林算法 4 种实现方法对比测试:DolphinDB 速度最快,XGBoost 表现最差》

森林的四个应用方向

随机森林可以在很多地方使用:

学习无离散值向分类连续值的回归监测的聚类异常点检测

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注