三灶网站建设,网站建设带有注册账号,网易企业邮箱电话人工服务,wordpress wp-postviews目录1、了解熵、条件熵、互信息的概念及公式1.1、熵1.2、条件熵1.3、信息增益/互信息 2、了解决策树2.1、了解决策树的概念和特点以及和熵的关系2.2、了解树生成的过程2.3、了解决策树三种算法的区别2.4、了解决策树的损失函数2.5、了解解决决策树过拟合的方法2.6、了解后剪枝的…目录1、了解熵、条件熵、互信息的概念及公式1.1、熵1.2、条件熵1.3、信息增益/互信息 2、了解决策树2.1、了解决策树的概念和特点以及和熵的关系2.2、了解树生成的过程2.3、了解决策树三种算法的区别2.4、了解决策树的损失函数2.5、了解解决决策树过拟合的方法2.6、了解后剪枝的过程 3、了解Bagging和随机森林4、掌握样本不均衡常用的处理方法5、随机森林算法常用参数详解 目录
1、了解熵、条件熵、互信息的概念及公式
1.1、熵
熵本身是描述事物的混乱程度的 决策树乃至随机森林最关键的一点就是如何来划分一个节点分裂数据让结果达到最好。 信息熵的作用即判定特征分裂的好坏 了解信息熵的表示形式负号代表x发生的概率越大对应的熵值越小
知道这个信息熵的概念x发生的概率越大结果越稳定对应的熵值也就越小P(X,Y)H(X)H(Y)代表X、Y发生的事件的熵相加
1.2、条件熵
知道条件熵的概念HY|X表示在X发生的前提下Y发生新带来的熵。
1.3、信息增益/互信息
信息增益即为互信息信息增益即为相关系数计算一个特征对类X是否有影响 信息增益度量特征A对数据集D的不确定性的减小程度即不确定减小也就是D发生概率增加。
信息增益即为互信息信息增益即为相关系数计算一个特征对类X的影响程度 信息增益度量特征A对数据集D的不确定性的减小程度即不确定减小也就是D发生概率增加。
2、了解决策树
2.1、了解决策树的概念和特点以及和熵的关系 信息熵又称为经验熵重点注意下面选取分裂特征的过程。
2.2、了解树生成的过程
树的生成过程首先你能得到对应的数据集D的经验熵即根节点的信息熵之后遍历所有的特征进行以下步骤前提条件是你肯定能得到数据集D的经验熵H(D)公式如下图。 一、计算特征A对于数据集D的条件熵即H(D|A); 二、计算特征A的信息增益g(D,A)H(D)-H(D|A) 三、选择信息增益最大的特征作为当前的分裂特征。信息增益越大也就说明D在A特征下发生的概率越大也就说明D对应的信息熵越小。而树生成的过程即是从信息熵大的根节点到信息熵为0的叶子节点
2.3、了解决策树三种算法的区别 知道gini系数同信息增益一样也可以作为特征分析的依据
2.4、了解决策树的损失函数
了解评价函数的意义实际上就是每个叶子结点的熵值和对应的叶子结点上的数据量做一个乘积的加和这里的N其实就是对H(t)做一个加权处理 掌握损失函数又称为评价函数的表达式以及对应的含义可不可以理解为因为叶子节点代表分类的最终结果那么叶子节点的熵值也就代表分类的好坏的程度那么所有叶子节点的熵值的加权和也就代表整棵树分类的好坏程度。 结论损失函数越小即代表整体的熵值越小整棵树越稳定分类的效果越好。
2.5、了解解决决策树过拟合的方法
1、剪枝过程见下文 2、随机森林 了解剪枝的思路即如何从Ti到Ti1 了解修正后的损失函数的含义 实质上就是添加了叶子节点的影响权重值 了解α的公式C(r):单个根节点的评价函数值。C(R)子树的评价函数值。如下图所示以及对应的求解过程
2.6、了解后剪枝的过程
一、先求出各个内部节点的α值 二、然后将α值从小到大进行排列得到对应得树T0、T1… 三、按照这个顺序依次进行剪枝的操作直到剪到最后的根节点为止。 四、最终利用test集合去测试看那棵树的损失函数最小就选取哪棵树。
3、了解Bagging和随机森林
知道这个Bagging是什么 了解随机森林的建立过程
4、掌握样本不均衡常用的处理方法
1、A类随机欠采样A类样本过多可以通过随机采取A中的少部分如20%样本来和B中的样本汇总作为总的样本。 2、基于聚类的A类的分割将A类样本进行一个聚类操作然后随机的选取A中的任何一个类族和B一起构成一个总的样本。 3、B类过采样B类数据太少可以不断的复制B类的样本从而使B样本的数量增加满足A样本的要求。 4、B类数据合成在空间中将两个B样本连接随机在连线上选取某些点用于生成样本以达到增加样本B的数量的目的。如下图所示 5、代价敏感学习降低A类权值提高B类权值 总结1-4为对样本的处理5对算法的处理。
5、随机森林算法常用参数详解
详见https://blog.csdn.net/qq_16633405/article/details/61200502