机器学习
朴素贝叶斯没有参数估计,给堆数据直接求,属于生成模型,不用优化模型求最佳参数,这区别于判别模型。
我遇到的困惑
(1)“后验概率最大”和“极大似然”这二者有什么区别和联系吗?
(2)朴素贝叶斯和EM这二者有什么区别和联系吗?
答案:
(1)朴素贝叶斯是根据后验概率最大来分类的,在LR和最大熵模型的时候你肯定记得“极大似然估计”,“后验概率最大”和“极大似然”这二者有什么区别和联系吗?
二者都是概率模型,求的是p(Y|X=x),极大似然认为哪个ck的联合概率分布p(Y=ck|X=x)最大,那输出类别就是它ck(这个是基于最大熵原理推导)。而最大后验概率则是哪个ck的后验概率p(Y=ck|X=x)*p(Y=ck)最大,那输出类别就是它ck(基于期望风险最小化推导)!
(2)EM和朴素贝叶斯我觉得区别很大,联系的话,就是都是概率模型,EM构建模型,根据极大似然或极大后验概率求解模型参数。EM的特定就是,含有隐变量。
朴素贝叶斯
定义:朴素贝叶斯是基于贝叶斯定理和特征条件独立假设独立的分类方法。具体地,对于给定的训练数据,首先基于特征条件独立假设(naive,天真,因为把模型想的这么简单)学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
决策树的构造过程一般分为3个部分,分别是特征选择、决策树生产和决策树裁剪。
(1)特征选择:
特征选择表示从众多的特征中选择一个特征作为当前节点分裂的标准,如何选择特征有不同的量化评估方法,从而衍生出不同的决策树,如ID3(通过信息增益选择特征)、C4.5(通过信息增益比选择特征)、CART(通过Gini指数选择特征)等。
目的(准则):使用某特征对数据集划分之后,各数据子集的纯度要比划分钱的数据集D的纯度高(也就是不确定性要比划分前数据集D的不确定性低)
(2)决策树的生成
根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。这个过程实际上就是使用满足划分准则的特征不断的将数据集划分成纯度更高,不确定行更小的子集的过程。对于当前数据集的每一次划分,都希望根据某个特征划分之后的各个子集的纯度更高,不确定性更小。
(3)决策树的裁剪
决策树容易过拟合,一般需要剪枝来缩小树结构规模、缓解过拟合。
信息增益
定义:信息增益表示由于得知特征A的信息后儿时的数据集D的分类不确定性减少的程度,定义为:
Gain(D,A) = H(D) – H(D|A)
即集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(H|A)之差。
理解:选择划分后信息增益大的作为划分特征,说明使用该特征后划分得到的子集纯度越高,即不确定性越小。因此我们总是选择当前使得信息增益最大的特征来划分数据集。
缺点:信息增益偏向取值较多的特征(原因:当特征的取值较多时,根据此特征划分更容易得到纯度更高的子集,因此划分后的熵更低,即不确定性更低,因此信息增益更大)
信息增益比
我们知道信息增益会偏向取值较多的特征,使用信息增益比可以对这一问题进行校正。
定义:特征A对训练数据集D的信息增益比GainRatio(D,A)定义为其信息增益Gain(D,A)与训练数据集D的经验熵H(D)之比:
file:///C:/Users/sz007/AppData/Local/Temp/msohtmlclip1/01/clip_image006.png
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数值越大,样本集合的不确定性也就越大,这一点跟熵相似。