boosting原理及在分类上的应用(编辑修改稿)内容摘要:

想  样本的权重  没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有 N个样本,每个样本的分布概率为 1/N  每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。  弱学习机的权重  准确率越高的弱学习机权重越高  循环控制:损失函数达到最小  在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。 简单问题演示( Boosting训练过程) ++++++++++++loop1Weak learner1(y=)loop2Weak learner2(x=)loop3Weak learner3(y=)loop4Weak learner4(x=)training set等概分布strong learnerw1*(y?1:1) + w2*(x?1:1) + w3*(y?1:1) + w4*(x?1:1)算法 —问题描述  训练集 { (x1,y1), (x2,y2),… , (xN,yN) }  xi Rm, yi {1,+1}  Dt 为第 t次循环时的训练样本分布(每个样本在训练集中所占的概率, Dt总和应该为 1)  ht:X{1,+1} 为第 t次循环时的 Weak learner,对每个样本给出相应的假设,应该满足强于随机猜测:  wt为 ht的权重  为 t次循环得到的 Strong learner  21),( )]([ xhyP tDyx t tiitiit hws i gnH1))(()(算法 —样本权重  思想:提高分错样本的权重  反映了 strong learner对样本的假设是否正确  采用什么样的函数形式。 )( iti Hy w r ongr i ghtHyiti 00)( )(e x p iti Hy 算法 —弱学习机权重  思想:错误率越低,该学习机的权重应该越大  为学习机的错误概率  采用什么样的函数形式。 和指数函数遥相呼应: )]([),( xhyP tDyxt t  。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。