基于图拉普拉斯的稀疏贝叶斯分类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zel1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
稀疏贝叶斯作为一种主流的机器学习算法,它能够充分利用数据的先验信息,并结合已知的样本集,建立合理的数学模型,在训练的结果中拥有良好稀疏性并且可以得到概率性输出,已经成为机器学习研究领域中的热点,受到越来越多的研究人员关注。然而,对于流形数据集,目前的这些稀疏贝叶斯算法,例如相关向量机、概率分类向量机,因为忽略了数据集内部具有的特殊结构信息,输出的模型不能很好的表达真实数据,导致模型过于复杂,分类性能较低。本文基于现有的稀疏贝叶斯算法,结合流形正则化框架,提出一种能够充分利用数据内部流形信息的稀疏贝叶斯算法:基于图拉普拉斯的稀疏贝叶斯分类算法。本算法通过在稀疏贝叶斯模型权值的先验分布上引入稀疏流形先验,把数据集自身的流形结构信息作为先验知识利用起来,以训练出更符合数据分布的模型,提高了稀疏贝叶斯算法的分类性能。在本文中,我们从理论上分析了此模型,验证了算法分类的准确率。随后,在不同数据集上进行了多组对比实验,结果显示本文提出的算法不但在具有流形的数据集上取得了理想的分类性能,在普通的数据集上也有良好的效果。本文的主要工作总结如下:(1)本文基于传统的稀疏贝叶斯和流形正则化框架,提出的算法定义了一个流形先验,把数据的流形信息融入到了模型的先验当中,在训练过程中重复利用此信息,进而约束分类函数,因此可以得到精确性高、泛化性强的分类函数。(2)本文根据模型权值参数上的流形先验,通过拉普拉斯算法将参数的后验概率分布近似为高斯分布,然后使用迭代重加权最小二乘法求出分布的均值,提出了基于图拉普拉斯的稀疏贝叶斯分类算法,该算法具有良好的稀疏性,训练时间较短,收敛速度快,同时通过概率输出能够度量预测结果的不确定性。(3)本文利用边际似然函数能够控制模型对样本数据流形信息利用程度的超参数λ和超参数α进行自动优化,因此本文算法参数少,简单高效。(4)本文实验部分在人工数据集、标准数据集和流形数据集上进行大量的实验,通过与传统的监督学习算法对比,验证了本文提出的算法具有良好的分类准确性、较好的模型稀疏性和较快的收敛速度。
其他文献
随着信息技术的不断发展以及软件系统规模的不断扩大,开发大型软件系统所耗费的时间和成本也不断增加。而人机界面设计在软件开发中变得越来越重要,同时也变得越来越复杂,成为制
近年来Web发展迅速,将Web作为信息源的Web信息抽取也成为数据挖掘研究的一个重点。对Web信息抽取的研究已经取得了显著的成果,提出了各种各样Web信息抽取的方法,同时Web信息抽取
数字社区是数字地球、数字城市的单元节点,具有行政管理、资源共享、大众服务、监控监管、商业服务等多项功能。由于其异构、跨域、动态变化的特征,数字社区网络中原子服务及组
Ad Hoc网络是一个多跳、临时性的自组网络,由多个移动终端组成并且都可以依靠自身发送或接收信息。由于,网络中所有的节点可以自由移动并且所处的地位相等,因此,在网络中不需
近年来,由于人体动作识别在包括视频监控、人机交互娱乐、个人护理以及社会服务等方面的广泛应用,人体动作识别已成为当下计算机视觉领域最受重视的研究方向之一。人体动作识
低密度校验码(LDPC)是一种能逼近香农容量限的渐进好码,由于低密度校验码具有译码复杂度低、纠错能力强等诸多优点,近年来,它在信息可靠传输中的良好应用前景已经引起学术界和IT
裂缝是混凝土桥梁常见的病害,对桥梁裂缝的检测、识别是公路铁路保养维护部门的重要工作。桥梁裂缝检测的传统手法主要靠人工实地考察,这种方法的缺点是危险性高,精度不高,效
随着信息技术的飞速发展,设备日趋集成化与复杂化。对于如何能及时发现和预测故障,保证设备在工作期间高效、可靠的运行,以及如何从历史故障数据中形成对故障处理有效的信息,都具
随着人们在通信、制造、研究等领域所获取的高维数据的积累,现有的数据挖掘、机器学习算法已经不能有效应对这些海量数据。特征选择通过消除不相关特征和冗余特征达到对高维数