概率特征选择分类向量机

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:second5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯学习作为机器学习的重要分支,为解决数据的建模问题提供了一种重要的方法。其中的稀疏贝叶斯学习算法凭借其概率的预测和稀疏的模型等特点,成为机器学习中的经典算法之一。然而一些稀疏贝叶斯算法,例如相关向量机、概率分类向量机等,因为缺少特征选择能力,无法去除数据中的不相关特征或冗余特征,从而在一定程度上降低了此类算法在高维数据集上的表现。本文为了解决此类问题,基于稀疏贝叶斯学习,提出了一种可以在训练分类器的过程中自动选择相关特征的特征选择分类协同训练算法:概率特征选择分类向量机。本算法在训练的过程中同时选择与预测相关的特征和数据样本,最终在训练集中得到一个稀疏的数据子集,基于此稀疏数据集,概率分类向量机可以完成对未知数据的预测。为了完成选择相关向量和特征的功能,本文使用半截高斯分布作为先验假设,分别使用最大化后验估计和最大化二类边际似然估计提出两种计算模型最大化概率的算法。在实验部分通过设计多组实验验证了本文提出算法的性能。最后,通过分析泛化性误差边界,在理论上论证了本文提出的特征选择算法可以提高模型的泛化能力。本文的主要工作可以总结如下:(1)与传统的贝叶斯分类器不同,本文提出的算法同时在样本和特征空间中引入稀疏先验,在训练过程中自动选择相关的特征,完成特征选择,从而降低高维度数据对分类器的影响,提高分类器的性能;(2)本文在特征和样本中引入半截高斯分布作为稀疏先验,通过分别使用期望最大化算法计算最大化后验概率和通过拉普拉斯方法计算二类最大化边际似然,提出了两种特征选择分类协同训练方法;(3)在实验部分,通过在不同数据集上的对比实验,验证了本文提出算法的性能:分类的准确性和特征选择的有效性;(4)为了在理论上验证稀疏假设的重要性,本文基于拉德马赫复杂度推导出了概率特征选择分类向量机的泛化边界,随后通过优化边界,证明了在特征中引入稀疏可以提高算法的泛化能力,并且提出了一种选择算法初始值的方法。
其他文献
关键短语抽取是文本信息处理的重要技术。随着网络时代的到来,在线文档呈现出几何级数的增长,“信息爆炸”成为这个时代的主要特征。检索和利用网络信息变得越来越困难,关键
随着Internet呈爆炸式的增长,人们经常会遇到网络拥塞和服务质量低等一系列问题。因此,对大规模网络行为研究已是当务之急。网络模拟作为计算机网络研究的主要手段,以周期小
随着半导体技术和计算机体系结构技术的发展,分片式处理器逐渐成为多核领域的一个发展方向。分片式处理器有效解决和缓解了线延迟、功耗、可扩展性等现代处理器面临的主要问
在组播路由协议中,PIM-SM协议以其协议无关性、组成员显示加入的特性以及共享树(RPT)向最短路径树(SPT)切换等机制,成为了目前应用最为广泛的域内组播路由协议。但是随着网络技术的
随着互联网上信息的快速增长,信息抽取技术越来越被关注,而实体关系的抽取又是这些任务中非常重要的一个子任务。经研究发现由于传统的实体关系抽取技术面向句子级,只在一个
低秩矩阵近似,是机器学习、数值优化、理论计算机科学等领域的重要研究方向。它既有严格的理论基础,在实际问题中,也有着广泛的应用。低秩矩阵近似的本质是利用高维空间中的
云计算使用海量资源快速为用户部署和执行资源密集型任务,但是一批新应用在要求大量计算资源的同时,也需要极低的交互延迟。由于广域网的限制,用户设备与云数据中心的交互延
随着现代科技的飞速发展,手机的存储容量快速增大,手机中存储数据的种类和数量也成爆炸式增加,如何快速、准确的将用户需要的信息呈现出来成为一个急需解决的问题。然而由于
当前,多媒体应用越来越广泛,多媒体技术发展迅速。视频编码技术深入生活的方方面面。随着高清技术的发展,高清终端显示设备的应用越来越多,而标清视频广泛存在在视频的各种资
数据仓库作为一种分析型的数据环境,越来越受到人们的重视。数据仓库与操作型数据库环境相分离。相对于操作型环境而言,分析型环境对数据查询的速度提出了更高的要求。相对于