结合稀疏贝叶斯学习和混合高斯的主动学习算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:jianjfs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实生活中,人们可以很容易地获取大量的数据,但是通常其中大部分数据是没有样本标签的。传统的监督学习算法仅使用少部分有标签的数据进行训练,由于训练样本规模小,信息不完备,很难达到较好的预测效果。如果对没有样本标签的样本进行人工标注,又需要消耗大量的时间和精力,甚至在有些情况下根本无法完成对大量样本的标注。针对这个现实问题,传统的监督学习算法无法提出一个准确、高效的解决方案,主动学习算法却可以解决这个问题。利用主动学习的专家标注机制可以不断选择信息量大的样本进行标注扩充样本集,最终获得较优的预测模型。相关向量机是一种典型的稀疏贝叶斯学习模型,其具有很强的稀疏性,提供更灵活的核函数选择以及概率化的输出,并且也有着不亚于其他机器学习方法的预测性能。因此,本文主要结合相关向量机进行主动学习算法的研究,使用混合高斯探索样本的分布特征,基于马氏距离构造结合样本分布特性的混合高斯核函数,改进经典的相关向量机模型,提出基于混合高斯核的直推式相关向量机算法,并将其应用到主动学习框架中,定义一种新的主动学习算法。本文的主要研究工作如下:(1)为了在学习过程中充分考虑样本的分布特性,利用混合高斯探索样本的分布特性,基于马氏距离构建混合高斯距离作为核距离,设计了结合样本分布特性的混合高斯核函数,并使用核排列方法对混合高斯核的性能进行了评估。(2)进行了直推式相关向量机算法的研究。通过核矩阵扩充的方法,在模型的训练过程中引入未标记样本,提出基于核矩阵扩充的直推式相关向量机,充分利用所有样本的有效信息。然后,将混合高斯核应用到该直推式相关向量机中,提出了基于混合高斯核的直推式相关向量机算法,并通过实验验证了算法性能。(3)结合相关向量机和混合高斯进行主动学习算法的研究,将基于混合高斯核的直推式相关向量机算法应用到主动学习框架中,构建主动学习的分类器,来提高迭代过程中分类器的精度,加快算法的收敛速度。并提出了相应的初始样本选择策略和样本筛选策略,定义了一种新的主动学习算法。最后将该算法应用到文本分类问题中,验证了其具有较强的准确性及实用性。
其他文献
蜜蜂囊状幼虫病是由于软腐病毒属的囊状幼虫病毒(sacbrood virus,SBV)引起的,该疾病对西方蜜蜂几乎构不成危害,但是对东方蜜蜂而言却是致命性的,特别是早春繁殖季节,随着气温
近年来,得益于有机太阳电池给受体材料的飞速发展,器件的光电转换效率已经超过了18%。然而,有机太阳电池想要实现商业化应用,不仅需要高的光电转换效率,还需要有良好的长期稳
油菜是自然界中重要的产油作物,是生物油供应的三大作物之一,也是生物燃料的主要原料。油籽作物中的种子重量、种子大小和种子的含油量是育种者的主要选择特征。油菜生长发育
凝聚态物理至今已经发展了半个多世纪,取得了很多惊人的成果,在生活中也有相当重要的应用。近年来,量子霍尔效应己经拓展到量子自旋霍尔体系、三维拓扑绝缘体、强关联电子体系。在凝聚态物理的研究对象中,强关联多体系统是其重要的模型之一,但是在实验上,其微观性质是很难获得的,所以,很多学者利用人工构建的模型来模拟凝聚态物理中的相关问题,同时在实验方面也取得了巨大的突破。例如,约瑟夫森结和光晶格束缚冷原子实验,
钙钛矿太阳能电池作为第三代薄膜太阳能电池,由于其材料优异的光电转换能力和高的载流子迁移率等优势引起了研究人员的极大关注,在短短十年间,效率由最初的3.8%飞跃至24.2%,
目的:通过对伴有或不伴有慢性牙周炎的冠心病患者的血清中炎性细胞因子的定量检测,比较其水平差异,期望筛选出联系慢性牙周炎与冠心病的关键炎性细胞因子,从而探索两疾病在炎
商业化石墨负极材料理论容量低、倍率性能差,在一定程度上阻碍了锂离子电池的进一步应用。过渡金属化合物具有能量密度高、环境友好、成本低的优点,被认为是下一代锂离子电池
切换系统是一类典型的混杂系统,由于其在现实生活中有着十分广泛的应用,已经成为了控制领域的研究热点,并且涌现出许多优秀的研究成果。但是,在切换系统的实际应用场景下,还
如今,随着计算机技术的快速发展,商用级电脑变得无处不在。无论是在政府机构、军事系统,各类公司还是学校,都有它的身影。随着商用计算机在社会生产活动中的广泛应用,人们的
毛竹(Phyllostachys edulis)是重要的亚热带经济林资源,其具有固定森林土壤有机碳和减少温室气体排放的优势。普通尿素施用会增加土壤温室气体的排放,而生物炭施用对降低土壤