基于贝叶斯方法的半监督学习算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：kangyh123

【摘要】

：

随着互联网技术的快速发展,实际应用中存在着大量无标签样本和少量有标签样本。虽然有标签样本能够有效提升监督学习的性能,但是获取充足的有标签样本往往需要耗费大量的时间

【作者】

：

江兵兵

【出处】

：

中国科学技术大学

【发表日期】

：

2004年期

【关键词】

：

半监督学习贝叶斯方法稀疏贝叶斯特征选择先验无标签样本可扩展性机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的快速发展,实际应用中存在着大量无标签样本和少量有标签样本。虽然有标签样本能够有效提升监督学习的性能,但是获取充足的有标签样本往往需要耗费大量的时间。在这种情况下,仅使用少量有标签样本的监督学习泛化能力不强,而完全基于无标签样本的无监督学习往往效果不佳。这些传统的机器学习范式不仅没有性能上的优势,还浪费了数据资源。因此,研究能够同时利用有标签样本和无标签样本的机器学习方法具有重要的意义。在有标签样本较少时,半监督学习能够利用大量无标签样本改进学习性能,近年来受到了广泛的关注。经过二十多年的研究,半监督学习己经成为一类重要的机器学习范式,并被成功应用到诸多领域。然而,半监督学习在无标签样本的有效使用、高效利用以及在特征选择中的有效性方面仍然存在一些有待解决的重要问题。本文对这些问题展开研究,主要贡献总结如下:(1)对无标签样本的有效使用进行研究,提出了基于稀疏贝叶斯的半监督学习框架以及基于该框架的半监督算法SBS2LEM和SBS2LVB。这两种算法具有良好的稀疏性,能够在训练过程中自动删除无关的无标签样本,从而更加有效地利用无标签样本。实验表明,SBS2LEM和SBS2LVB能够充分利用无标签样本提升性能。值得注意的是,即使无标签样本提供的有效信息较少,SBS2LEM和SBS2LVB也能取得比其他基于图的半监督算法更好的性能。(2)对大量无标签样本的高效利用进行研究,提出了基于稀疏贝叶斯的可扩展半监督学习算法SBS2LLP和ISBS2L。ISBS2L将SBS2LLP的二类边缘似然分解成与当前无标签样本相关和无关的两部分,从而量化了无标签样本对该边缘似然的贡献。训练过程中,ISBS2L使用增量策略,依次选择对边缘似然贡献最大的无标签样本,避免了直接使用所有的无标签样本。因此,ISBS2L具有更低的时间复杂度,能够处理大规模数据集。通过分析算法的鲁棒性和泛化误差边界,本文在理论上验证了所提算法的可靠性。实验表明,这两种算法在标准数据集上能够取得高度可比的性能;ISBS2L能够有效处理百万规模的数据,并具有良好的分类性能和可扩展性。(3)对半监督学习在特征选择中的有效性进行研究,提出了基于贝叶斯的联合半监督特征选择与分类算法JSFS。通过在无标签样本上关联自调整的权重参数,JSFS能够自动选择有用的无标签样本并删除不相关的无标签样本,避免了不加区分地使用无标签样本,增强了对无标签噪声样本的鲁棒性。此外,JSFS能够自适应地选择相关特征并利用所选特征训练分类器,打破了现有算法需要预先确定所选特征数量并借助额外的学习算法训练分类器的限制。实验表明,相比于目前最先进的半监督特征选择算法,JSFS对噪声具有更好的鲁棒性,并且能够有效处理高维数据。

其他文献

论色彩元素在当代电影美术中的引用价值

<正>电影色彩美学的发展自色彩元素融入电影艺术当中就对电影艺术产生了相当重要的影响,它对电影艺术的发展也有着划时代的作用,因此在电影经历了第一次有声电影的变革之后,

期刊

电影色彩电影艺术电影美术彩色电影

整合技术的科学教学法知识(TPASK):基本内涵与提升策略

"整合技术的学科教学法知识(Technological Pedagogical Content Knowledge,TPACK)"自2006年首次提出以来,受到了包括科学教育研究者在内的多个教育研究领域学者的广泛关注。

期刊

整合技术的科学教学法知识基本内涵提升策略启示

两个新台糖甘蔗品种的GISH分析

用DIG标记的原始亲本印度割手密(父本)DNA和用Biotin标记的原始亲本黑车里本(母本)DNA为探针分别对2(新台糖25和新台糖16)个云南甘蔗主栽品种进行双色基因组原位杂交(GISH)。

期刊

甘蔗染色体基因组原位杂交

内外丹道之交融

我们可从以下三个层次对内外丹道之交融加以研究:一是理论层面共同的理论模型,内外丹都是本于天地宇宙的阴阳造化,都是一种天人合一的体系;都是为炼取不死之药,而致神仙。二

期刊

外丹术内外丹

福建高考数学自主命题现状与趋势研究

自2004年福建省高考数学实现自主命题以来,其发展现状值得予以研究。文章首先指出在自主命题的大格局下,福建省高考数学自主命题试卷总体、命题指导思想、试卷创新程度、命题

学位

数学高考命题福建省现状分析趋势研究

铁路安全管理与安全工程、安全文化

论述了铁路安全工作中的工程问题和文化问题，提出铁路安全基础建设工程应是加强铁路安全综合性研究与综合管理，建设铁路安全文化。

期刊

铁路安全安全工程安全文化

《毗卢大藏经》若干问题考

宋刻《毗卢藏》是我国佛教文化的珍贵遗产。以往国内的研究囿于资料匮乏 ,难以深入 ,日本学者的研究还是初步的。本文立足于国内图书馆和寺院所藏善本经卷 ,尤其是近年来从日

期刊

大藏经水陆寺《崇宁藏》开元寺《毗卢藏》《毗卢大藏经》

归脾汤加味治疗冠心病合并心律失常的疗效观察

目的:观察归脾汤加味联合美托洛尔治疗冠心病合并心律失常的临床疗效。方法:治疗组采用归脾汤加味(党参、黄芪、白术、当归、龙眼肉、茯神、远志、酸枣仁、木香、丹参、红花

期刊

冠心病合并心律失常归脾汤美托洛尔

认同建构与边疆民族地区社会安全治理

"认同"与"安全"关系密切,互为影响。边疆民族地区社会安全治理的根本是"认同安全"的建构和维护,边疆民族地区各种社会安全威胁的产生及其治理都跟相涉行为体间的"认同"是否"

期刊

认同建构认同安全社会安全治理非传统安全

成人牙科焦虑症流行病学调查及其相关因素分析

目的:研究成人牙科焦虑症的发生情况,探讨与焦虑发生相关的因素,为牙科焦虑症的预防和治疗提供临床依据。方法:采用牙科焦虑量表(Dental Anxiety Scale,DAS)对229例到口腔门

期刊

成人牙科焦虑症牙科焦虑量表

基于贝叶斯方法的半监督学习算法研究

其他学术论文