基于正例和无标记样例学习研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：rstkjs123

【摘要】

：

随着World Wide Web的迅猛发展,Web信息呈现出爆炸式指数级涌现,催生了搜索引擎这一激动人心的研究领域。各种搜索引擎已经成为人们使用因特网的最重要的信息服务工具,但是人

【作者】

：

张邦佐

【出处】

：

吉林大学

【发表日期】

：

2009年期

【关键词】

：

PU学习半监督学习文本分类文本聚类支持向量机 Ranking学习协同训练 Tri-training

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着World Wide Web的迅猛发展,Web信息呈现出爆炸式指数级涌现,催生了搜索引擎这一激动人心的研究领域。各种搜索引擎已经成为人们使用因特网的最重要的信息服务工具,但是人们要想找到许多重要信息仍然如同大海捞针一般,研究者们公认面向主题的搜索是搜索引擎未来最重要的发展方向。主题爬行(Focused Crawling)系统采用基于样例网页驱动的主题信息收集方法,具有重要的学术研究价值和广阔的应用前景。本文即是针对主题爬行中的关键技术——文本分类问题,将主题相关性转变为基于正例和无标记样例的学习(Learning from Positive and Unlabeled examples,PU学习)问题。PU学习范型的最大问题是没有可以利用的反例,因此传统的监督学习和半监督学习方法不能有效的使用。本文针对这一学习范型进行了跟踪,做了比较全面的综述和深入的研究,将基于机器学习的文本挖掘技术引入PU学习,并加以应用,提出了新颖的解决办法,取得丰硕而有成效的研究成果。本文创新工作主要包括如下两个方面:第一方面工作是基于两阶段策略的研究工作,针对两阶段策略中的第一阶段——提取可靠反例,提出了三种有效的可靠反例提取算法:(1)基于经典的k-Means聚类算法的可靠反例提取算法,首先对训练集合(正例集合和无标记样例集合)采用k-Means聚类算法进行聚类,将正例比例低于某一阈值的簇标记为可靠反例;(2)基于约束k-Means聚类的可靠反例提取算法,约束k-Means聚类是一种全新的半监督聚类算法,在聚类过程中用正例集合来初始化正例中心,将正例标记做为Must-link约束进行约束聚类,本方法最后不仅标记了可靠反例,也同时扩充了正例集合;(3)基于kNN的Ranking学习算法的可靠反例提取算法,将无标记样例采用kNN算法计算其与k个正例近邻的Rank值,将Rank值低于一定阈值的样例标记为可靠反例。第二方面工作是基于协同训练范型这一半监督学习中最重要的方法提出了两种PU学习算法:(1)基于Co-EM SVM的PU学习,Co-EM SVM是对标准协同训练算法在EM算法框架之下使用SVM做为内嵌分类器的改进。首先采用基于1-DNF方法的视图划分方法,将文本特征集合划分为正例特征集和反例特征集组成两个视图,然后在单视图上提取可靠反例,最后采用Co-EM SVM进行迭代学习。(2)基于Tri-training算法的PU学习,Tri-training是采用单视图多分类器方法对协同训练算法的推广,本文采用了三个已有的可靠反例提取算法分别初始化三个SVM分类器,然后将其两个分类器的一致分类结果作为第三个分类器的训练样例进行迭代学习,最终分类结果通过三个分类器的集成得到。本文提出的方法均在经典的文本分类数据集上与相关工作进行了对比实验,并采用通常的文本分类评估指标,验证了本文工作明显优于相关工作,取得了较好的实验效果,并就本文工作进行了总结,公开发表了相关的学术论文,取得了较好的评价。

其他文献

低硫令下的新航向

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

燃料油市场硫含量燃料市场炼油企业

《百货店等级划分及评定》国家标准正式颁布实施

中华人民共和国标准公告2011年第23号公布,经国家质量检验检疫总局、国家标准化委员会批准,《百货店等级划分及评定》国家标准(标准号GB/T27916-2011)已于2011年12月30日公告

期刊

百货店《百货店等级划分及评定》百货零售

区块链在城市轨交乘客运营中的应用和价值

让我们看一个这样的场景:乘客坐地铁的每一站会为他赚得一个加密积分通证,而这个加密积分是存于他的数字加密钱包中的,相当于他自己的保险箱。他可以用加密积分去站内的售货

期刊

城市轨交去中心化区块链

基于大数据处理技术的提升机制动系统故障诊断

能源开采作为我国的重要经济产业,其能否安全生产倍受关注。矿井提升机是煤矿开采中重要的机械设备之一,承担着煤矿矸石与生产工作人员的提升与下放任务,提升设备的安全运行对煤矿安全生产,尤其是工作人员的生命安全影响重大。可靠的制动系统是提升设备安全正常运转的必要保障,随着监测技术的不断完善,基于运行工况的提升设备监测数据出现了数据量大、属性冗杂等大数据特点,这些数据的处理和合理应用是开展制动系统故障诊断研

学位

提升机制动系统大数据SPSS故障诊断机器学习决策树算法

“互联网+”时代下报纸媒体与新媒体的融合

在当前'互联网+'全面覆盖的背景下,新媒体对传统报纸媒体的发展产生了较大影响。新媒体主要是通过数字化技术进行传播,将更好视觉盛宴带给受众,相较于传统报纸媒体,

期刊

互联网+报纸媒体新媒体融合

维数约减算法研究及其在大规模文本数据挖掘中的应用

随着网络的快速发展,人们处在这个“信息爆炸”的时代,常常面对海量数据分析和处理的任务,且这样的数据仍在以几何级数增长。同时,在现实中这些海量数据往往又是高维而稀疏的

学位

维数约减数据挖掘随机映像等距嵌入反馈式搜索引擎点击数据

汉民族风俗中的徐州古俗基因

汉代是我国汉民族风俗的形成时期。由于这些风俗的定制基本上是在汉代初期完成的,因而,徐州古俗像遗传基因一样,在汉民族风俗中得到复制和传承。