基于主动学习的情感分类方法研究

被引量 : 0次 | 上传用户:farmeress
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们越来越多的在网络上表达自己的观点与情感。面对如此大量数据的主观性文本,通过人工阅读的方法来分析这些文本中的情感信息需要耗费大量的时间。情感分析在这种情况下应运而生,并在自然语言处理研究领域得到了广泛的关注。文本情感分类是情感分析研究中最基本的一个研究任务,旨在自动区分主观文本对于某个主题的情感色彩。情感色彩类别一般分为正类和负类两种。研究发现,机器学习的方法在情感分类中可以取得很好的效果。机器学习方法通过标注大量文本的情感类别,把这些标注好的文本作为训练集,最后训练得到一个分类模型。但是,标注大量的情感文本是一件费时费力的事情。因此,如何在保证理想的分类性能的情况下尽量减少标注样本是一件很有意义的工作。本文主要针对情感文本分类中主动学习方法的研究,开展了以下几方面的研究内容:首先,本文分析不同因素在情感分类中对于主动学习方法的影响,这些因素包括不确定性、代表性、差异性和特征信息量。具体来讲,通过分类器对测试样本的分类结果的确信程度作为不确定性的衡量标准;将预先聚类作为代表性因素的加入;通过计算未标注样本与已标注样本的距离衡量差异性;通过样本包含的特征数目衡量特征信息量的大小。实验详细分析了各种因素的优劣。其次,观察语料发现,语料中正负样本数量往往是不平衡的,不平衡的标注文本会严重降低分类器的性能。传统的主动学习方法在不平衡语料中挑选到的语料还是不平衡的,并不能很好的解决这种情况。因此,在语料不平衡时,主动学习方法的研究具有重要的应用价值和充分的挑战性。本文结合传统的主动学习方法的优势,即考虑文本的信息量,同时兼顾样本的平衡性,提出了基于特征子空间分类器的协同选择策略,较好解决了不平衡情感分类中的主动学习问题;在此基础上,我们发现多类样本的自动标签的正确率很高,无需过多的人工干预,进而提出多类自动标注的协同选择策略,进一步降低了样本的标注量。最后,本文研究了词与文档同时标注的主动学习方法。相对于文章,词的标注代价较小。而且,由于许多词包含了强烈的情感色彩,所以标注情感词会对分类模型有帮助。本文统计了标注文本和词的标注开销代价比,提出了衡量词的信息量与文本的信息量的方法,综合考虑信息量和标注开销,词与文本共同排序,最后挑选排序最前的文档或者词进行标注。此外,半监督学习也是一种减少标注样本的方法,挑选优质种子样本可以很好的提高半监督方法性能。词与文档同时标注的方法是解决这一问题的一种途径。实验证明,词与文档同时标注的主动学习方法相对于传统的主动学习方法具有更好的效果。同时,词与文档同时标注也很好解决了半监督学习中的种子词选择问题。
其他文献
以专利为代表的知识产权的竞争已经在全球范围内愈演愈烈。而在中国,虽然人们也意识到科技力量是带动经济发展的重要力量,但是专利体制始终需要完善,专利结构也有待优化。本
屈原是中国文学史上最早出现的爱国诗人,他的峻洁纯美的人格与忧君忧国之爱国情怀以及由他开创的楚辞文学,不仅对后世中国文学影响深远,也对邻国的朝鲜古代文人影响极大。众
《政府信息公开条例》(以下简称《条例》)第37条虽明确规定了公共企事业单位是政府信息公开的法定义务主体,却未对其中的具体内容和程序做出详细规定。本文以该条为基础,以公共企
可外接插电式混合动力汽车(Plug-in hybrid electric vehicle),简称PHEV。可外接插电式混合动力汽车是在传统混合动力汽车基础上开发出来的一种新型新能源汽车,由于可外接插电
虚拟网络计算(Virture Network Computing,VNC)是一款优秀的远程控制软件。VNC凭借其跨平台、低带宽占用和易于移植等特点得到了广泛应用。但是,VNC在处理多媒体应用尤其是在
申请号:CN201420166452.2申请日:2014-04-08公开号:CN203901840U公开日:2014-10-29申请人:绍兴一普塑业有限公司该实用新型公开了一种利用废弃建筑胶合板生产的复合板材。它包括废
高中《经济生活》教材的编写以“教育即生活”理论、建构主义学习理论为基础,坚持新课程改革倡导的“三贴近”原则,贯彻落实党的精神,吸取了新课程改革以来的经验和不足。在
对《招魂》的研究,以王逸为其作注开始。而由于王逸注与司马迁《史记》所言相左,众多学者对《招魂》作者展开了激烈的讨论。随着讨论的深入,《招魂》魂主问题、生招死招问题也接
诗钟是福建的"土特产",属诗的范畴,是继唐诗宋词之后的又一个高峰,其对仗、嵌字、炼字、造句的技巧性、艺术性超过诗词对联。诗钟意象的密度一般大于近体诗,意象选取更求精当。
离职问题一直是心理学研究的重点,关于离职的模型也很多,Lee,Holtom等人(1999)展开模型提出以后,由于其理论的传承性与开创性受到了众多学者的关注。目前国外很多相关的实证研究