基于语义特征的微博评价对象抽取

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:you17
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网交互技术的发展,网络成为了新的交流平台,随之产生了海量的文本数据,针对这些数据的情感分析工作因此而迅速发展。经过十多年的发展,情感分析的研究工作变得更加细致且深入,评价对象抽取作为情感分析的关键任务之一而受到重点研究,其成果广泛应用于文本摘要、问答系统等相关研究。近几年,微博成为了最热门的评论信息载体,信息的规模迅速增加,其研究价值与紧迫性愈发明显。但是,由于微博句子相较于传统的新闻语句更为简短且缺乏规范,使得研究难度增大,因此,本文选取了微博文本作为研究对象,同时,选取评价对象抽取作为研究任务,继而探索微博评价对象抽取的新思路。具体的研究内容包括以下两部分:1)针对微博句子结构不规范导致词性标注和依存分析不够准确,继而使得微博评价对象抽取效果受到影响的问题,本文提出了通过引入最长名词短语(MNP)识别器,简化句子结构的方法来提高评价对象抽取效果。通过识别句中的最长名词短语,将其识别结果添加到用户分词词典中,使得微博语料分词后的句子结构更加简明。比较添加用户词典前后的微博评价对象抽取实验结果,发现评价对象抽取任务在添加了用户词典的实验中能取得更好的效果。因此,对微博句子进行最长名词短语识别能够促进评价对象抽取效果。2)条件随机场模型作为评价对象抽取任务中最好的机器学习模型,其抽取效果取决于特征的选取,而传统的词法特征仅考虑了词、词性,忽略了词的语义特征,但是语义特征在评价对象抽取中能起到关键的指示作用。因此本文提出了4个用于微博评价对象抽取的语义特征,分别是:评价绝缘词、评价触发词、评价消解词和评价指向动词。通过比较基于不同特征组合的微博评价对象抽取实验结果,发现部分语义特征能够极大地提高微博评价对象抽取效果。最后通过筛选、组合找出最优的评价对象抽取特征集,其F值相对基于基本特征的微博评价对象抽取提高了4.4个百分点。
其他文献
复述(Paraphrase),国内的研究者有时也称之为“改写”,顾名思义就是对相同意思的不同表达。复述在自然语言中是一种非常普遍的现象,同时也在自然语言处理(NLP)的应用领域中扮
图形用户界面(GUIs)被广泛地运用于应用软件中,但其大量的使用也为软件的开发和测试带来了极大的挑战。现在的应用程序中,GUI的代码己达到整个软件的60%以上,图形用户界面的
Xen是一种被广泛应用的虚拟化软件平台,具备出色的隔离特性。隔离特性是通过引入VMM层实现的,Xen是VMM的一种具体的实现载体。由于本文的研究涉及到修改VMM的源代码,而Xen开
随着人类活动的日益加剧,软件在人类社会生活中所扮演的角色越来越重要。软件作为一种辅助人类完成一系列任务的工具,不仅应用范围越来越广,单体软件所能完成的功能也越来越
近30年来,随着人工智能领域中定理机器证明之可读证明方法的突破,基于可读证明技术的计算机辅助教学工具的研制已经成为CAI领域的主要研究方向。尤其是从上个世纪末开始,在国内
在当前的大多数实际应用中,数据往往是复杂的、高维的。这些复杂数据中通常蕴含多种合理的聚类模式,从多种不同的视角对这些数据进行聚类分析,能够更全面地理解数据。然而,传统的
云存储是一种基于互联网的全新存储模式,为人们提供高性价比和便捷的存储服务,但其安全性是被广泛关注和研究的热点。为了保证数据的可靠性和完整性,云存储中主要采取两种措施来
在数据挖掘领域,聚类分析是一个重要且备受关注的研究方法,其中包含的基于密度的聚类算法由于可以有效的排除噪声数据,发现任意形状的簇而被广泛的研究。当今处于信息时代,从网络
地面智能机器人是一种可以脱离人的直接控制在地面实时地自主运行的机器人。对地面智能机器人的研究关注的主要问题是自主导航,而自主导航的关键技术是道路场景分割。地面智
无线射频识别技术(Radio Frequency Identification,RFID)是一种非接触式自动识别技术,通常采用电感耦合及电磁反向散射耦合两种方式进行数据交换。由于其同时能够读取多个标签,且