文本倾向性分析技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:easy515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网作为一种交互式媒体,被越来越多的人用来表达自己的观点和态度。这些带有倾向性的主观性语言集中在Blog、论坛和留言之中,包含有大量信息,自动挖掘其中的观点和态度,具有十分重要的意义。   本文围绕文本倾向性分析,从以下几个不同的应用背景出发,研究了文本倾向性的褒贬分类和主客观分类两个任务中的相关技术。   (1)短评论的褒贬分类   短评论是在商业产品评论中常见的评论形式。传统的文本褒贬分类采用基于褒贬义词典的方法。然而,在短评论的褒贬义分类任务中,因为评论的对象属于特定的领域,而通用的褒贬义词典不能够覆盖特定领域内的倾向性表达词语,造成分类性能很差。此外,在短评论分类任务中传统方法还有另外一个缺陷:因为褒贬词语表达什么样的态度要依赖于其描述对象,所以,独立于描述对象,很多词语的倾向性难以判断。针对以上问题,本文在有监督学习的框架下采用了基于组合特征的分类方法:首先构建一个有褒贬标记的短评论语料库,然后从中自动挖掘褒贬描述的对象,并绑定该对象和其褒贬描述词,最后基于这种绑定后的组合特征,在语料库的监督下进行短评论褒贬分类的学习。实验表明,在电子产品评论分类任务上,该方法较传统褒贬分类方法能够获得更好的分类效果。   (2)长评论的褒贬分类   长评论是文学影视作品评论中常见的文体。与产品评价等短评论文体相比,长评论通常包含更多的评价侧面,篇幅更长,使用的语言更加丰富,情感更加强烈。更重要的是,长评论在篇章构成上包含某些结构,其中一种结构就是篇章中情感表达的结构。结合这种情感结构,本文针对长评论的褒贬分类,提出了一种称为Roof-CRF模型的分类方法。该模型将篇章中情感的各种关系统一建模,能够刻画出句子情感同句中词语的关系、句子间情感的关系、篇章情感和句子情感之间的关系以及篇章情感同篇章中词语的关系,从而一体化地对长文全局篇章情感和局部句子情感进行分类。实验证明,与传统方法相比,该方法对篇章和句子的褒贬分类性能都有一定的提高。   (3)评论的倾向性分级   在评论的倾向性分类中,褒贬的类别是具有强弱顺序的,这种有序类别的分类问题属于序回归问题,但是当前的方法都是从多分类的角度来进行评论的分级,所学习出来的模型不能完全符合有序类别的分类任务。本文提出一种基于多重冗余标记的方法使CRF能够从序回归问题的角度解决情感分级任务。此外,利用该方法,本文将主客观分类、情感极性分类和情感强弱分类三个任务集成到统一的模型之中,避免了分步方法误差积累和蔓延问题。在英文电影评论语料上的实验表明,跟标准的CRF方法相比,本文提出的方法能更好地解决评论的倾向性分级任务。   (4)主客观分类   本文面向TREC-BLOG07的观点搜索任务,介绍了一个主客观分类的方案。首先,为了解决主客观分类的训练语料难以收集的问题,采用了一种基于单类样例的文本分类方法。其次,基于主动学习思想,采用了动态选择训练样本的方法。最后,在主观性和相关性融合阶段,使用了支持向量回归的方法。在TRECBLOG06观点搜索数据上的实验结果验证了这套方案的有效性。
其他文献
无线传感器网络集成了计算能力、无线传输能力以及对物理世界的感知能力,具有广泛的应用范畴。在大规模的周期性数据收集型传感器网络中,如何高效的利用传感器节点的能量、保证
学位
随着互联网、通信等信息技术的飞速发展,全球数据正在以前所未有的速度积累,如何从这些海量数据中挖掘有价值的信息已成为学术界和工业界关注的焦点。数据规模的快速增长伴随着
众核处理器的片上网络对于提高处理器的性能与可扩展性具有重要作用。随着处理器芯片规模的增长,片上网络面临着诸多问题的挑战:一方面,多应用同时运行使得每个应用的网络性能
人类基因组中超过70%的区域能发生转录,但只有1%~2%的部分区域能编码出蛋白质,其余大面积的区域称为非编码区域,这些区域转录出的RNA分子都不具备蛋白编码能力(无蛋白质产物生成),被称
随着计算机技术的不断发展,软件复杂度有了很大的提高。软件中存在的问题越来越突出。因此,提高软件质量及可靠性已成为当前软件工程领域的重要任务。软件测试是保障软件质量
信息技术的飞速发展引发了人类生活方式的巨大转变,RFID、穿戴式传感设备、智能家居等新技术的普及加速了物理世界和赛博空间的融合。三元计算理论是在这一背景下出现的新型计
自1950年图灵测试提出以来,问答系统一直是人工智能领域研究的重要课题之一。相对于英文问答系统的迅速发展以及语义信息处理技术的广泛应用,目前语义分析的方法在汉语问答系统
语音识别噪音场景库的建设对于语音识别技术及评测技术都具有重要的研究意义.噪音场景库的设计包括对噪音场景进行分布估计、聚类分析、自动分类等流程.本文首先用统计学的抽
近年来,流媒体在互联网上大量应用。然而,媒体的质量并不让人满意。主要是由于传统C/S模式过分依赖媒体服务器的性能和带宽。于是,研究人员想出了很多的解决办法。其中比较有代
学位
土地评价是土地利用与规划的关键步骤,是土壤科学研究的主要内容之一。土地评价一直是一个较为复杂的问题,不同地区对农业生产具有不同的影响因子,各影响因子对不同的生产目标又