基于浅层语义的文本倾向性分析研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:loveme2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,互联网不再只是人们获取信息的重要来源,而且逐渐成为人们表达自己观点和情感的的重要平台,于是互联网上出现了大量的主观性文本,比如购买产品的评论信息、微博等社交平台上表达网民观点或情感的信息等。如何从这些主观性文本中提取有意义的单元,从而实现对主观性文本的分析、处理和应用成为研究的热点,文本倾向性分析正是在这种背景下产生的。文本倾向性分析在产品评论领域、舆情分析领域以及其他诸多领域有着广泛的应用价值。文本倾向性分析的任务主要有三个:情感信息的抽取、情感信息的分析及情感信息的应用。情感信息的抽取旨在从主观性文本中抽取有意义的单元,将非结构化的文本转变为计算机能够处理的结构化文本;情感信息的分析是从短语级、句子级和篇章级等多个粒度上对主观性文本进行分析,从而得到作者的观点、情感及态度。本文在两次参与中文信息学会组织的中文倾向性评测会议的基础上,对文本倾向性分析的前两个任务展开研究,所做主要工作和成果有:首先,本文对情感信息抽取中的评价对象抽取和观点句抽取展开研究。通过对评价对象的不同模式进行研究,发现评价对象多包含一些出现频率较高的名词,于是本文抽取评价对象中出现频率较高的名词作为核心词,并通过引入词频、情感词、上下文、组块等浅层语义特征,提出了一种基于核心词和浅层语义特征的评价对象抽取方法。在观点句抽取方面,引入情感词、评价对象、感叹词、带情感色彩的标点符号、人称代词、主张动词等特征,提出了一种融合多特征的观点句抽取方法。其次,本文从短语级、句子级和篇章级三个粒度对情感信息的倾向性分析展开研究。针对单纯使用情感词代表文本倾向性所存在的问题,提出使用情感词和修饰词组成极性短语作为代表文本倾向性的基本单元,并给出了极性短语的倾向性计算方法。评价对象的倾向性及倾向强度即为修饰该评价对象的极性短语的倾向性及强度;观点句的倾向性是在短语级倾向性分析的基础上,考虑了转折、递进等连词的出现对极性短语权重产生的影响,采用一种基于极性短语加权求和的句子倾向性计算方法;篇章级的倾向性分析是在观点句的倾向性分析的基础上,考虑篇章结构对观点句权重的影响,将观点句分为总结观点句、半总结观点句和一般观点句,提出了一种基于观点句的篇章倾向性加权计算方法。最后,对本文提出的情感信息抽取及倾向性分析方法进行了实验分析,将参加评测时所用方法的实验结果、本文改进方法的实验结果及其它参赛队伍的实验结果进行了对比,证明了本文所提出方法的有效性。
其他文献
数据流聚类是从大量的、有噪声的、模糊的、随机的流数据中发现不相连的、具有相似属性的簇,并使簇中数据的相似性尽可能高,不同簇中的数据的相似性尽可能低,它是数据挖掘领域的
由于相同频率信号之间的干扰、有限的网络带宽资源、网络节点的移动性以及无线信道的不稳定性,无线网络的传输效率受到严重的影响。因此如何保证和提高无线网络的传输效率以
随着信息技术的成熟、移动设备的普及,学生的学习环境从现实的课堂环境转变为虚拟的网络环境。然而大多数在线学习只是简单的延续传统教学的老路,对于不同特点和水平的学生仍
随着工业自动化程度的提高,工业机器人成为近年来研究和应用的热点,而机器人的运动轨迹规划又是机器人控制系统的一项基本目标和任务,运动轨迹的连续性和平滑性,直接影响机器人的
由于高维空间数据的稀疏性和维灾问题使得高维空间离群点的挖掘和分析始终是数据挖掘的难点之一,本文在现有高维空间离群点挖掘算法的基础上,提出了用数据直方图和FP增长(Frequ
作为实现业务过程建模、仿真分析、优化管理与集成的核心技术,工作流目前已被广泛运用于项目管理、办公自动化以及业务流程重组等领域。建立工作流模型是实现工作流技术的关键
21世纪末以来,随着半导体技术、通信技术、微电子系统、计算机技术等的发展,具有环境感知、信息处理、信号传播的传感器节点逐渐出现,而由其组成的无线传感器网络的技术及应
随着信息化科技的发展,人们对计算资源和存储资源的需求不断的增加。云计算的提出能够很好的解决因需求增长带来的资源利用问题。同时伴随着虚拟化技术逐渐成熟,尤其是在服务
从20世纪后期到本世纪初,由于信息技术的迅猛发展及其产业规模的不断扩大,云计算成为继自来水、电力、天然气、电信之后的第五个公共基础设施服务。云计算是利用网络将各种资
随着图形处理器(GPU)的计算能力和可编程性的不断提高,利用GPU进行通用计算(GPGPU)逐渐成为研究的热点。通常GPGPU计算采用CPU-GPU的异构模式,虽然这种异构模式能够获得好的