一种基于特征与极性映射方法的观点分析系统的研究与设计

来源 :东北大学 | 被引量 : 0次 | 上传用户:huanxytt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上丰富且可用的评论资源不断增加,针对观点分析和观点挖掘的研究应运而生。它们针对这些来自网络上对产品或社会问题的公众评论的文本资源进行研究,并从中抽取和总结出重要观点。本文研究并设计一种观点分析系统,它从无标记的原始评论文本中抽取观点和它们对应的极性,并能够建立观点与极性的映射关系。研究的主要内容如下。首先,着眼于观点分析领域特征的抽取工作。从粒度的角度考虑特征的性质可以将特征分为粗粒度特征和细粒度特征。在这部分内容中主要研究如何准确的抽取一个事物最具代表性的粗粒度特征,进而围绕这些粗粒度特征进行细粒度特征的抽取和筛选。研究中应用bootstrapping等算法在没有标注的文本集合上学习相关于每个特征的词语或短语,它们用于特征和极性的识别。然后,针对前人提出的特征相关词语的歧义度计算方法和存在的问题进行分析和讨论并在本文中提出一种计算歧义度的新方法,以及重新定义特征相关词语的得分计算公式。第二,许多针对评论文本结构的研究发现,在真实评论文本中的句子或段落通常包含两个或两个以上特征,这样的句子或段落需要基于特征的文本分割方法。另外,本文的研究中发现在不同的评论文本之间长度存在着巨大的差距。针对这些现象,本文中提出了一种基于特征的文本分割方法叫做LSMAS,它基于两种文本分割方法而且在它们的基础上加以改进并提出了部分新的公式。第三,这部分的研究集中在评论文本的极性分析上。通用极性词典普遍存在的问题是对依赖特定域的词语或短语极性判断精确度不高。为解决这个问题,在这部分中提出一种不借助任何通用极性词典而建立一个域依赖的极性词典的通用方法,它能很好的解决以上提到的问题。然后,应用建立好的极性词典对“区域”(“区域”指由算法分割后的文本单元)中的特征进行极性的判别工作。最后,在包含1000篇评论文本集上测试本文建立的观点分析系统。经试验验证,此系统产生的结果能够达到较高的准确率,并具有较好的执行性能。
其他文献
Shamir于1979年首次提出身份基加密的概念,随后众多身份基加密的扩展概念被提出,比如层次化身份基加密,身份基广播加密,空间加密等。属性基加密也是身份基加密的一种扩展。现
学位
随着半导体工艺的发展,微处理器结构的复杂度也越来越高。其中,在提高系统性能的同时,保证系统的稳定性和有效性成为了设计的重点。动态电压频率调节(DVFS)的技术可以动态的
随着计算机技术和微电子技术的迅猛发展,使得Internet已经成为社会发展中最重要的基础设施之一。Internet的普及与发展使得物网时代已经走进了人们的日常生活,同时也为工业控制信息的共享提供了有力的网络保障。另一方面,国民经济的迅猛发展,电力网负荷急剧增大,感性无功也与日俱增。结合无功补偿与Internet信息共享,构建一个基于Web Server的静态无功补偿(SVC, Static Var
随着IP业务的迅速增长以及IP网络上应用的不断增加,原有的互联网越来越显得力不从心,互联网技术进入再设计阶段。现有互联网的可扩展性、安全性、可控可管及端到端问题等,都
大脑中的神经系统是人体中最复杂的系统之一,它承担着传导信息的功能。快速、准确、实时地对脑白质内神经纤维进行描绘,具有很大的意义,但是由于神经纤维结构的错综复杂,传统
基于FPGA的CPCI接口数据译码系统是作为一个通信接收系统的主要组成部分而进行研制的,主要是为了实现信号数据的译码、处理、采集、存储和管理工作。该系统以CPCI总线技术和
优化是人们在科学研究、工程技术和经济管理等诸多领域中经常碰到的问题。其目的是找到使目标函数达到最小或最大的条件。已有的许多优化方法在处理人们所面对的复杂问题时,
扩散曲线是一种图像矢量化的新方法,它可以保留传统位图在色彩上丰富的优点也具有矢量图方便修改,方便存储以及可以任意放大缩小而不失真的优点。是一个比较新颖而又具有实际
脑机接口是在人脑与外界环境之间建立不依赖于常规脊髓与外围神经的通讯系统,从而实现脑与外设的直接互联,这种新型的交互方式又可称为脑机交互。脑机交互研究具有复杂的交叉
搜索引擎技术和P2P技术是当前科研院所、公司争相研究的热点。随着Web信息的急速膨胀,各项与Web相关的服务也随之增多了。在这种情境下,搜索引擎作为个网络用户所需的信息检