文本情感分析若干问题研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:olivehht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着旅游行业在全球范围内的快速发展,人们越来越倾向于通过有效的搜索引擎寻找发现有趣的地方以及收集相关的信息。随着Web2.0的迅猛发展,越来越多的人会在一些旅游社区网站上(如马蜂窝,驴评网,穷游网等网站)分享自己的旅游经历,通过点评、游记等方式记录对目的地,景点,酒店或者相关产品服务的体验感受。这些网站已经成为旅游者收集相关信息的主要来源。然而,人们常常淹没在数量巨大的评价内容中,很难从海量数据中找到关于旅游目的地的有用信息。文本情感分析以带有主观性信息的文本为研究对象,目的是识别、分类、抽取、标注这些文本里表达的情感、观点、影响。对这些评论进行分析归纳,挖掘有价值内容,帮助用户更好地做旅行决策,是迫切需要解决的问题。  本文围绕提高情感分类性能以及不平衡数据集的情感分类两个话题进行实验研究,主要工作包括以下几个方面:  1)提出了基于序列化规则(Serialization Rules)的特征提取算法—SR  识别情感所表达的实体和情感表达的方式是情感文本分类的重要环节,情感分析任务中都采用词作为特征项,称作特征词。其中,情感表达的实体,被称为主题词;情感是怎样表达的,是指情感词。本文针对特定的句法结构,提出了基于序列化规则的特征提取方法—SR,有效地提取出能较好代表文本内容的特征项,去除了一些无关的,冗余的特征项,大大降低了特征向量的维度,降低了计算复杂度,提高了文本分类的精确性。  2)结合集成学习理论解决不平衡数据集的情感分类问题  文本情感分类的大部分研究中,进行分类的正负类样本数量基本一致的,即正负类样本是平衡的。然而在实际的应用场景中,常常出现分类样本中一个类别的样本数量是另一类别样本数量的几倍,多数类样本的数量远远大于少数类样本,这就是情感分类问题中“不平衡”问题。本文通过结合欠抽样技术和集成学习理论对不平衡的情感分类数据进行分类,装袋欠抽样算法—BUS(Baggingand Under Sampling)与Stacking组合分类器器方法,提高其分类性能,将情感分类技术能真正运用到实践过程中。
其他文献
能见度是影响道路交通安全的重要气象因素。随着科学技术和我国国民经济的快速发展,特别是交通运输业的迅速发展,海、陆、空等各种交通工具的增加和速度的提高,使得能见度这项气
互联网异常是指影响网络性能或造成数据破坏的事件,这些事件通常会引起某些流量特征违反某种已建立的模式或标准,分析流量特征在异常情况下的变化,并以之为基础进行异常检测的应
数字水印技术自提出以来一直受到人们的极大关注,可广泛应用于多媒体版权保护和信息认证等领域,而音频水印作为水印技术的一种,也逐渐成为研究的热点。大多数水印系统采用软件方
随着面向服务架构的发展与广泛应用,作为其重要实现的Web服务受到工业界与学术界的重点关注。Web服务组合作为面向服务架构的关键技术,一直是Web服务领域的研究重点与热点,然
随着电子地图等领域的飞速发展,地理信息和空间数据在人类生活中发挥的作用越来越大,空间数据在油田的信息化建设中的作用也越来越大,但是针对油田空间数据多分辨率特征的研究却
人类主要通过语言和图像这两种形式来传送相关信息。其中,通过图像所获得的视觉信息又占人类获得的各种信息中的80%,因此图像信息在信息传递媒体和方式中占据了重要的地位。图
随着科学计算的精细化,计算量日益增大,计算相关领域越来越重视并行计算的研究以获得更高的计算速度。随着多核处理器系统和GPU通用计算的广泛应用,当前并行计算领域存在着多
近年来,多投影显示技术日益成熟,在商业上的应用越来越多。然而,目前市场上的商用多投影显示系统软件有限,多投影显示系统的市场远未饱和。本文介绍了一种多投影显示系统的实
这些年,伴随着各种智能移动设备的出现,移动数据库技术得到了一定的发展与应用,但是同时也出现了很多的问题,例如移动复制过程中的数据如何保持一致以至于不发生冲突,解决这
随着无线通信网络的迅速发展,人们对其网络信息传输可靠性方面的要求也越发提高,特别是差错控制技术,是移动通信可靠性需求保证的关键,其在日益强调通信信息传输准确性、可靠