论文部分内容阅读
随着旅游行业在全球范围内的快速发展,人们越来越倾向于通过有效的搜索引擎寻找发现有趣的地方以及收集相关的信息。随着Web2.0的迅猛发展,越来越多的人会在一些旅游社区网站上(如马蜂窝,驴评网,穷游网等网站)分享自己的旅游经历,通过点评、游记等方式记录对目的地,景点,酒店或者相关产品服务的体验感受。这些网站已经成为旅游者收集相关信息的主要来源。然而,人们常常淹没在数量巨大的评价内容中,很难从海量数据中找到关于旅游目的地的有用信息。文本情感分析以带有主观性信息的文本为研究对象,目的是识别、分类、抽取、标注这些文本里表达的情感、观点、影响。对这些评论进行分析归纳,挖掘有价值内容,帮助用户更好地做旅行决策,是迫切需要解决的问题。 本文围绕提高情感分类性能以及不平衡数据集的情感分类两个话题进行实验研究,主要工作包括以下几个方面: 1)提出了基于序列化规则(Serialization Rules)的特征提取算法—SR 识别情感所表达的实体和情感表达的方式是情感文本分类的重要环节,情感分析任务中都采用词作为特征项,称作特征词。其中,情感表达的实体,被称为主题词;情感是怎样表达的,是指情感词。本文针对特定的句法结构,提出了基于序列化规则的特征提取方法—SR,有效地提取出能较好代表文本内容的特征项,去除了一些无关的,冗余的特征项,大大降低了特征向量的维度,降低了计算复杂度,提高了文本分类的精确性。 2)结合集成学习理论解决不平衡数据集的情感分类问题 文本情感分类的大部分研究中,进行分类的正负类样本数量基本一致的,即正负类样本是平衡的。然而在实际的应用场景中,常常出现分类样本中一个类别的样本数量是另一类别样本数量的几倍,多数类样本的数量远远大于少数类样本,这就是情感分类问题中“不平衡”问题。本文通过结合欠抽样技术和集成学习理论对不平衡的情感分类数据进行分类,装袋欠抽样算法—BUS(Baggingand Under Sampling)与Stacking组合分类器器方法,提高其分类性能,将情感分类技术能真正运用到实践过程中。