论文部分内容阅读
互联网的快速发展改变了人们的消费方式,越来越多的用户选择通过互联网购买所需物品或服务.当前的消费者在购买产品或服务前,通常会阅读与该产品或服务相关的评论以决定是否购买.这些在线评论表达了先前消费者的心声.商业群体也可以根据这些评论信息适时调整其产品和市场策略来获取更高额的商业利润.因此,以产品评论为载体的情感分析和观点挖掘成为人工智能研究的热门话题.情感分析和观点挖掘的研究工作有个共同前提:所采用的观点源(评论文本的集合)是真实可信的.由于观点信息可以引导消费者的购买行为,好的评论会给商业组织和个体带来好的名声,从而导致巨大的经济效益.这在一定程度上促使了虚假评论的产生.因此,识别并过滤虚假评论有着重要的现实意义和理论价值.本文以酒店评论为基础,从不同角度研究了虚假评论识别问题.本文的工作内容如下:1.针对先前的虚假评论识别研究缺乏标注数据集的问题,人工构造了虚假评论数据集,基于计算语言学和心理语言学的相关知识,对评论文本进行丰富的特征建模,使用全监督学习算法来计算不同特征建模的性能状况.基于两种半监督的学习算法来有效的利用未标注评论来提升识别性能.一是2个视图分析的Co-training算法,该算法利用评论文本和评论者两个相对冗余的视图来建立分类器.二是采用3个视图的Tri-training算法,该算法基于评论文本的词汇、句法和心理语言学特征分别构建分类器.本节提出使用的半监督算法不仅能有效利用未标注数据集,减少人工标注数据的代价,而且获得了较好的性能.2.考虑到构建虚假评论数据集的困难性问题,提出使用少量真实评论和大量未标注评论来构造分类器,识别虚假评论.首先从大量未标注评论中识别出少量可信度较高的虚假评论,使用少量真实评论和虚假评论,基于LDA (Latent Dirichlet Allocation),分别计算出多个代表性的真实评论和虚假评论.然后,对于未标注数据集中剩下的评论(这部分评论容易被误标注,本文称其为间谍评论或间谍样例),融合种群性和个体性策略,确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性.3.考虑到直接为间谍样例分配类别标签会导致一定的标注错误,从而影响分类器的生成能力问题,提出通过混合种群性和个体性,仅仅为间谍样例计算属于两个类别的概率权重.然后将所有间谍样例和其概率权重融合到SVM (Support Vector Machine)的学习阶段,训练出更准确的分类器.实验结果验证,比起直接确定间谍样例类别标签,采用概率权重能获得更好的性能.4.针对人工标注的数据集中包含一定数量误例问题,提出一种创新的算法,基于误例判别的角度来识别虚假评论.首先将训练集划分为多个子集,并组合多种特征和多个分类器为每个子集构造一个分类器的集合,为每个子集选择出最优分类器.然后,使用错误统计变量来计算每个样例被误标注的行为.使用Majority和Non-objection策略来判定样例是否被误标注.最后,修改训练集中误标注样例的类别标签,为训练集构造分类器集合,训练出最优分类器.同当前最优算法的比较实验证实了所提算法的有效性.5.考虑到虚假评论的隐藏性和多样性问题,提出采用多个核函数来加强支持向量机的理解能力,将特征映射到更广阔的空间进行区分,从而提高识别性能.具体的,设计遗传算法来求解核函数参数及其权系数.根据问题的特性,设计特定的编码方式和遗传算子,采用自适应的交叉和变异概率加速种群收敛,防止算法陷入局部最优.实验证实了所提算法的有效性.