论文部分内容阅读
当今互联网已从单纯静态的信息载体逐渐演变成用户自由发表主观评论、展现自我观点的平台。电子商务作为网络化的新型经济活动,其网站上丰富的评论文本所反映的情感倾向和观点意见己成为重要的决策依据和最具说服力的宣传。人们通常更愿意相信其他消费者的推荐和建议,因此几乎所有的电子商务网站都提供了消费者评论平台,既有利于展示商品的相关属性及评价,又便于商家掌握消费反馈信息。然而,随着网络经济的迅猛发展,评论资源急剧膨胀,用户从海量评论文本中获取和理解所需信息的成本也成倍增加。因此,如何挖掘这些海量文本资源的情感信息?如何对大规模文本中的主观意见进行分析和处理逐渐成为人们研究的热点问题。国内外研究资料表明,情感分析技术的研究不仅能满足人们对主观性信息的识别与分析需求、降低用户搜索和理解的成本,同时还有助于发现新知识,具有广泛的应用空间。然而,自然语言表达方式的多样性和复杂性、网络语言的不规范性、情感词的领域依赖性等问题都给情感分析研究带来了严峻的挑战。此外,由于网络评论信息大都来自匿名个体,难以根据其来源的相似性确定信息的可信度,再加上商品评论中的虚假描述、炒作以及恶意诋毁等信用问题,严重制约了电子商务的健康发展。因此,研究评论文本的情感分析方法以及基于评论情感分析的电子商务信用评估模型,对发展高可信度的电子商务具有重要的现实意义和经济价值。本文的主要工作包括:1.深入研究和分析了文本情感分析的相关理论和方法,针对中文评论文本的特点,提出了一种基于情感特征关联组的文本向量模型,通过把(评价对象,情感词,过度修饰,一般修饰,否定修饰,标点)六元组作为文本向量特征,将情感倾向性信息有效地融入到文本向量模型中,同时充分考虑影响文本情感的多种因素,综合评价对象、情感词以及上下文语境等信息确定文本的情感倾向以及强度信息。2.针对基于情感特征关联组的文本向量模型,进一步提出了基于程度副词频数的HADC权重计算方法。在计算特征的权重时,加入程度副词的使用分析,能较好地反映不同向量特征对文本情感倾向的影响。实验表明,HADC加权方法在分类效果上有显著的改善作用,能够有效地提高评论文本的情感分类准确性。3.提出了一种基于句子依存关系分析的情感特征关联组的抽取方法,制定了相应的识别规则,能够比较有效地识别情感词、评价对象以及修饰成分等文本情感分析所需的多种要素。4.针对现有电子商务信用评估体系中存在的信用炒作、信用诋毁等问题,本文构建和改进了信用评估指标体系及模型。通过研究和设计文本情感分析方法,计算消费者评论文本的情感分布和极性的偏激度等信息,并基于文本情感分析结果定义信用评价指标,进一步结合层次分析法,将定性分析与定量分析相结合,构建了实用而合理的信用评价指标体系。最后,本文充分考虑商家信用、消费信用及评论本身信用三者之间的相互影响,加入交易金额及交易时间等因素,构造了改进的信用评估模型。实验表明,改进后的模型能够更全面、客观和科学地评估交易双方的信用值。