论文部分内容阅读
随着Internet技术的蓬勃发展,越来越多的用户参与到了互联网的共同建设中来,由信息的被动接受者变为信息的主动创作者。因此,在互联网上存在大量用户参与的,对于诸如人、产品等有价值的评论信息。这些评论信息反映了用户的意见、观点和立场,具有重要的研究价值。然而,随着越来越多的用户在互联网上分享自己的观点和意见,这些评论信息迅速的增加累积,仅靠人工的方式已经很难对它们进行分析处理。因此评论意见挖掘技术随之而生,该技术主要涉及特征挖掘、用户观点的抽取、情感分析技术等方面。评论意见挖掘首要工作是评论对象的特征挖掘,其准确性和全面性对后续的研究具有重要意义。由于在评论中不同的词可以用来描述同一种特征,所以评论对象特征的提取及聚类更具有挑战性。针对中文客户评论,对评论对象特征的抽取进行分析和研究。以下概括了本文的主要研究内容:为了从中文客户评论中提取出用户感兴趣的评论对象特征,本研究基于关联规则理论,即Apriori算法提取出频繁特征项集,最后根据三种剪枝规则对频繁特征项集进行剪枝,得到初步的候选评论对象特征集合。然后,针对基于Apriori算法抽取特征的查准率不高的问题,引进领域术语的概念,提高中文客户评论对象特征挖掘的性能。本文将评论对象特征看成是评论语料的领域术语,利用领域一致度和领域相关度度量候选特征与评论领域的关联程度,并对其进行排序,过滤掉那些与领域关联程度低的特征,实现挖掘性能的提高。本文对特征间的语义相似度计算方法进行了改进,既考虑词语间的单独相似度,又考虑了特征词与观点词的共现性。结合基于Hownet的词语相似度和基于特征和观点共现信息的特征相似度提出了一种新的特征语义相似度计算方法。最后,以特征间的语义相似度为聚类依据,对特征进行聚类。该算法将具有一定程度相似性的特征聚集在一起,解决了特征在评论中有不同表述的问题。本文通过互联网获取评论语料,并在实验中验证提出的所有算法,证明了该方法的具有较好的抽取性能。