论文部分内容阅读
随着互联网的普及和电子商务的蓬勃发展,网上交易系统得到了越来越广泛的应用,在给企业带来了经济效益的同时,也给信息系统带来了大量的用户评论。这些海量评论不仅对于顾客有很高的购物导向价值,而且给商家提供了良好的决策理论依据。因此,致力于产品评论信息的观点分类研究成为了文本挖掘的一个重要课题。 与传统的基于文档的产品观点分类的不同,本文采取了基于句子粒度的分析方法。主要内容包括产品特征提取方法研究和基于特征进行观点分类方法研究。 1)产品特征研究。产品特征是一个好的分析产品方式,研究主要包括三方面工作:a)显式特征提取。根据产品信息的重要性不同,构建了3层模型逐层递进提取特征,提取方式是综合利用关联规则和依存分析的策略来实现;b)隐式特征提取。针对隐式特征具有隐含性而易被忽略的特点,采用在显式特征基础上利用关联规则的搭配提取方法和PMI方法的同时加入了相似度的度量条件的方式来实现;c)特征聚类。为了获得高效的评论总结,对由于文化表述等差异造成同一特征不同表述情况,利用改进的K-中心聚类方法实现相似概念聚类。通过以上研究,获得了可观的实验结果。 2)词典研究。根据现有情感词典手工和自动增、删、改情感词,综合考虑句法结构,分析关联词的关联特性对情感程度的影响,构建关联词词典。同时,对情感短语和特征情感词也在搭配方面进行了研究使得情感识别更准确。实验结果表明对词典的改进策略能有效提升观点分类的分类效果。 3)在特征评论上进行观点分类研究。用基于词典分类效果最好的方法分类出来的主观评论训练分类模型,并应用此模型对没有识别出情感的评论重新分类,以提高主观评论的召回率,进而提高观点挖掘的应用价值。实现结果表明,根据基于词典和基于SVM分类相结合的方法取得的分类效果,比仅利用前者F值可以有较大的提高,能满足基于特征观点挖掘的实际应用的需求。