论文部分内容阅读
近年来,随着电子商务的发展和网站用户数量的增长,用户评价信息进入爆炸性增长阶段。电子商务网站的用户评价信息一方面是潜在用户做出购买决策前的重要依据,另一方面也是厂商进行产品改良的重要参考。而对于规模庞大的用户评价信息,仅以人工阅读的方式很难从中获取有价值的信息。因此,对电子商务网站的用户评价信息进行自动处理并产生有效的结果,具有重要的应用价值和研究价值。用户评价信息分析包括从用户评论中挖掘特征词、挖掘观点词、倾向性分析等方面。目前研究者们已经提出了不少有用的用户评价分析方法,但在特征观点对识别方面仍存在特征词与观点词的搭配关系不准确、未考虑隐式特征观点对的特征词预测等问题,在倾向性分析方面情感词典的构建及极性判断规则的设计还需继续完善。本文的工作主要包括以下三个方面:(1)利用POS规则匹配的方法从用户评价文本中提取特征观点对。首先从大量训练评论文本中使用扩展匹配的方法挑选有效POS规则,然后利用有效POS规则在测试评论文本中提取特征观点对,并给出三种修剪方法来删除无效的特征观点对。(2)基于TF-IDF方法来预测隐式特征观点对的潜在特征词。缺省特征词的观点句普遍存在于用户评论中,而现有的研究集中于显式特征词的提取,本文以完整的特征观点对集合为基础,尝试使用TF-IDF的方法为隐式特征观点对预测可能的特征词。(3)基于扩展的情感词典来对评价单元进行倾向性分析。通过对中文评价信息进行分析,发现除否定词外,部分副词、带极性的特征词都会对相对情感词的极性产生影响,综合考虑上述因素,制定了一些极性判断规则,并通过添加网络词、领域词来扩充情感词典,基于扩展的情感词典及极性判断规则进行倾向性分析。本文以手机产品的用户评论为测试数据,首先抽取有效POS规则集合,然后使用本文设计的方法进行了特征观点对抽取和倾向性分析的实验。实验结果表明本文提出的方法是可行有效的。