论文部分内容阅读
随着电商平台成为人们日常生活的一部分,商家越来越希望了解用户的需求和关注点以提升服务质量;用户也迫切想知道待购商品的特征属性及其性能表现以购买到满意的产品。电商网站中越来越多的用户评论数据为解决该问题提供了新的思路。在此背景下,本文应用自然语言处理、数据挖掘、计算机编程等理论和技术,开展了面向网络评论的细粒度意见挖掘研究,以获取以往用户的关注点、商品的特征属性评价等细粒度意见数据,为网站经营者和用户提供了有价值的决策参考信息。本文主要针对网络评论的意见内容提取与意见情感倾向挖掘问题进行了深入研究。与一般意见内容挖掘不同,本文提出了对单条评论文本的意见态度词和商品特征词进行同步提取的方法。在此基础上,构建了商品特征词与意见态度词组成的词对集合,实现了利用该词对集合对有效评论的筛选和意见情感的分析挖掘,取得了一定的成果。最后,将研究成果与实际项目结合,开发完成了一类用于电商环境的网络评论细粒度意见挖掘系统。论文的主要研究工作及创新点包括:1.结合网络评论文本的特点及其分析挖掘的具体要求,给出了面向网络评论的细粒度意见挖掘工作的详细流程。深入研究了本文涉及的主要理论知识,包括自然语言处理、文本特征选择、意见情感倾向挖掘等。2.研究了评论文本的意见内容提取方法。提出了对单条评论文本的意见态度词和商品特征词进行细粒度层次的同步提取的方法。通过设计一种半自主的领域情感词典构建方法,提高了意见态度词提取的准确度。提出一种带窗口约束的LDA主题模型,利用意见态度词的位置信息提高对商品特征词提取的准确度,并保证了商品特征词与意见态度词的同步配对。3.对细粒度意见情感挖掘问题进行了建模分析,将其转化为一类多输入单输出的分类决策问题。提出了基于词袋的用户评论文本向量化方法,同时利用DFTF改进算法实现向量降维。针对转化后的问题维数较高且数据稀疏的特点,提出了利用SVM算法实现评论意见情感的评价。通过对模型的验证实验与结果分析,表明SVM算法有较高的预测正确率,取得了满意的结果。4.开发并实现了一类面向网络评论的细粒度意见挖掘系统。给出了系统总体框架与运行流程,探讨了基于MongoDB的数据存储设计。详细介绍了评论收集程序、意见内容提取与挖掘程序、结果可视化展示程序的开发与实现过程,给出了它们的关键技术和最终的程序界面。系统的成功开发与实际运行,充分说明了本文方法的正确性和有效性。