论文部分内容阅读
随着互联网的迅速发展,网络口碑的传播越来越迅速,消费者在网络上可以自由发表对各大电商平台上产品的看法,表达自己的意见和想法。而客户评论信息是网络口碑传播的一种重要方式,越来越多的客户也正通过用户在线评论信息来了解产品和服务的口碑,以便做出购买决策。同时用户在线评论也正作为一种反馈机制帮助生产者和销售者来提升自身产品功能属性,改进用户较为关注的特征来提高产品在市场上的竞争力。然而,在网络信息过载条件下,使得信息内容越来越复杂,消费者很难从众多产品评论信息中获取对自己有用的知识并加以利用,因此迫切需要借助一定的技术手段来使这一过程变得简单。目前以有效获取评论信息中的有用信息为目的的数据挖掘技术被国内外研究学者所关注,同时也作为一个复杂的任务正面临着极大的挑战。评论挖掘主要分为特征挖掘、聚类、分类、情感分析等内容,处于一个新兴领域。本文是基于用户在线评论信息的特征挖掘研究作为主要内容进行分析探讨,以手机评论为例,提取评论信息中用户比较关注的特征为最终目的开展研究。
本文在已有的研究基础和相关技术基础上,结合中文产品评论特征抽取过程中噪声及特征词权重问题做出相关优化及提取方法创新。
主要工作为以下几点:
1、通过网络口碑概念,表明其重要表现形式之一——文本评论数据对消费者及生产厂商的重要性,构建用户在线评论挖掘理论总体框架,其中包含行为导向和挖掘技术导向两个板块,方便研究学者在更短时间内明确本文研究的意义所在,并且在脑海形成初步挖掘框架。
2、阐述评论挖掘与特征挖掘的潜在关系,并且从管理角度分析基于用户在线评论的商品挖掘的意义以及对消费者、生产厂商及销售平台的影响。
3、对目前已有特征挖掘领域相关文献研究进行分析,在候选产品特征形成阶段,运用特征提取方法进行候选特征词抽取带来的噪声较大,以至导致后面流程提取出的特征准确性不佳。本文研究通过对几种传统的特征提取方法进行实验及理论分析,提出一种新的方法,即在特征预抽取阶段采用方差分析及TF-IDF算法进行特征集合取交操作,选取最优阈值形成预选特征集合。
4、在第三点基础上,本文研究考虑到有些特征词虽出现频次较低,但信息量很大。基于此,再着重从特征词权重角度出发,首次在文本挖掘领域引入基于矩阵与权重的Apriori算法进行最优特征提取,并且该方法在其本身性能指标上也可避免传统Apriori算法对数据库的重复扫描问题,效率相比传统Apriori算法更佳。
通过最后实验结果分析,本文提出的特征挖掘方法能够有效的挖掘中文产品评论中用户关注的特征,为企业提供参考依据,有利于企业了解用户关注偏好,并在这些属性基础上进行开发改进。
本文在已有的研究基础和相关技术基础上,结合中文产品评论特征抽取过程中噪声及特征词权重问题做出相关优化及提取方法创新。
主要工作为以下几点:
1、通过网络口碑概念,表明其重要表现形式之一——文本评论数据对消费者及生产厂商的重要性,构建用户在线评论挖掘理论总体框架,其中包含行为导向和挖掘技术导向两个板块,方便研究学者在更短时间内明确本文研究的意义所在,并且在脑海形成初步挖掘框架。
2、阐述评论挖掘与特征挖掘的潜在关系,并且从管理角度分析基于用户在线评论的商品挖掘的意义以及对消费者、生产厂商及销售平台的影响。
3、对目前已有特征挖掘领域相关文献研究进行分析,在候选产品特征形成阶段,运用特征提取方法进行候选特征词抽取带来的噪声较大,以至导致后面流程提取出的特征准确性不佳。本文研究通过对几种传统的特征提取方法进行实验及理论分析,提出一种新的方法,即在特征预抽取阶段采用方差分析及TF-IDF算法进行特征集合取交操作,选取最优阈值形成预选特征集合。
4、在第三点基础上,本文研究考虑到有些特征词虽出现频次较低,但信息量很大。基于此,再着重从特征词权重角度出发,首次在文本挖掘领域引入基于矩阵与权重的Apriori算法进行最优特征提取,并且该方法在其本身性能指标上也可避免传统Apriori算法对数据库的重复扫描问题,效率相比传统Apriori算法更佳。
通过最后实验结果分析,本文提出的特征挖掘方法能够有效的挖掘中文产品评论中用户关注的特征,为企业提供参考依据,有利于企业了解用户关注偏好,并在这些属性基础上进行开发改进。