论文部分内容阅读
过去十几年中,随着Internet技术应用的深化和扩展。越来越多的客户开始浏览大量的网络评论来了解产品和服务的口碑,帮助做出可靠的决策。同时网络客户评论作为反馈机制也帮助了生产者和销售商提升产品,改进服务从而获得竞争力。但是,随着电子商务的蓬勃发展,网络评论数量的飞速增长,使得信息内容越来越庞杂,造成了客户评论中有用信息难以获取的后果。因此,迫切需要借助一定的技术手段来使这一过程变得更为准确而便捷。目前,这一技术作为一个复杂的任务仍然面临着巨大的挑战。以有效获取网络用户评论信息为目标的非结构化数据分析技术——“评论挖掘”吸引了很多学者关注。评论挖掘作为非结构化信息挖掘的一个新兴领域,主要涉及情感分析,评论中产品特征挖掘,以及评论中主观内容识别等等。在英文评论领域,研究者已经初步取得一些成果,而针对中文网络用户评论的研究还仍处于起步阶段。随着中国电子商务在世界领域内的崛起,亟需对于中文评论中有用信息的自动提取技术。但是,由于中英文文化背景以及语言差异的存在,使得英文领域的研究成果不能直接应用于中文评论。本文将针对面向电子商务的中文网络客户评论,探索评论内容中产品特征提取及相关技术,旨在为中文领域内的客户和企业提供更为方便和科学的评论挖掘工具。本文首先将网络客户评论作为网络口碑中的一种,搭建了面向电子商务的中文客户评论挖掘理论框架;从产品特征挖掘的整体问题出发,提出了中文网络客户评论中产品特征挖掘DFM(数据-功能-方法)模型;从产品特征挖掘方法的研究细节出发,构建了产品特征挖掘方法研究框架。为了从中文客户评论中得到用户关心的产品特征,本研究通过对英文评论产品特征挖掘方法进行原理创新和技术拓展,基于关联规则理论,特别是Apriori算法得到频繁项集作为候选产品特征。然后结合独立支持度,邻近规则等剪枝原则对于结果进行筛选过滤,提出了中文网络客户评论中的产品特征挖掘方法;对于非频繁特征项的产品特征针对中文评论的情况采取了相应措施。本研究还在以上方法的基础上纠正了挖掘到的候选产品特征语序,以提高在中文评论中的挖掘性能。另外与PMI-IR方法即点互信息技术和信息存取技术相结合,将候选产品特征与产品的语义关联程度进行量化并且排序,过滤掉候选集合中关联程度比较低的结果,提高了挖掘产品特征算法的性能。并且通过对旅游目的地中文评论特点进行分析,修正了算法,目的为提高这一特殊产品的挖掘结果综合性能。为了结合情感分析技术和产品特征挖掘方法,研究了基于语义方法的中文情感分析中情感代表词的选择和优化,以及产品特征这一粒度级别的情感分析技术。最后实现了对于评论中产品特征及其情感倾向的综合信息挖掘,并且在结论中提供了根据产品特征出现频率以及其情感倾向情况的排名,使得用户所关心的挖掘结果更为显著。本研究通过互联网获得一些产品的评论语料,对所提出的所有算法都进行了数据实验,并且对一些算法和英文评论的相关技术进行了差异显著性检验,实验结果验证了提出方法的有效性。本文提出了一些新的算法解决了中文网络客户评论中的产品特征挖掘关键问题。这些技术的研究将有望帮助企业和客户在商务过程中更便捷地获取其他客户对相应产品或者服务的反馈信息。本文的创新性研究成果为中文评论挖掘方法在电子商务领域的应用开辟了更广阔的空间。