论文部分内容阅读
大量的研究及调查结果显示,在网络购物虚拟环境下,在线评论是消费者做出购买决策的最主要因素,此外,在线评论作为反馈数据也能帮助企业提升产品以及了解用户需求。然而,评论数据量的飞速增长,加上评论数据本身具有不规范性、冗余性的特征,使得有用数据评论信息难以获取。因此,迫切需要一种能够高效准确地提取评论数据中有效信息的技术。针对评论数据的不规范性问题,本文采用特征信息抽取技术将评论数据抽取为统一的特征信息模版。针对评论数据的冗余性问题,本文通过构建词聚类模型的方式,达到将噪音信息过滤并且高度概括有用信息特征的目的。最终旨在为企业和消费者提供一个方便、直观针地获取有用评论信息的工具。本文将评论数据标签化的目标分解为两个主要处理逻辑,分别是特征信息的抽取、基于特征信息的词聚类及标签化。针对特征信息的抽取,本文首先定义了特征信息的内涵,将<属性值,评价值>的模版作为后续处理逻辑中特征信息的抽取格式。特征信息的抽取模型由属性值抽取子模型和词性及依存句法模版抽取子模型构成。其中,属性值抽取子模型将词语的词性和隐含语义特征作为重点处理对象,词性的筛选过滤和权重赋值结合语料中的词频统计规律及人工经验数据完成;隐含语义特征的实现结合词云及种子词典完成;词性和隐含语义特征这两个参变量的权值分配根据不同情况下的筛选结果与预设模版的匹配率进行调整,最终得到最优的权重分配。词性及依存句法模版抽取子模型主要借助LTP语义分析器,将由属性值抽取子模型得到的属性值作为输入参数,统计所有和属性值有一级关系词语的词性及依存语法关系,根据预设的阈值,筛选得到最终的词性及依存句法模版。最后,基于上述构建的特征信息抽取模型完成了特征信息抽取的具体算法。针对基于特征信息的词聚类及标签化,本文在分析典型聚类算法的适用性及优劣势的基础上,提出了一种基于层次化AP的聚类模型,此聚类模型的第一层为K-means聚类模型,第二层为AP聚类模型,最后是聚类结果的回溯及标签化。本文以一号店的商品评论数据作为训练及测评语料。对特征信息抽取模块中提出的所有模型及算法完成了实现并进行了数据测试。对基于特征信息的词聚类及标签化模块中的聚类模型完成了实现,并在不同测试数据量的情况下将其和典型的词聚类模型进行了对比实验,以国际通用的准确率、召回率、F值作为测评指标,最终的测评结果显示,本文提出的基于层次化的AP聚类模型不仅在各项评价指标方面具有优势,而且在数据量增加的情况下有其他聚类模型所缺乏的良好的稳定性。