基于层次化AP聚类的商品评论数据标签化

来源 :五邑大学 | 被引量 : 3次 | 上传用户:gwj19861113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量的研究及调查结果显示,在网络购物虚拟环境下,在线评论是消费者做出购买决策的最主要因素,此外,在线评论作为反馈数据也能帮助企业提升产品以及了解用户需求。然而,评论数据量的飞速增长,加上评论数据本身具有不规范性、冗余性的特征,使得有用数据评论信息难以获取。因此,迫切需要一种能够高效准确地提取评论数据中有效信息的技术。针对评论数据的不规范性问题,本文采用特征信息抽取技术将评论数据抽取为统一的特征信息模版。针对评论数据的冗余性问题,本文通过构建词聚类模型的方式,达到将噪音信息过滤并且高度概括有用信息特征的目的。最终旨在为企业和消费者提供一个方便、直观针地获取有用评论信息的工具。本文将评论数据标签化的目标分解为两个主要处理逻辑,分别是特征信息的抽取、基于特征信息的词聚类及标签化。针对特征信息的抽取,本文首先定义了特征信息的内涵,将<属性值,评价值>的模版作为后续处理逻辑中特征信息的抽取格式。特征信息的抽取模型由属性值抽取子模型和词性及依存句法模版抽取子模型构成。其中,属性值抽取子模型将词语的词性和隐含语义特征作为重点处理对象,词性的筛选过滤和权重赋值结合语料中的词频统计规律及人工经验数据完成;隐含语义特征的实现结合词云及种子词典完成;词性和隐含语义特征这两个参变量的权值分配根据不同情况下的筛选结果与预设模版的匹配率进行调整,最终得到最优的权重分配。词性及依存句法模版抽取子模型主要借助LTP语义分析器,将由属性值抽取子模型得到的属性值作为输入参数,统计所有和属性值有一级关系词语的词性及依存语法关系,根据预设的阈值,筛选得到最终的词性及依存句法模版。最后,基于上述构建的特征信息抽取模型完成了特征信息抽取的具体算法。针对基于特征信息的词聚类及标签化,本文在分析典型聚类算法的适用性及优劣势的基础上,提出了一种基于层次化AP的聚类模型,此聚类模型的第一层为K-means聚类模型,第二层为AP聚类模型,最后是聚类结果的回溯及标签化。本文以一号店的商品评论数据作为训练及测评语料。对特征信息抽取模块中提出的所有模型及算法完成了实现并进行了数据测试。对基于特征信息的词聚类及标签化模块中的聚类模型完成了实现,并在不同测试数据量的情况下将其和典型的词聚类模型进行了对比实验,以国际通用的准确率、召回率、F值作为测评指标,最终的测评结果显示,本文提出的基于层次化的AP聚类模型不仅在各项评价指标方面具有优势,而且在数据量增加的情况下有其他聚类模型所缺乏的良好的稳定性。
其他文献
<正> 过氧化酶染色是最常用的细胞化学染色之一,现已成为 FAB 和 MIC 的白血病分型诊断必不可少的方法。目前,国内有关过氧化酶染色的方法较多,但普遍存在着酶定位差,容易扩
为了实现变电站一次设备的智能化,研究了智能变电站过程层中的智能终端,并研制了一种数字智能终端系统的前端——智能控制单元。该智能控制单元设计采用嵌入式处理器ARM9(S3C
<正>重症急性胰腺炎(severe acute pancreatitis,SAP)是一种起病急、病情重、并发症多、死亡率极高的临床危重急症,可在短时间内迅速损伤人体多个重要器官。尽管近年来随着对
会议
人和人之间交流主要应用的就是语言,在临床中,护士与患者进行交流也主要是靠语言,在目前对患者实施的心理护理中,护士主要通过语言去开导患者,由此可见,语言在护患沟通中所起
基于节能减噪对当代社会发展的重要性,在对涡旋压缩机发展优势进行较为深入分析的基础上,着重探讨了几个有关涡旋压缩机发展的关键技术,这对于降低家用电器的能源消耗、促进
来自权威部门的消息表明,我国近期将有望加入WTO,这就意味着,我国为之奋斗十几载、历尽艰辛的谈判终成现实.
随着科学技术的飞速发展和人们生活水平的不断提高,当前人们逐渐对环境污染问题重视起来,众所周知,水资源保护和水资源管理是当前整体环境保护工作中的重要组成部分和重点操作环
该文从包含nothing的两个比较结构的异同入手,讨论了nothing一词的语义和句法特征,同时分析了比较句式的信息结构。研究揭示了两种类型的比较句在深层结构上是不同的,此外,研
由于其相对低廉的价格,对其他金属的消费替代使得铝金属的应用领域不断扩大,铝的未来消费量将继续保持高速增长。铝的需求依然旺盛是铝价保持坚挺的最基本因素,2007年航空市
期刊
目的 探讨生大黄治疗重症急性胰腺炎的临床疗效。方法 重症急性胰腺炎患者63例,随机分成两组,对照组31例患者采取常规治疗方案,治疗组32例患者在常规治疗方案的基础上给予生