产品评论挖掘关键技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xiaoming198877
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户购买和使用产品后会通过Web发布对产品特征、功能和性能等方面进行评价的产品评论。对蕴含丰富信息产品评论进行分析,不仅可以帮助用户购买合适的产品,也可以帮助生产商和销售商改进产品。Web中存在海量产品评论,且大多用自然语言描述,人工阅读方式从中获取信息是非常艰苦工作,因此产品评论自动挖掘就变得越来越重要。   目前产品评论挖掘已引起广泛重视,并已有一些实验系统。本文对产品评论挖掘中的需改进环节和尚未涉及环节所需的关键技术进行研究,包括产品评论自动过滤、产品特征自动抽取和用户希望挖掘。   本文取得的主要成果和创新工作概括如下:   ①提出了基于Co-training的产品评论自动过滤算法。产品评论发布过程缺乏审核和校对,大部分产品评论质量较低,对产品评论挖掘的后续工作造成不良影响。本文将产品评论自动过滤看作分类过程,并将文本内容作为度量产品评论质量地关键因素。为避免人工构建大规模标注语料,本文采用Co-training算法,将分类特征分解为相关性特征和主观性特征,分别从小规模人工标注产品评论语料训练相关性分类器和主观性分类器,利用两个分类器对大量未标注的产品评论进行分类,从中选择高准确率的产品评论加入标注集合,该过程不断迭代,最终获得高质量产品评论。   ②提出了基于Bootstrapping的产品特征自动抽取算法和基于Co-training的产品特征自动抽取算法。产品特征是指产品的功能、性能、部件或属性,是用户情感表达的对象。作为产品评论挖掘的第一步,产品特征的质量决定最终挖掘效果。基于Bootstrapping的产品特征自动抽取算法仅需要少量产品特征构成种子集合,首先从这些产品特征出现的语句中抽取文本模式,然后用文本模式抽取新的产品特征并更新种子集合,该过程不断迭代,直到没有抽取到新的产品特征为止。迭代过程中若有错误的产品特征加入种子集合,会导致算法性能急剧下降,因此采用基于Co-training的产品特征自动抽取算法提高性能。基于Co-training产品特征自动抽取算法的需要两个种子集合:产品特征种子集合和普通名词种子集合,首先分别利用这两个种子集合构建标注语料训练产品特征分类器和普通名词分类器,然后利用这两个分类器对未标注名词进行分类好对分类结果相互验证,从而对产品特征种子集合和普通名词种子集合进行扩充,该过程同样不断迭代,直到对产品特征种子集合没有更新为止。   ③提出了基于类序列模式挖掘和Na(i)ve Bayes分类算法的希望语句确定算法和基于序列规则挖掘算法、KNN聚类算法和启发式规则的希望关系挖掘算法。产品评论挖掘着重研究与产品特征相关的用户情感,抛弃了产品评论中的非情感信息,如用户希望。用户希望是用户内在思想的表示,对生产商和销售商更显珍贵。本文将用户希望挖掘分为两个阶段:希望语句确定和希望关系挖掘。第一阶段首先通过人工定义希望关键字发现候选希望语句,然后对候选希望语句进行人工标注并从候选希望语句中抽取类序列模式,最后以类序列模式作为特征训练Na(i)veBayesian分类器,该分类器用于判定候选希望语句是否是真实希望语句。第二阶段将希望关系挖掘包含两部分内容:用户希望类型和用户希望实体。用户希望类型包括:用户对产品的改进建议和用户对产品的购买意图。用户希望的实体是用户希望的直接对象。本文设计了基于文本序列模式的中心词语聚类算法以确定希望关系中的用户希望类型和用户希望实体。该算法首先从产品评论语句中抽取以目标词汇为中心的序列模式,然后以序列模式为特征对所有的目标词汇进行聚类,最后根据启发式规则确定每个目标词汇集合的属性。分别将评论语句中的名词和动词作为目标词汇进行聚类,希望语句中的名词聚类为三类,动词聚类为两类,并采用启发式规则识别动词集合和名词集合的类型。对于三类名词集合,由于产品名称容易从Web获取,可首先确定产品名称集合,又由于产品名称和产品特征之间存在“整体-部分(part-of)”关系,因此利用表示“part-of”关系的文本模式确定产品特征集合。对于两类动词集合,用户希望的类型通过希望语句中的动词进行确定,表示用户对产品的改进建议的希望应该与具体的产品特征相关,而表示用户对产品的购买意图的希望应该与产品的品牌或产品名称相关,因此通过分析两个动词集合中词语分别与产品特征集合和产品名称集合中元素的共现关系以确定希望的类型。
其他文献
[摘 要] 数学专业高师生承载着中小学教师培养的传承,是中小学数学课程改革执行的将来式中坚,基于数学新课改中对数学应用意识的强调,提出对高师生此方面发展的策略途径:通过数学文化课的建设;针对中小学数学知识的应用开展课程。以其用数学文化的丰富意蕴作为长线嵌入学生心灵深处,用中小学数学知识的应用案例释疑解惑作为短线激发学生的数学向往。  [关键词] 高师生数学应用意识数学文化;基础数学知识应用;发展研
地处天津市城区中心的和平区,是闻名全国的精神文明建设先进单位,其教育也独树一帜,涌现了一批名校、名师。近年来,该区进一步加强学校党建工作,成立教育党校,定期举办书记研
针对水表管理,提出一种全新的摄像式远传水表管理系统,对其原理、架构、组成与原理及测试等设计和开发进行深入分析,为这一系统的广泛应用和进一步改进提供可靠的参考借鉴.
[摘 要] 通过观察学生在金工实训中的不同表现,将实习过程划分为三个阶段,根据卓越计划“以行业企业需求为导向”培养模式的要求,将机械专业学生所需基本知识与操作技能分配在不同阶段中,分阶段开展实训教学,教学内容层次渐进,满足了不同阶段学生的心理需求,逐步培养学生掌握基础知识、综合知识应用与实践创新的能力。为提高学生实训积极性,开发了可验证、可竞技、难度系数较大的实习项目。分阶段金工实训的教学内容实践
作为决策支持工具中的优秀代表,信任声誉系统旨在解决不确定环境中安全问题。近年来,由于在电子商业社区中的成功应用,信任声誉系统得到来越来越多的关注。现有的信任声誉系统大
现代工程测量下测绘技术类型逐渐增多,特别是数字化、信息化发展下数字测绘技术、3S测绘等方面取得了不错的成绩.下面文章就对测绘技术在现代工程测量中的应用展开探讨.
在新时期科学技术不断发展的情况下,修井井口机械自动化技术也取得了巨大的进步,悬吊系统、卸扣系统与送管机构是修井井口机械的重要组成部分,要想顺利完成修井井口机械的操
目的分析深圳市腹泻患者札如病毒(sapovirus,SaV)的感染特征。方法收集2016年1月至12月深圳市疑似病毒性腹泻患者粪便标本838份,采用RT-PCR法检测粪便中的SaV核酸,将阳性PCR扩增产物测序并进行进化分析,同时分析病例的流行病学特征。结果2016年,深圳市SaV的检出率为1.07%(9/838),男性检出率为1.68%(8/477),女性检出率为0.55%(1/361),不同性
近年来,随着我国在科技领域的投入不断家加大,科技力量迅速增强,具体表现在通信工程领域,就是传输技术的范围扩张迅速,与此同时,通信的用户对于传输技术的要求也在不断的攀升
[摘 要] ESP在各高校的迅猛开展与师资队伍的缓慢建设形成一大矛盾。作为新晋参与ESP教学的教师,除了参加教师培训等外在途径进修之外,可以借助语料库这一有力的工具从知识、技能、态度以及悟觉意识四个方面实现对相关学科的常用词汇、语用结构等的把握,从而使自身的知识体系日渐完善。  [关键词] ESP教师;教师转型;语料库  [中图分类号] G642 [文献标志码] A [文章编号] 1008-254