论文部分内容阅读
餐饮业作为市场规模巨大的传统主流产业也站在了变革的“风口”。据相关部门的统计资料,二零一四年,国内供应原材料领域超过了八千亿元人民币,而餐饮消费领域达到了三万亿元人民币,餐饮产业链上下游从业人员超过1亿人,餐饮产业已成为房地产、餐饮之后中国产业规模最大的产业。餐饮产业作为口碑影响极大的行业,客户的倾向褒贬色彩直接能够影响到实际的收入和其他客户的选择,因此对于餐饮行业的评价感情态度,不管是对用户还是对商家,其意义都极为深远:用户借助于分析相关的产品评价,从而更好地了解产品情况,让自身确定要不要购买时更加科学;另外,商家能够借助研究用户的实际评价,不断地提高产品质量,确立合理的经营战略,使得公司的经济利润大幅上升。然而,在网上进行评价其数目相当庞大,何况天天都会出现众多的新评论。虽说纷繁的信息能够给我们提供很大的方便;然而有时海量的信息,也给我们带来不小的麻烦。比方说,某用户想弄明白一个产品的使用状况抑或厂商想第一时间搞清市场市场销售现状及提高产品质量时,搜寻、筛选、剔除、整合此类信息,这一工作显得非常地复杂与耗费时日。本文将文本评论研究引入到餐饮新领域,利用餐饮行业情感文本,建立了一套适用于餐饮行业的知识库,找到了最适合餐饮行业评论文本的主题识别技术,并通过与机器学习的对比,完成提高中文评论意见挖掘准确性的句法分析方法。本文从第二章开始主要介绍意见挖掘研究综述、意见挖掘概念、网络新媒体概念、文本倾向性分析的内在含义以及分析的实质性任务内容,涵盖着主客观分类,观点持有者、评价主题、情感词语的抽取,还有倾向性识别,句子倾向性分析等方面,同时还介绍了观点挖掘、语料库建设的基本概念;第三章,主要是讲餐饮评论情感词典构建,包括了常用情感词典集、微博口语词典集、NTUSD词典、情感表情符号词典、网络常用语词典、网络热词词典、餐饮评价情感词典等方面;在第四章主要是基于CRF模型的餐饮领域评价主题识别,通过CRF模型,来找到适合该模型的有效特征,然后根据样本的数据,完成实际餐饮评价的主题识别实验并验证CRF模型的准确性和可行性;最后,主要做餐饮评论意见倾向性分析,首先对餐饮评论作样本分析,根据样本分析的结果,以及模型特征的分析,来构建餐饮评论情感词汇集,再根据情感词汇集,完成餐饮评价主题的倾向性分析,并通过对餐饮服务行业的中文评论倾向性研究,获得一种针对餐饮服务细分的倾向性的有效分类方法,并构建了一个餐饮评价本体知识库,用比较策略完成餐饮服务的评价情感倾向性算法。本文在第六章将前面的实验模型进行模块化封装,实现系统化计算和展示,通过可行性研究,希望可以不断优化和完善,逐步应用并实现越来越大的价值。