基于网络文本的评论挖掘分析

被引量 : 0次 | 上传用户:haohailinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网上信息与日剧增,蕴藏着巨大的信息量。在网络上,人们可以获取到相对以前更多的信息,在这些网络信息中,评论类型的信息占有十分巨大的比例。由网络本身特点所限,这些评论信息十分繁杂,大量有效信息与无效信息往往混杂在一起。人们想要在短时间内从针对诸如人物、事件、传媒、产品等的评价信息中获取有价值信息往往十分困难。因此针对评论信息的挖掘分析,有用信息提取已是一个日益重要的任务。在评论信息的挖掘分析,有用信息提取方面,本文主要关注于评论文本过滤以及对评论信息的主题属性提取与情感分析上。在评论文本过滤主要实现了对网路评论文本中的无用语的过滤,并通过分析评论文本与主题文本的相关度来过滤其中相关度较低的无关评论信息。在评论信息的主题提取方面则进行了对针对特定主题的评论集合中关注的主题属性词进行了识别,在感情分析方面则进行了针对具体每条评论以及整个评论集合在感情倾向性方面的判断。针对评论文本过滤,本研究先对中文文本利用成熟的分词工具进行了分词划分以及词性标识,结合无用语字典树实现了无用语的过滤,同时利用文本间距离分析实现了主题不相关文本的过滤。对于评论信息的主题提取,本研究在汉语文本的名词以及名词短语的挖掘基础上,利用针对中文的词性组合规律,结合文本训练集与中文伴生词匹配进行数据筛选,完成了对评论信息中关注的主题属性的挖掘分析。在评论感情倾向性分析步骤中,从底层至上层逐次进行分析,在最重要的感情极性词挖掘部分,利用一种基于极性词字典的无监督学习方式进行词汇扩容,实现了极性词的自动获取与定量评估,在此基础上,实现针对中文短句,中文评论以及整体评论集的感情倾向性分析。
其他文献
在一个企业中,领导者是必不可少的。领导者的责任是组织员工工作,达成顾客要求,最终实现企业目标。在这个过程中,领导者的影响力发挥着极大的作用。影响力的大小,与领导者本
本文对农村集体土地所有权确权登记数据库质量检查的内容进行了探讨。结合工作实践,重点介绍了利用ArcGIS对数据库拓扑关系、属性质量检查等关键项检查的方法和步骤。
批注式阅读是指读者在阅读过程中运用简洁的书面语言,把自己的所感所想、所思所疑以批语和注解的形式,在书上标记,是一种帮助学生理解和评论读物的读书方法。"注"是划、圈、点
近年来,整理课的重要价值已为越来越多的人意识到,一些中心、实验学校把整理课单独作为一门课程推出。但是很多人认为整理课不过是某些人深入新课程改革的一种标榜,只在形式
目的:观察口服西药配合穴位贴敷治疗老年女性膀胱颈梗阻的临床疗效。方法:将50例老年女性膀胱颈梗阻患者随机分为为观察组和对照组各25例,两组均口服盐酸坦洛新胶囊,每晚口服
装配活动是产品生产的重要环节,装配环节的质量对产品最终质量有着极大的影响。实施信息化软件能够帮助企业建立实时、有效的装配质量信息平台。本文主要研究了如何通过制造执
调度自动化系统是在线为各级调度员和电网运行监控人员提供电力系统运行信息、分析决策工具和控制手段的数据处理系统。电力调度自动化系统是电力系统的重要组成部分,是确保
随着中国社会经济的发展和现代化进程的推进,高等教育制度也经历了调整与发展,并在21世纪初步入了高等教育的大众化阶段。中国大陆高等教育的扩张带来教育机会总量的增长,教育覆
日本在进入二十世纪九十年代以后制造业的竞争优势逐渐减弱,进入了长达十年的低迷期。面对二十一世纪日益加剧的国际贸易摩擦、产业空洞化等问题,日本政府意识到只有开展基础性
对于企业风险管理(ERM)的关注近几年持续增长,不同于传统风险管理中不同风险类别被分别管理于风险“孤岛”中,ERM使企业能够在企业范围内的集成范式中管理广泛的风险。ERM模式下