【摘 要】
:
随着互联网应用的不断发展,网络购物逐渐成为一种消费潮流。在线评论作为网络购物的重要组成部分,为网购用户做出购买决策及制造商改善产品提供重要依据。由于在线评论的好坏
论文部分内容阅读
随着互联网应用的不断发展,网络购物逐渐成为一种消费潮流。在线评论作为网络购物的重要组成部分,为网购用户做出购买决策及制造商改善产品提供重要依据。由于在线评论的好坏能够直接影响产品的销售,互联网上出现大量误导网购用户的且具有恶意目的的垃圾评论,因此实现在线垃圾评论的自动化检测成为大家关注的焦点。国外学者最早开展了基于英文的在线垃圾评论自动化检测研究,但语言的差异性导致相关的研究成果难以应用于中文在线垃圾评论自动化检测。为此,本文对中文垃圾评论的自动化检测展开研究,并提出了大数据环境下中文在线评论存储策略。论文的主要工作如下:1)构建中文在线评论资料库。本文定制了一款网络爬虫工具对互联网上的中文在线评论实现自动化抓取,并利用分布式文件系统HDFS来确保中文在线评论海量数据的可靠存储。2)中文垃圾评论检测模型的建立。本文将中文在线垃圾评论识别视为文本分类问题,并采用分类模型加以解决。为避免中文在线评论的差异性,本文仅基于文本内容构建包含九个特征的文本向量用于逻辑回归算法验证其是否为垃圾评论。3)评论主题相关度特征的获取。评论主题相关度用于量化中文在线评论与评论主题之间的相关程度。本文基于关联规则提出了评论主题词模式优化中文分词系统的主题词识别,并利用混合语言模型获取评论主题相关度特征。最后,本文采用《速度与激情6》的在线影评对该模型进行验证,实验结果表明该模型在中文在线垃圾评论自动化检测中能够很好地提高检测准确率。
其他文献
互联网的出现极大地丰富了人们的信息来源。然而由于缺乏统一的组织和管理,人们在浩瀚的信息海洋中却难以找到所需信息。当前各种信息服务技术,如搜索引擎、基于Web Service的
随着网络技术、嵌入式技术和音视频编码技术的不断发展,嵌入式网络视频监控系统已成为视频监控的发展方向。IPv6的出现解决了IP地址资源短缺问题,提高数据网络传输的速度和质
随着经济全球化发展进程的突飞猛进,集团型企业越来越多。这些集团型企业在日常的经营过程中需要将分布在不同地域的成员企业的信息集成起来进行统一决策,而各个成员企业本身
本论文以互联网、流媒体和嵌入式应用这三种技术的结合为背景,在研究这三者基本原理和特点的基础上,提出了嵌入式流媒体系统解决方案。论文首先概述性地介绍了流媒体背景知识
近些年来,随着计算机性能的快速发展和学者们不断的探索与发现,国际上对视觉跟踪技术研究也日益加深,使得视觉跟踪技术成为目前计算机领域中最热门的课题之一。均值漂移(Mean Sh
随着计算机网络的普及,网络安全问题越来越受到人们的重视。单纯的防火墙技术,一定程度上确实起到了网络安全防护作用,但还不足以满足用户的各种需求。因此入侵检测系统应运
随着网络技术和计算机技术的发展,传统的企业运作方式和组织结构已经难以满足现代企业信息化的要求。工作流技术的出现为解决复杂的业务流程提供了一种有效的技术方案,目前已引
随着XML在web应用领域的发展,造成XML文档数量增长异常迅速,有效地存储、查询和索引这些XML数据已经成为web发展的关键问题。目前大部分商业数据库采取的手段,是在现有的数据
快速精确地首次治疗对创伤的治愈有着积极的影响。通过对创伤程度的评估,医护人员将按照合理药量对病人进行输液治疗。特别是对于大量面积的烧伤患者,休克期的准确补液对维护生
复杂网络研究正渗透到数理学科、生命学科和工程学科等众多不同的领域,对复杂网络的研究已成为网络时代科学研究的一个极其重要的挑战性课题。近年来随着计算机技术的快速发