基于网络评论的话题挖掘

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:junjian1127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,我们逐渐步入大数据时代,越来越多的人可以将自己的观点、心情等信息发布到网络平台中。评论中蕴含有很大的信息量,商品评论可以分析得出评论者对商品的购买表示值得还是不值得;视频的评论可以反映观看者对于视频的态度或者情感表达;博文的评论可以反映评论者对博文的观点以及对博主的情感表达。通过分析评论,可以了解目标产品的市场情况、舆论热点的形成过程、人们的消费习惯等信息,对个人、企业或政府都具有重要的理论意义和现实意义。本文提出了基于中文词汇相似度的有效评论的提取方法。由于评论与报纸、杂志等媒体不同,属于短文本,语法不严谨,并且使用网络用语、口语、不规则用语等特点,使得评论中的信息变得很复杂。为了能更精确地提取评论中的信息,我们需要对其进行预处理,对评论进行正确分类。我们将评论分为有效评论、情感评论、垃圾评论三类:1)使用规则简单地过滤垃圾评论;2)基于HowNet的中文词语相关性计算评论的空间向量来自适应识别有效评论;3)采用统计学习方法计算评论在正面空间和反面空间的语义倾向性,从而实现对评论的褒贬倾向性判断。本文提出了基于LDA的新闻评论的话题挖掘。评论话题挖掘的一个巨大挑战是每一条评论都由不同的人发表,每条评论比较简短、信息量较少,错别字、网络词汇使用较多,所有评论包含话题信息广泛。每一条评论包含评论者从某一个角度对事件的一个态度,和其他评论没有相关性,因此可以看作一篇简短的文档。但是评论又围绕事件做出描述,可以将所有评论进行主题聚类,使用户可以轻松方便地知道其他用户关注事件的各个方面。我们使用基于LDA主题模型生成事件评论中的主题,并使用维基百科概念表示评论中的特征词形成评论的空间向量,对其进行k中心点聚类,生成主题簇并展示评论。本文从文本评论中信息挖掘的紧迫性入手,分析评论的语言特性进行垃圾评论过滤,研究短评论的文本相似度,并对有效评论进行话题聚类,挖掘评论中蕴含的有趣知识,阐述了本课题研究的必要性和合理性。
其他文献
随着计算机网络的发展,计算环境中层出不穷的安全威胁使信息安全成为一个迫切需要解决的问题,可信计算使从根本上解决计算安全问题成为可能。TCG(Trusted Computing Group)规范指
软件即服务(SaaS, Software as a Service)和云计算的一种重要思想就将各种资源服务化,单实例多租户技术是其中的一项重要技术,它通过整合资源来为成百上千的不同租户提供服
由于交流感应电机调速控制技术的快速发展及其自身优点,交流感应电动机调速驱动系统已经广泛应用于各个领域,因此进一步完善和提高感应电机变频调速性能、降低系统复杂程度等具有非常广泛的实际应用价值。随着电力电子技术、微电子技术和现代数字控制理论的不断发展,通过高性能微处理器和先进软件算法实现高性能的磁场矢量控制算法,可使普通交流感应电机的控制性能接近直流电机调速系统。本文针对交流感应电动机矢量控制算法展开
真实对象的三维重建,是计算机虚拟现实领域重要的研究内容之一,其中三维形状重建和三维纹理重建是真实对象三维重建中的两大核心内容。三维扫描、模型配准、模型匹配等技术的
在资源日益紧缺、人力成本、空间使用成本日益攀升的今天,虚拟化已逐步迎来全面的复兴,并在当前数据中心中得到了广泛地使用。虚拟机平台,将服务器的资源通过抽象和虚拟化进行整
随着互联网技术和信息技术的不断发展,存储系统中的数据量不断增长并呈海量形式发展。传统的依赖本地服务器的存储已经无法满足日益增长的存储需求,因此大规模的基于分布式存储
近年来,视频监控系统在公共场所监控、智能交通、森林防火、水利监测、公安刑侦系统等领域得到越来越广泛的应用。随着电子技术、计算机网络和通信技术的发展,市场对视频监控产
随着计算机软硬件技术的发展,数字图像应用越来越广泛。然而,在图像采集、处理、传输和呈现的过程中,都可能引入各种失真。主观方法和传统客观方法由于自身的局限性,不能达到应用
随着传统互联网的发展和移动互联网的兴起,许多像微博、社交网络这样的内容提供商发展迅速。在互联网上,每天都有海量的文本、图像、视频数据需要处理,尤其对于图像数据,PB级别已
学位