论文部分内容阅读
随着移动互联网的快速发展,我们逐渐步入大数据时代,越来越多的人可以将自己的观点、心情等信息发布到网络平台中。评论中蕴含有很大的信息量,商品评论可以分析得出评论者对商品的购买表示值得还是不值得;视频的评论可以反映观看者对于视频的态度或者情感表达;博文的评论可以反映评论者对博文的观点以及对博主的情感表达。通过分析评论,可以了解目标产品的市场情况、舆论热点的形成过程、人们的消费习惯等信息,对个人、企业或政府都具有重要的理论意义和现实意义。本文提出了基于中文词汇相似度的有效评论的提取方法。由于评论与报纸、杂志等媒体不同,属于短文本,语法不严谨,并且使用网络用语、口语、不规则用语等特点,使得评论中的信息变得很复杂。为了能更精确地提取评论中的信息,我们需要对其进行预处理,对评论进行正确分类。我们将评论分为有效评论、情感评论、垃圾评论三类:1)使用规则简单地过滤垃圾评论;2)基于HowNet的中文词语相关性计算评论的空间向量来自适应识别有效评论;3)采用统计学习方法计算评论在正面空间和反面空间的语义倾向性,从而实现对评论的褒贬倾向性判断。本文提出了基于LDA的新闻评论的话题挖掘。评论话题挖掘的一个巨大挑战是每一条评论都由不同的人发表,每条评论比较简短、信息量较少,错别字、网络词汇使用较多,所有评论包含话题信息广泛。每一条评论包含评论者从某一个角度对事件的一个态度,和其他评论没有相关性,因此可以看作一篇简短的文档。但是评论又围绕事件做出描述,可以将所有评论进行主题聚类,使用户可以轻松方便地知道其他用户关注事件的各个方面。我们使用基于LDA主题模型生成事件评论中的主题,并使用维基百科概念表示评论中的特征词形成评论的空间向量,对其进行k中心点聚类,生成主题簇并展示评论。本文从文本评论中信息挖掘的紧迫性入手,分析评论的语言特性进行垃圾评论过滤,研究短评论的文本相似度,并对有效评论进行话题聚类,挖掘评论中蕴含的有趣知识,阐述了本课题研究的必要性和合理性。