基于K关联图的流分类算法及其在微博情感分析中的应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:likelikeme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息黄金时代的到来,人们越来越意识到数据的重要性,而从这些大量的数据中挖掘有用的信息也变得越来越困难。特别是微博的兴起,使得每天产生大量的微博文本数据,而这些微博文本较短,信息量较少,通常被称作短文本流。在这些短文本流中,蕴藏着大量意见资源。比如产品的评论,这些评论对于卖家和买家都很有价值;又如热点事件的评论,这些评论对于政府部门了解人民群众对某些事件的态度也很重要。因此,如何从短文本流中挖掘有用的知识是人们关心的问题,这些需求也促使着数据流挖掘成为近年来研究的热点和难点。本文在总结了一些成熟的数据流分类算法的基础之上,提出了一种基于K关联图的数据流分类算法(K-associated Graphs Based Classifier,KGBC),该算法首先把整个数据块表示成一张K关联图,通过K关联图能够表示数据实例之间的相似关系和子图的纯度。然后根据K关联图优化算法对数据块划分的结果去选择基础分类器中与当前待分类的数据块概念相似的基础分类器,最后对这些基础分类器进行集成,使用概念相似度作为基础分类器的权重对测试数据进行分类。该算法不用每当新的数据块来的时候重新训练分类器,从而节省时间。实验表明,KGBC算法具有较好的预测准确率。本文的另一项工作是短文本流中的情感分析。短文本流情感分析关键是如何判别文本消息的情感倾向性,而判别情感倾向性的首要条件是构建一个适合微博文本的情感词词典。因此,本文提出了一种基于依存句法的微博情感词抽取算法,根据微博情感词在依存句法中常出现的位置总结出一些模版,根据模版自动的识别网络上新的情感词。考虑到中文微博表达多元化的特点,本文采用微博文本中的情感词、词性、上下文关系和主题特征等作为情感分类的特征,通过实验对比KGBC算法和传统的情感分类算法,从而验证了KGBC算法在短文本流情感分类的有效性。
其他文献
随着新农保的慢慢普及,传统的人工登记与发放模式对领取养老金资格审核工作带来了极大难题,有限的工作人员难以完成繁杂的审核工作;同时,农村及偏远地区的参保人员资格审查难以
近年来,网络技术不断发展,数据规模成几何增长,通过数据挖掘技术对原始数据提取分析,获得了有价值的知识。然而数据的隐私问题引起了挖掘应用者的高度重视,尤其是在分布式环境下。
在经济快速发展,人民生活水平稳步提升的新时代,网购已经成为当下最为流行的购物方式。化妆品作为日常生活用品,其需求量日益提升。然而,关于网购出现假冒伪劣的化妆品事件不
信息社会中我们需要依赖于各种各样的计算机系统,为了保存各类信息,从个人到整个社会如何存储海量数据显得非常重要。但计算机系统在处理能力快速提高的同时,存储能力成为制约计
在普适计算环境下,信息空间(虚拟世界)与物理空间(现实世界)高度融合,在这个高度融合的空间中,人们可以随时随地、透明地获得数字化的服务。随着普适计算研究不断地深入,普适计算所面
分形理论在通信、现代医学、流体力学、纺织科学、工业设计、文化艺术、计算机科学等学科也得到广泛的应用。形式化方法是一种基于数学方法的规约,技术和验证系统的工具。它不
粒计算融合了粗糙集、模糊集、人工智能等多学科研究成果,是研究复杂问题、海量数据挖掘和不确定信息处理等的一种有效工具。近年来,粒计算理论被广泛应用于人工智能、数据挖
随着网络通信技术与多媒体技术的飞速发展,数字多媒体数据的非法复制、处理和传播变得越来越容易。这样使得多媒体数据内容的盗版和侵权问题日益严重。如何保护数字多媒体内容
在数据挖掘应用领域(如Web页面分类),收集大量未标记的实例已相当容易,而标记这些实例却需要耗费大量的人力物力。因此在有标记实例较少时,如何利用大量的未标记实例来改善学习性
随着信息技术的发展,计算机技术已经融入了现代社会各个领域,得到极其广泛的应用。然而在这样的背景下,计算机系统的异常可能会造成灾难性后果。  测试和仿真通常被用来保障这