中文微博数据净化与情感倾向分析技术的研究与实现

被引量 : 0次 | 上传用户:zhoufei123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博客(即微博,Microblog)作为一种新的传播载体,已经迅速进入了人们的生活,其中包含了大量针对人物、事件、产品等有价值的评论信息,表达了人们的各种情感倾向,因而在网络舆情发起和传播中起着重要作用。本文针对中文微博的特点,研究数据净化及情感倾向分析技术和相关问题。首先,针对微博的噪音和近似重复问题,研究微博数据的净化方法。近来噪音微博和近似重复微博迅猛蔓延到微博空间的各个角落,这类微博的存在严重影响到了信息检索的准确性,大大降低了分析的可信性。基于此,本文根据统计数据,分析了噪音微博和近似重复微博的特点,提出一种面向微博文本的噪音检测与近似重复内容过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过构建向量空间模型的分段过滤和基于缓冲池的内容索引过滤的双重过滤,检测和剔除掉近似重复的微博。实验表明该方法能有效地对微博数据进行净化,高效准确地过滤掉近似重复微博和噪音微博,提高了微博数据处理的质量和效率。其次,针对微博的直抒性特点,研究微博的情感倾向分析方法。“直抒性”即微博用户习惯利用表情符号、感叹词和程度副词等来“直抒己见”。目前对于中文微博的情感分析,虽然面向短文本的、基于情感词典等其他各种情感分析方法可以应用于此,但这些方法中较少针对微博内容表达特点,主要表现在缺乏微博相关领域情感词典、修饰词词典以及对应的相关处理等。因此,本文分析了现有情感词典和知识库内容对于微博情感分析的不足,利用微博表情符号自动构建一个面向微博的、新的带权值的情感词典,同时构建了包含各种修饰词的辅助词典,进而提出了基于这种新情感词典、并结合其他修饰词典的中文微博情感倾向分析算法。实验结果表明,本文构建的带权值的新型情感词典包含了大部分微博常见情感词,并且可以获得微博的精确情感倾向程度。同时实验证明了基于该词典的微博情感倾向分析方法具有良好的准确率、召回率和F值。最后,基于前述研究成果,设计并实现了一个原型系统。该系统集数据下载、结构解析、数据净化、情感分析、结果输出于一体,提供给了用户高质量的微博数据,直观地表现了情感分析的结果。用户通过下载和分析微博内容的情感倾向,能够了解社情民意,为进一步的网络舆情分析提供支持。
其他文献
歌唱是一个人在经过专业训练,或者是非专业训练后,通过自身的声带发生,发出优美动听的声音,来表达内心的情感和歌曲中的艺术。在歌唱时,歌者通过演唱中不断进行的深呼吸,而使
音乐在现当代社会,已愈来愈成为都市文化 的一个重要“看点”。这不仅因为“都市文明”中音乐的成分不可或缺,而且更因为自工业革命以来,音乐(特别是所谓的“专业艺术音乐”
期刊
Suzuki偶联反应具有环境友好,对水和多种有机官能团兼容性好,反应条件温和等优点,已经成为目前形成联芳结构的最重要的方法之一。自发现以来,Suzuki偶联反应的催化体系,亲电
首先提出《蒙娜丽莎》享誉世界的原因之一是《蒙娜丽莎》透视出来的"中和"之美,其次,从"中和"之美的形成与儒、道两家从不同角度对"中和"之美的理解阐述"中和"之美,然后分析
明代青楼文化是中国女性文化中极为重要的一环,它代表着我国女妓文化的最高峰,是我国悠久的女妓传统与乐籍制度的有机统一。女妓文化发源于上古时代的巫祭与酒人,代表着女妓
<正>非常高兴到齐鲁师范学院来,和大家一起探讨、交流关于本科教学工作合格评估的一些看法。齐鲁师范学院改制为普通本科院校之后,具备了办普通本科教育的资格,但这是否就意
VC/PE作为重要的融资方式在发达国家已经发展得较为成熟,对企业尤其是正在发展中的中小企业的成长起到了重大的作用。我国的VC/PE发展较晚,萌芽于20世纪80年代。但随着国民经
新疆属于干旱、半干旱地区,利用本地的资源,建造一个具有特色和文化气息的公园绿地,抓住核心元素才能体现景观韵味,这些元素包括文化元素、建筑小品元素、写意元素以及植物元素,并
表面热处理是对金属材料表面通过加热和冷却的方式改变其力学性能的热处理工艺。主要分为表面淬火和化学热处理两大类。作为一种典型的表面热处理工艺,激光加热表面淬火和气体
随着步入“十二五”时期,我国经济社会发展发生重大实质性变化,农村城市化进程不断加快,大量农业用地转为非农用地,与此伴随的是大量农民失去土地。然而由于我国征地制度改革