基于微博的网络舆情关键技术的研究与实现

被引量 : 25次 | 上传用户:goskatecomcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会的快节奏正日益改变着人们了解、观察世界和发表看法的方式,传统媒介所发挥的作用已经越来越小,新兴的方式正在萌发并日益壮大。微博适应了这种简单、快捷的生活潮流,正日益成为向网民展示世界和汇聚民意的重要渠道,并或多或少的改变着社会的运转方式。所以,整体了解微博的民意诉求显得至关重要,将为政府和企业决策提供宝贵的资料。目前,网络舆情的研究已经有成熟的技术,但基于微博的网络舆情研究才刚刚起步,微博具有短小精悍、草根性更强、交互方式多种多样和高时效性的特点,这些决定了原有舆情技术已经不能满足微博研究的需要了,对此需要做出改进和调整。本文结合微博的特点,着力解决舆情研究中的各个问题,使之适应微博网络舆情研究的需要。网络舆情的关键技术主要包括网络爬虫技术、网页结构化技术、分词技术以及分类聚类等文本处理技术。本文主要对这些技术做出改进,来适应微博的特点,最终发掘微博热点话题以及人们的情感倾向。当今网络爬虫技术业已成熟,网上也存在大量的免费爬虫系统。目前,互联网企业为了保证微博的正常访问,做了很多反爬虫措施,同时微博页面具有杂乱无章的特点,本文针对这些反爬虫措施,基于larbin爬虫系统,提出定时爬取和代理爬取,并对页面解析采用DOM树和投票算法。本文针对的是中文微博,所以将重点研究中文分词。中文分词技术主要有词典建立、歧义识别和新词识别三个方面。针对微博数据量大、杂、新词不断涌现的特点,本文提出使用基于单字索引的pat树分词词典,加快分词速度,并提出双字耦合和t-测试差相结合来解决歧义,使用搜狗词库来建立词典,涵盖大量新词汇。文本处理技术是网络舆情分析的关键,其中文本聚类和文本分类技术是主要技术。本文意在发现热点话题,提出包括特征提取、文本表示、文本聚类和观点挖掘的文本聚类模型,适应微博舆情研究的需要,最终抽取出热点话题。对此可以及时的了解民意以及网民所持有的情感倾向,便于政府和企业决策。
其他文献
《应用翻译研究:原理、策略与技巧》一书以应用翻译学科建设高度为旨归,从普遍的理论探讨和实践经验总结出发,建构了应用翻译理论体系。本书特色鲜明,结构纵横交错,纵向贯通,
通过测定雨生红球藻的细胞数量、A674值、培养液pH、藻粉干重、虾青素含量比较了雨生红球藻797株在5种不同培养基SM、BG-11、BBM、MCM、SE中的生长情况。结果表明:在5种培养
当代大学生,成长于一个日新月异的时代,他们在价值观念、生活方式、行为方式和心理特征等方面具有独特的群体个性。随着手机媒介技术的迅猛发展和手机媒介影响的迅速扩大,当
本文对任务型教学法的基本概念、理论、教学原则等方面进行了解读,探讨和分析了该教学法的理论价值和应用意义,并以课堂教学为基础,研究该教学法在高职英语课堂中的应用,希望
随着网络经济和电子商务的不断发展和壮大,以前传统的实体销售图书店往往因为投资成本高,费用大,图书库存种类又受场地和库房的限制,规模又上不去,已经深深地阻滞了图书销售行业的
文章对深圳市餐饮垃圾单独收运处置进行了规划研究,规划年限2006-2020年。通过对深圳市餐饮垃圾的产生、收运处置现状及存在的问题分析,提出了餐饮垃圾的收运模式以及采用厌
采用转相乳化法,以较低黏度的二甲基硅油进行为原料,Span—60和Tween—60为乳化剂,成功制得了硅油乳液,质量配比为硅油10%,Span—60和Tween—60各占2.5%,增稠剂C占2%,离心及
军队转业人员逐渐成为地方经济社会建设的一支重要力量,同时也是国防动员的骨干力量。但是,由于这部分人员的单位分散,个人的基本情况也经常发生变化,依靠传统的办法很难准确掌握
随着房地产业成为我国经济发展的支柱产业以来,各大房地产销售企业如雨后春笋般出现,而且各房产企业之间的竞争也在加剧。如何通过信息化手段,提升客户服务满意度、提高企业销售
近年来,随着我国经济的快速发展和人们生活水平的不断提高,人们对住宅的需求也不再仅限于小区的美观、质量,而是更多的注重小区内部的物业管理和服务的水平,这就要求小区内部物业