基于Web文本信息抽取的微博舆情分析

被引量 : 0次 | 上传用户:luye063006300630
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据中国互联网络信息中心(CNNIC)发布的统计数据,截止到2012年12月,中国微博用户总量已达3.09亿。微博所具有的裂变式传播模式、多元化传播终端、低门槛、高互动性等诸多优势,使其成为网络舆论的重要发源地。来自中国传媒大学网络舆情(口碑)研究所2011年7月发布的舆情指数显示,微博已成为仅次于新闻媒体报道的中国第二大舆情源头,在舆论导向中正在扮演着越来越重要的角色。如何及时获取微博舆情信息,了解舆情现状,预测舆情走势,从而因势利导、趋利除弊,已经成为舆情研究的一个重要的新课题。论文从这一背景出发,研究了利用Web信息抽取技术处理微博数据、进行舆情分析的方法。首先针对微博文本的特点,利用Heritrix主题网络爬虫采集微博页面,并以镜像网页的形式进行存储。再结合HTML标签的嵌套特性,为采集到的网页构建起适合访问的DOM树结构。对于微博文本形式自由、语言不规范的情况,提出对文本中包含的标点符号、表情符号、停用词、非登录词等利用人工标注和借助网络语料库处理相结合的方式进行规范化处理的方法。在中文分词和词性标注阶段,将NLPIR汉语分词和R语言Rwordseg分词两种方式进行了比较。考虑到微博文本内容短,聚类时易产生数据稀疏问题,文中提出了采用LDA模型表示微博文本,对比了基于划分的聚类方法和基于层次的聚类方法的优点与不足,提出了一种k-means聚类与层次聚类相结合的算法。在舆情分析阶段,采用基于2-POS模型方法进行主客观文本分类,利用CRFs方法结合情感词自身规律和上下文信息等进行情感词标注。最后,借助于情感词典对微博话题和评论观点进行了倾向性分析。对于论文中采用的技术手段与方法,以国内具有代表性的新浪微博为例,进行了一定的实验研究、数据对比和量化分析。初步的实验研究结果表明,文中采用的R语言分词、LDA模型、k-means与层次聚类相结合的短文本聚类、2-POS模型、CRFs等技术和方法在微博数据的处理上相对于其他传统方法具有一定的优势,能够较好地实现对于微博舆情数据的抽取、统计与分析。
其他文献
<正>清代皇帝的服装基本上分为礼服、吉服、常服、行服、雨服和便服几大类。我们现在在影视剧中常见到的皇袍,更多的是属于常服或便服。而常说的"龙袍",则属于皇帝吉服,主要
目的:探讨布地奈德和复方异丙托溴胺雾化吸入联合孟鲁司特治疗小儿感染后咳嗽的临床疗效。方法:感染后咳嗽患儿60例,随机分为观察组和对照组(各30例)。观察组雾化吸入布地奈
在电动机高精度调速领域,锁相伺服技术是应用得比较广泛的一种方案。它的具体实现方法分别有基于DSP的软件锁相环法、基于FPGA的数字锁相环法和锁相环专用芯片法三种。其中锁
气体灾害对人类和自然的危害日益加重,由于气体的物化特性,常规的探测手段很难高效的实现气体检测的目的,红外高光谱遥感探测手段能够反映场景内的温度信息和光谱信息,是灾害气体
我国城市管理行政执法是在城市管理领域将相关执法权予以相对集中于一个行政机关的行政执法模式,解决了传统的“条块结合”行政执法模式所容易造成的行政执法机构林立、队伍臃
目的:探究负压封闭引流技术(VSD)在Ⅲ度烧伤创面的临床治疗疗效评价。方法:对60例Ⅲ度烧伤病人(均有肌肉、肌腱烧伤,部分患者有骨外露),按烧伤部位、烧伤面积及烧伤程度基本
六足步行机器人是具有冗余驱动、多支链和时变拓扑的特种机器人。其优点是机动性强,地形适应性好,故障容许度高,而且能够实现多足协调的复杂作业,但也有运动效率较低的缺点。目前
服务接触是影响顾客满意度的重要因素,顾客在一系列接触过程中形成在线购物的整体满意度。满意度是衡量服务质量高低的重要指标,满意度高的顾客对服务商更忠诚,传播积极的口碑,能
目的:研究拳参提取物的抑菌活性。方法:通过滤纸片对拳参提取物进行了抑菌试验。结果:不同浓度的拳参提取物对金黄色葡萄球菌和大肠杆菌有一定的抑菌效果,随着拳参提取物浓度
2010年国务院发展研究中心统计公告指出,近年来国际高端制造业呈现向中国加速转移的态势。鼓励企业吸收和利用外资一直以来都是我国对外开放的重要内容。国家“十二五”规划明