论文部分内容阅读
据中国互联网络信息中心(CNNIC)发布的统计数据,截止到2012年12月,中国微博用户总量已达3.09亿。微博所具有的裂变式传播模式、多元化传播终端、低门槛、高互动性等诸多优势,使其成为网络舆论的重要发源地。来自中国传媒大学网络舆情(口碑)研究所2011年7月发布的舆情指数显示,微博已成为仅次于新闻媒体报道的中国第二大舆情源头,在舆论导向中正在扮演着越来越重要的角色。如何及时获取微博舆情信息,了解舆情现状,预测舆情走势,从而因势利导、趋利除弊,已经成为舆情研究的一个重要的新课题。论文从这一背景出发,研究了利用Web信息抽取技术处理微博数据、进行舆情分析的方法。首先针对微博文本的特点,利用Heritrix主题网络爬虫采集微博页面,并以镜像网页的形式进行存储。再结合HTML标签的嵌套特性,为采集到的网页构建起适合访问的DOM树结构。对于微博文本形式自由、语言不规范的情况,提出对文本中包含的标点符号、表情符号、停用词、非登录词等利用人工标注和借助网络语料库处理相结合的方式进行规范化处理的方法。在中文分词和词性标注阶段,将NLPIR汉语分词和R语言Rwordseg分词两种方式进行了比较。考虑到微博文本内容短,聚类时易产生数据稀疏问题,文中提出了采用LDA模型表示微博文本,对比了基于划分的聚类方法和基于层次的聚类方法的优点与不足,提出了一种k-means聚类与层次聚类相结合的算法。在舆情分析阶段,采用基于2-POS模型方法进行主客观文本分类,利用CRFs方法结合情感词自身规律和上下文信息等进行情感词标注。最后,借助于情感词典对微博话题和评论观点进行了倾向性分析。对于论文中采用的技术手段与方法,以国内具有代表性的新浪微博为例,进行了一定的实验研究、数据对比和量化分析。初步的实验研究结果表明,文中采用的R语言分词、LDA模型、k-means与层次聚类相结合的短文本聚类、2-POS模型、CRFs等技术和方法在微博数据的处理上相对于其他传统方法具有一定的优势,能够较好地实现对于微博舆情数据的抽取、统计与分析。