论文部分内容阅读
现代社会的快节奏正日益改变着人们了解、观察世界和发表看法的方式,传统媒介所发挥的作用已经越来越小,新兴的方式正在萌发并日益壮大。微博适应了这种简单、快捷的生活潮流,正日益成为向网民展示世界和汇聚民意的重要渠道,并或多或少的改变着社会的运转方式。所以,整体了解微博的民意诉求显得至关重要,将为政府和企业决策提供宝贵的资料。目前,网络舆情的研究已经有成熟的技术,但基于微博的网络舆情研究才刚刚起步,微博具有短小精悍、草根性更强、交互方式多种多样和高时效性的特点,这些决定了原有舆情技术已经不能满足微博研究的需要了,对此需要做出改进和调整。本文结合微博的特点,着力解决舆情研究中的各个问题,使之适应微博网络舆情研究的需要。网络舆情的关键技术主要包括网络爬虫技术、网页结构化技术、分词技术以及分类聚类等文本处理技术。本文主要对这些技术做出改进,来适应微博的特点,最终发掘微博热点话题以及人们的情感倾向。当今网络爬虫技术业已成熟,网上也存在大量的免费爬虫系统。目前,互联网企业为了保证微博的正常访问,做了很多反爬虫措施,同时微博页面具有杂乱无章的特点,本文针对这些反爬虫措施,基于larbin爬虫系统,提出定时爬取和代理爬取,并对页面解析采用DOM树和投票算法。本文针对的是中文微博,所以将重点研究中文分词。中文分词技术主要有词典建立、歧义识别和新词识别三个方面。针对微博数据量大、杂、新词不断涌现的特点,本文提出使用基于单字索引的pat树分词词典,加快分词速度,并提出双字耦合和t-测试差相结合来解决歧义,使用搜狗词库来建立词典,涵盖大量新词汇。文本处理技术是网络舆情分析的关键,其中文本聚类和文本分类技术是主要技术。本文意在发现热点话题,提出包括特征提取、文本表示、文本聚类和观点挖掘的文本聚类模型,适应微博舆情研究的需要,最终抽取出热点话题。对此可以及时的了解民意以及网民所持有的情感倾向,便于政府和企业决策。