论文部分内容阅读
随着电子产品的不断创新,互联网越来越深入人们的日常生活,微博也凭借强大的实时通讯能力、多样的信息交流方式、庞大的用户使用群体,以及支持多种终端设备等特性,成为目前最流行的网络社交媒体之一,微博舆情在网络舆情中发挥着重要作用。微博上的信息具有多样性、重复性、碎片化等特点,用户很难从浩如烟海的信息中把握舆情脉象、分析舆情趋势。本文在分析微博平台功能及用户结构的基础上,对中文微博的舆情分析技术进行研究。主要研究工作如下:⑴针对现有爬虫工具和方法的不足,设计了一种基于用户网络结构的微博爬虫工具。从用户网络结构出发,模拟用户登录微博平台,访问用户的粉丝列表,将其加入扩展用户队列,通过扩展用户队列爬取用户的微博及评论信息。研究微博噪声信息的存在规律,过滤无价值信息,并对初始微博数据进行文本预处理。⑵提出了一种基于话题名称的热点话题检测与跟踪方法。将微博分为已知话题和未知话题两类,采取分而治之的方法区别处理,完成新话题的检测与话题跟踪工作;设计了一种线性加权算法计算新微博与已有话题的相似度,通过实验选取阈值,证明了方法的可行性和有效性;总结了决定话题热度的4个特征,提出了一种话题热度计算方法,将话题按热度值排序,最终找出时下热点话题。⑶提出了一种基于CRF组块模型的话题名称抽取算法。构建CRF组块模型将微博文本按成分细分为块,通过实验修改模型参数以使标注结果最优,在组块识别基础上抽取未知话题的话题名称。利用构建的情感词、否定词和程度副词词典对情感短语组块进行情感倾向性分析,最终判断话题的情感倾向性。