论文部分内容阅读
社交网络的迅猛发展吸引了大批的用户,使得互联网成为了社会舆论的主要聚集地之一,近年来国内外各领域几乎所有的重大事件都在微博上被广泛讨论。因此,社交网络上的舆情分析已经成为一个热门的研究课题。一些关键用户在社交网络舆论的形成和传播过程中扮演着重要的角色,网络舆情的发展方向已经与他们密不可分,他们被称为“意见领袖”。意见领袖通常具有强大的影响力,领导着各自领域热点、焦点问题的舆论走向。在进行网络舆情分析时,若能够发掘出社交网络中的意见领袖,并重点针对这些意见领袖采集和分析相关的数据,就可以有效地节约数据采集、存储、计算的开销,达到事半功倍的效果。为了发掘出社交网络中的意见领袖,本文开发了基于社交网络上特定用户的群体发现系统,该系统以初始的数个意见领袖作为输入,发掘出社交网络中的其他意见领袖群体,并能够针对发掘出的意见领袖名单采集用户的信息和用户发表的消息。为了实现意见领袖名单的发掘功能,本系统实现了影响力分析算法和社区发现算法,并针对本系统的具体情况对社区发现算法进行了改进,使得对于不完整的用户关系图也能够得到较为准确的划分结果。而数据采集部分,本文搭建了分布式的社交网络爬虫作为系统的数据采集模块。该爬虫通过调用社交网站提供的API和模拟浏览器两种方式来协同实现数据的采集,能够采集的数据有用户信息、用户好友关系、用户发表的历史消息以及用户发表的实时消息四个部分。为了提高爬取的效率,数据采集模块采用了分布式技术,让多台主机协同完成数据采集工作,并且每台主机能够定时切换IP和账号,以突破各社交网站对采集速率的限制。最后,本系统还提供了采集数据的展示、修改和共享功能。运行结果表明,本系统各功能均能够有效实现,并且运行效率较高。系统的目标发现模块所采用的社区发现算法在原有算法的基础上,根据系统的特别情况做了相应的优化,使得社区划分结果的准确性有了较大的提升。目前群体发现系统已经正式应用于网络舆情分析的研究中,运行情况良好,能够稳定高效地完成群体发现和数据采集工作。