论文部分内容阅读
网络论坛(BBS)由许多讨论不同话题的帖子构成,蕴含着丰富的有价值的信息,已经成为当今互联网的一个重要的舆论信息传播渠道。在BBS中,参与回帖的网民可能会由于对同一话题的意见或观点的一致从而自发地形成一系列的社区。这种社区结构的存在及其演化对潜在网络知识的挖掘、舆论信息的传播以及网络舆论导向有着重要的作用。网络社区发现为越来越多的研究人员所关注,具有着重要的研究价值。本课题在梳理国内外社区发现研究成果的基础之上,针对传统研究多数是基于简单无权网络的不足,把研究对象网络扩展为加权符号网络,提出本文的技术研究路线。首先,本文将社会学三角形符号平衡理论和统计方法相结合,提出一个快速有效的挖掘BBS帖子中的对立意见社区的算法,并给出了时间复杂度分析以及一种有效的实现方案。其次,通过引入簇间亲和度的概念,提出一个基于层次聚类技术的多意见社区发现算法,给出了算法的详细执行过程,并在实现层面对该算法的瓶颈进行了分析及改进。最后,分别对两个算法编程加以实现,通过天涯论坛的帖子实例作为数据进行实验,并对结果进行了深入的分析。实验结果显示:相对而言,同一意见社区内正关系紧密、负关系稀疏,不同意见社区间负关系紧密、正关系稀疏。这个结果表明,两算法能够发现BBS论题帖子中隐含的意见社区,具有很强的实用性和重要的应用价值。