论文部分内容阅读
近年来,互联网的迅猛发展促进了信息技术与网络通信技术的发展。社会生活的高度信息化,使网络承载了蕴含价值的数据,拥有海量用户的社会化网络媒体,已经被组织和个人广泛地用来辅助决策。在线金融论坛上存在巨大的用户群与潜在的商机,使虚假意见和垃圾信息被广泛地制造和传播,该类危害的源头即恶意用户群组。针对以上问题,我们利用网页信息提取、数据存储、情感分析、网络关系建模、重叠社区检测等技术,来采集在线金融论坛用户行为数据、构建用户关系网络、对用户关系网络进行社区划分、检测恶意用户群组并评价检测结果。本文的主要工作如下:1.通过对在线金融论坛网站页面的研究,分析论坛用户行为,利用网页信息抽取技术采集论坛页面信息,匹配实验所需的用户行为数据,并存储到本地关系型数据库My SQL中。2.基于机器学习,对训练集进行分词、特征选取,选择合适的情感分类器,对用户评论内容的情感进行分类预测,依据预测分类结果,构建用户行为网络关系模型,并描述用户相似情感网络的相关全局性统计特征,得出相似情感网络既满足“小世界”特性,也满足无尺度特性。3.考虑到节点属性对数据结构的影响,结合节点拓扑结构和节点属性信息,提出一种基于节点拓扑结构和节点属性的重叠社区检测算法,对在线金融论坛用户关系网络和斯坦福大学的三个社交网络数据集进行重叠社区检测,并与常见的社区检测算法作比较,验证了本文提出算法的可行性与有效性。4.提出相应的社区检测的外部指标,综合这些外部指标检测股票论坛中的恶意用户群组,并结合具体案例分析。