论文部分内容阅读
为了适应网络数据快速增长的实体关系挖掘需要,电子邮件网络作为应用最广泛的通信网络之一,因其社会性明显、应用人群巨大、数据中隐含着现实的关系体系,其社会网络分析的研究日趋活跃。对电子邮件网络数据的社会结构进行划分呈现、未知链接的预测,是社会网络分析在网络数据实体关系挖掘中的重要内容,同时在电子商务、社交推荐等商业应用,反恐、犯罪侦查等业务方面具有广泛的应用前景。其中社团网络划分、链路预测则一直是研究的热点方向。面对大数据量的电子邮件通信实体关系挖掘,社团划分的效率、社团划分的准确性和链路预测的召回率和准确率问题成为实际应用的困扰。本文从现有社会网络分析的已知算法出发,针对电子邮件网络通信实体关系挖掘中的社团结构检测算法的准确性问题、计算效率问题,以及链路预测算法召回率和准确率问题进行了深入研究。论文的主要贡献如下:(1)提出了一个新的社团结构检测算法的测度模型。该模型针对模块度方法在划分结果稳定性方面存在的不足,基于信息中心度思想提出了一个新的测度模型,该模型通过对节点间关联度和节点的度进行加权,不仅能够准确识别聚类中心,而且为网络中节点间相似度计算提供了依据。据此进一步提出了一种新的社团划分算法(BSM算法),仿真实验和真实网络数据集上的实验结果表明,与模块度方法相比,该算法的稳定性和准确性更高,由此也证实了测度模型的有效性。(2)提出了一个适用于大规模复杂网络社团划分的快速算法模型。该算法模型的研究工作分为两步,首先针对鲁汶快速算法首轮迭代效率低的问题,通过引入剪枝策略,提出了一种改进算法(FLA算法)。然后针对鲁汶快速算法基于模块度优化思想,易于收敛到局部最优解的缺点,通过对优化模板函数进行改进,引入节点的度和边的权重等相关信息,在FLA算法的基础上,提出了一种新的CDDW算法。仿真实验和真实网络数据集上的实验结果表明,新的算法模型不仅能够大幅降低计算开销,而且能够提高整个网络社团划分结果的准确性。(3)提出了一种新型的链路预测集成学习算法模型。针对主流的链路预测算法普遍存在召回率和准确率较低的问题,提出了一种新颖的集成学习算法模型,将链路预测问题视为一个二元分类问题,利用Booting算法框架提供的误差反馈机制,设计实现了一个新的链路预测算法模型:AdaPred模型。为了进一步提高算法的准确率和召回率,提出了一种新的链路预测算法,并将其集成到AdaPred模型中。通过在论文协作网络和电子邮件网络等真实数据的实证研究,证明了AdaPred算法的预测准确率和召回率明显优于其他算法。(4)研发了一个电子邮件通信网络实体关系可视化分析系统。可视化技术有利于社会网络分析走向实际应用,将对该技术的普及产生深远影响。本论文以邮件网络中的实体关系挖掘为切入点,研发了一个面向应用的可视化分析平台。该平台所提供的数据分析能力与国际前沿水平看齐,具有良好的通用性和可扩展性。所研发的原型系统已通过第三方测试和国家863课题验收,验收考评结果为优秀。综上,本文对社会网络分析技术走向实际应用时面临的几类重要挑战性问题进行了针对性研究,并在此基础上设计实现了一个可视化分析系统原型,该研究成果为社会网络分析技术的推广应用提供了一个高效可行的解决方案。本文所采用的分析技术基于网络拓扑结构,而不依赖于更多的上下文信息,因此具有良好的可扩展性,能够推广到更广泛的社会网络数据分析应用场景。