论文部分内容阅读
矩阵分解学习(Matrix Factorization Learning)是机器学习中应用最广泛的方法之一,其主要目标是把原始的数据矩阵表示为两个或多个低秩矩阵的乘积形式,分解之后的矩阵的秩远小于原始矩阵的秩,再应用低秩的低维矩阵表示处理各种分类和聚类任务。矩阵分解通过将数据分解成不同的紧凑有效表示方法能高效发现模型隐含的潜在因子或预测矩阵中的缺失数值,近年来受到了越来越多研究人员的重视。在网络科学的社区发现应用中,由于所有的网络结构均可以通过关系图来表示,而图的主要结构表征即为其邻接矩阵(Adjacency Matrix);因此应用矩阵分解学习相关方法,能有效将整个社区网络中节点聚合到不同社区中,可以得到很好的应用和实验效果。本文将系统性地调研目前矩阵分解学习和网络社区发现的主要研究方法,并针对网络社区发现中的无监督、重叠效应以及网络数据特性等实际问题,提出半监督对称非负矩阵分解和贝叶斯对称非负矩阵分解两种全新的矩阵分解算法,以社会网络和科学网络为主要研究数据,进行社区发现相关方法比较和具体实践分析,获得良好的实验结果和应用效果。本论文的主要贡献和创新点体现在以下几个方面:1、半监督对称非负矩阵分解算法。一般矩阵分解是无监督方法,而社会网络中常常会存在大量已有真实标签信息(Ground-truth)的数据,同时网络数据矩阵多具有对称特性。本文针对这类数据,提出了基于成对约束的半监督对称非负矩阵分解算法,与其它矩阵分解学习算法比较,所提算法在不同类型网络数据的社区发现应用中均获得了更好的效果。2、贝叶斯对称非负矩阵分解算法。本文将泊松先验和高斯先验引入对称非负矩阵分解学习的贝叶斯推理过程中,提出了贝叶斯对称非负矩阵分解算法,推导了模型的更新规则并进行了实验验证,与其它社区发现算法比较,提出的算法在不同数据集上均获得了较好的实验效果。3、社区发现过程中社区数量自动获取方法。一般矩阵分解学习方法在处理时,无法直接获取分解维度信息。我们在对称非负矩阵贝叶斯推理过程中,利用半正态分布特性,提出一种社区数量自动获取方法,实现维度稀疏压缩,对网络的社区数量进行预测学习。通过比较不同初始社区排名的检测效果,提出的方法较好地解决了实际社区发现中无法获取初始社区数量的问题。4、重叠网络社区发现。在网络社区发现中,一些同时属于多个社区的节点往往是整体信息传递、社会交往中的关键节点,因而重叠网络社区发现逐渐得到更多研究者的关注。通过对网络数据进行分析,本文选取与网络密度相关的合适数值作为混合系数矩阵的重叠阈值,应用在贝叶斯对称非负矩阵分解方法的社区判别过程,有效获取重叠网络社区,并在实际数据进行应用。最后,我们基于提出的矩阵分解学习社区发现方法和理论,在图书馆智能化数据处理过程中,分析科学网络社区发现、成果数据中心学者人名甄别和特藏资源数字人文方法等实际应用需求,有效解决实际分析与数据处理问题,在数字图书馆专业领域取得了一定的应用成效。