论文部分内容阅读
网络(图)作为一种特殊的数据表现形式,着重对数据之间的关联关系进行建模。与传统数据不同,网络数据之间是彼此相连的,其并不具有独立同分布的特征,这使得在网络数据中进行数据挖掘和分析必须要考虑节点之间的连接关系带来的影响。本文关注面向网络数据的分类方法研究,即在网络数据中利用已知节点来预测未知节点的类别。传统数据挖掘中的分类技术只关注数据自身的属性,然而在网络数据中,节点的类别不仅与自身的属性相关,还与邻居节点的属性和标签,以及整体的网络结构有着密切的联系。在充分利用网络数据特征的基础上,网络数据分类技术已经在推荐系统、欺诈检测、蛋白质功能预测和反恐分析等多个领域展现出了优异的表现。
然而,随着大数据时代的到来,网络数据分类技术也面临着新的挑战。例如,由于隐私保护等限制,网络数据中已知节点的比例变得越来越少,使得稀疏标注的网络数据分类成为了当前的研究热点;在社交网络中,用户之间的交互行为往往十分复杂,这使得社交网络越来越呈现出异构网络的特征,而如何在一个多标签异构网络中对节点的标签进行预测也是十分困难的;此外,给定一种网络数据分类方法,如何有效地评估其分类性能进而确定适用的应用场景也是网络数据分类走向实际应用过程中亟待解决的问题。
本文着重解决网络数据分类领域中面临的上述挑战。概括来看,本文的研究内容主要包括以下四个方面。
1.提出了一个完整的面向实际应用的网络数据分类流程
在公共数据集上设计和测试网络数据分类模型时,由于数据是固定的、结构化的,只需要分析数据特点、设计和验证模型假设即可。在这种情况下,模型的假设是由数据驱动的。然而,在面向实际问题时,网络数据分类的流程会有较大区别。此时的数据集不再是固定的,而是需要根据问题特点和模型假设自主拟定数据需求,抓取额外的数据来验证或调整模型假设。在这种情况下,数据是模型的假设驱动的。可以看出,模型假设的提前,以及数据集的可拓展性等特点,使得实际应用中的分类流程更加复杂。本文给出了面向实际应用的网络数据分类的流程,指出了在面向实际应用时遇到的挑战和解决方案。
2.提出了一种基于行为特征的协同分类方法用于稀疏标注的网络数据分类
在稀疏标注的网络中,节点的标签信息较少,仅利用节点标签往往无法获得准确的分类结果。本文假设节点的标签与其交互行为(节点与其它节点的连接行为)之间存在一定的相关性,当节点的标签未知时,考虑从行为特征的角度对节点进行建模,提出了一种基于行为特征的协同分类方法。首先,其利用概率生成模型描述网络的生成过程,并抽取节点的行为特征。进而从行为特征的相关性与相似性角度对节点进行筛选,找出对未知节点分类更有价值的候选节点,并以此对未知节点进行分类。在此基础上,基于行为特征构建协同推理策略,使得稀疏标注的问题随着分类过程的进行持续得到缓解。大量实验结果表明,该方法在稀疏标注的网络上有着较好的分类表现;此外由于该方法的建模过程并不依赖于同质性假设,因此在同质性较低的网络中也能得到满意的分类结果。
3.提出了一种基于行为特征的社交维度抽取方法用于多标签异构网络数据分类
在多标签异构网络中,节点之间的交互往往出于多种原因,而当边的信息无法获取时,必然会给分类方法带来挑战。抽取社交维度是应对这一问题的有效方法之一。然而,传统的社交维度抽取方法大多依赖于社区发现的表现。当社区发现算法失效时,往往无法得到准确的社交维度,导致分类性能变差。与使用社区发现算法不同,本文从行为特征的角度对节点进行建模,试图挖掘出节点与不同社区交互的模式,并以此作为社交维度来应对分类问题。大量实验表明,该方法能够抽取出更为精炼的社交维度,在较低的社交维度上有着更为优质的表现,适合于对多标签异构网络进行分类。
4.提出了一种两阶段的仿真网络生成方法用于评估网络数据分类器
当评估一种网络数据分类方法的适用领域时,往往需要在大量的拥有不同属性分布的网络上测试其表现,然而,当前能够获得的真实世界中网络数据还相对较少、属性也不够全面,此外传统的仿真网络生成方法无法生成属性稳定的仿真网络,也使得其无法满足网络数据分类器的评估需求。鉴于此,本文提出一种更有效的两阶段仿真网络生成方法用于评估网络数据分类器,其包含拓扑生成阶段和标签生成阶段。在拓扑生成阶段,通过集成已有的经典模型来生成网络的拓扑结构,使得其更接近真实世界的网络特征;在标签生成阶段,将其建模为一个多目标优化问题,并证明了该问题是NP-Hard的。在此基础上,提出了一种基于遗传算法的标签生成策略。大量实验表明,该方法能够生成具有各种属性的仿真网络,充分满足了网络数据分类器的评估需求。
然而,随着大数据时代的到来,网络数据分类技术也面临着新的挑战。例如,由于隐私保护等限制,网络数据中已知节点的比例变得越来越少,使得稀疏标注的网络数据分类成为了当前的研究热点;在社交网络中,用户之间的交互行为往往十分复杂,这使得社交网络越来越呈现出异构网络的特征,而如何在一个多标签异构网络中对节点的标签进行预测也是十分困难的;此外,给定一种网络数据分类方法,如何有效地评估其分类性能进而确定适用的应用场景也是网络数据分类走向实际应用过程中亟待解决的问题。
本文着重解决网络数据分类领域中面临的上述挑战。概括来看,本文的研究内容主要包括以下四个方面。
1.提出了一个完整的面向实际应用的网络数据分类流程
在公共数据集上设计和测试网络数据分类模型时,由于数据是固定的、结构化的,只需要分析数据特点、设计和验证模型假设即可。在这种情况下,模型的假设是由数据驱动的。然而,在面向实际问题时,网络数据分类的流程会有较大区别。此时的数据集不再是固定的,而是需要根据问题特点和模型假设自主拟定数据需求,抓取额外的数据来验证或调整模型假设。在这种情况下,数据是模型的假设驱动的。可以看出,模型假设的提前,以及数据集的可拓展性等特点,使得实际应用中的分类流程更加复杂。本文给出了面向实际应用的网络数据分类的流程,指出了在面向实际应用时遇到的挑战和解决方案。
2.提出了一种基于行为特征的协同分类方法用于稀疏标注的网络数据分类
在稀疏标注的网络中,节点的标签信息较少,仅利用节点标签往往无法获得准确的分类结果。本文假设节点的标签与其交互行为(节点与其它节点的连接行为)之间存在一定的相关性,当节点的标签未知时,考虑从行为特征的角度对节点进行建模,提出了一种基于行为特征的协同分类方法。首先,其利用概率生成模型描述网络的生成过程,并抽取节点的行为特征。进而从行为特征的相关性与相似性角度对节点进行筛选,找出对未知节点分类更有价值的候选节点,并以此对未知节点进行分类。在此基础上,基于行为特征构建协同推理策略,使得稀疏标注的问题随着分类过程的进行持续得到缓解。大量实验结果表明,该方法在稀疏标注的网络上有着较好的分类表现;此外由于该方法的建模过程并不依赖于同质性假设,因此在同质性较低的网络中也能得到满意的分类结果。
3.提出了一种基于行为特征的社交维度抽取方法用于多标签异构网络数据分类
在多标签异构网络中,节点之间的交互往往出于多种原因,而当边的信息无法获取时,必然会给分类方法带来挑战。抽取社交维度是应对这一问题的有效方法之一。然而,传统的社交维度抽取方法大多依赖于社区发现的表现。当社区发现算法失效时,往往无法得到准确的社交维度,导致分类性能变差。与使用社区发现算法不同,本文从行为特征的角度对节点进行建模,试图挖掘出节点与不同社区交互的模式,并以此作为社交维度来应对分类问题。大量实验表明,该方法能够抽取出更为精炼的社交维度,在较低的社交维度上有着更为优质的表现,适合于对多标签异构网络进行分类。
4.提出了一种两阶段的仿真网络生成方法用于评估网络数据分类器
当评估一种网络数据分类方法的适用领域时,往往需要在大量的拥有不同属性分布的网络上测试其表现,然而,当前能够获得的真实世界中网络数据还相对较少、属性也不够全面,此外传统的仿真网络生成方法无法生成属性稳定的仿真网络,也使得其无法满足网络数据分类器的评估需求。鉴于此,本文提出一种更有效的两阶段仿真网络生成方法用于评估网络数据分类器,其包含拓扑生成阶段和标签生成阶段。在拓扑生成阶段,通过集成已有的经典模型来生成网络的拓扑结构,使得其更接近真实世界的网络特征;在标签生成阶段,将其建模为一个多目标优化问题,并证明了该问题是NP-Hard的。在此基础上,提出了一种基于遗传算法的标签生成策略。大量实验表明,该方法能够生成具有各种属性的仿真网络,充分满足了网络数据分类器的评估需求。