基于行为特征的网络数据分类方法及关键技术研究

来源 :国防科学技术大学 | 被引量 : 1次 | 上传用户:HBFQYD2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络(图)作为一种特殊的数据表现形式,着重对数据之间的关联关系进行建模。与传统数据不同,网络数据之间是彼此相连的,其并不具有独立同分布的特征,这使得在网络数据中进行数据挖掘和分析必须要考虑节点之间的连接关系带来的影响。本文关注面向网络数据的分类方法研究,即在网络数据中利用已知节点来预测未知节点的类别。传统数据挖掘中的分类技术只关注数据自身的属性,然而在网络数据中,节点的类别不仅与自身的属性相关,还与邻居节点的属性和标签,以及整体的网络结构有着密切的联系。在充分利用网络数据特征的基础上,网络数据分类技术已经在推荐系统、欺诈检测、蛋白质功能预测和反恐分析等多个领域展现出了优异的表现。
  然而,随着大数据时代的到来,网络数据分类技术也面临着新的挑战。例如,由于隐私保护等限制,网络数据中已知节点的比例变得越来越少,使得稀疏标注的网络数据分类成为了当前的研究热点;在社交网络中,用户之间的交互行为往往十分复杂,这使得社交网络越来越呈现出异构网络的特征,而如何在一个多标签异构网络中对节点的标签进行预测也是十分困难的;此外,给定一种网络数据分类方法,如何有效地评估其分类性能进而确定适用的应用场景也是网络数据分类走向实际应用过程中亟待解决的问题。
  本文着重解决网络数据分类领域中面临的上述挑战。概括来看,本文的研究内容主要包括以下四个方面。
  1.提出了一个完整的面向实际应用的网络数据分类流程
  在公共数据集上设计和测试网络数据分类模型时,由于数据是固定的、结构化的,只需要分析数据特点、设计和验证模型假设即可。在这种情况下,模型的假设是由数据驱动的。然而,在面向实际问题时,网络数据分类的流程会有较大区别。此时的数据集不再是固定的,而是需要根据问题特点和模型假设自主拟定数据需求,抓取额外的数据来验证或调整模型假设。在这种情况下,数据是模型的假设驱动的。可以看出,模型假设的提前,以及数据集的可拓展性等特点,使得实际应用中的分类流程更加复杂。本文给出了面向实际应用的网络数据分类的流程,指出了在面向实际应用时遇到的挑战和解决方案。
  2.提出了一种基于行为特征的协同分类方法用于稀疏标注的网络数据分类
  在稀疏标注的网络中,节点的标签信息较少,仅利用节点标签往往无法获得准确的分类结果。本文假设节点的标签与其交互行为(节点与其它节点的连接行为)之间存在一定的相关性,当节点的标签未知时,考虑从行为特征的角度对节点进行建模,提出了一种基于行为特征的协同分类方法。首先,其利用概率生成模型描述网络的生成过程,并抽取节点的行为特征。进而从行为特征的相关性与相似性角度对节点进行筛选,找出对未知节点分类更有价值的候选节点,并以此对未知节点进行分类。在此基础上,基于行为特征构建协同推理策略,使得稀疏标注的问题随着分类过程的进行持续得到缓解。大量实验结果表明,该方法在稀疏标注的网络上有着较好的分类表现;此外由于该方法的建模过程并不依赖于同质性假设,因此在同质性较低的网络中也能得到满意的分类结果。
  3.提出了一种基于行为特征的社交维度抽取方法用于多标签异构网络数据分类
  在多标签异构网络中,节点之间的交互往往出于多种原因,而当边的信息无法获取时,必然会给分类方法带来挑战。抽取社交维度是应对这一问题的有效方法之一。然而,传统的社交维度抽取方法大多依赖于社区发现的表现。当社区发现算法失效时,往往无法得到准确的社交维度,导致分类性能变差。与使用社区发现算法不同,本文从行为特征的角度对节点进行建模,试图挖掘出节点与不同社区交互的模式,并以此作为社交维度来应对分类问题。大量实验表明,该方法能够抽取出更为精炼的社交维度,在较低的社交维度上有着更为优质的表现,适合于对多标签异构网络进行分类。
  4.提出了一种两阶段的仿真网络生成方法用于评估网络数据分类器
  当评估一种网络数据分类方法的适用领域时,往往需要在大量的拥有不同属性分布的网络上测试其表现,然而,当前能够获得的真实世界中网络数据还相对较少、属性也不够全面,此外传统的仿真网络生成方法无法生成属性稳定的仿真网络,也使得其无法满足网络数据分类器的评估需求。鉴于此,本文提出一种更有效的两阶段仿真网络生成方法用于评估网络数据分类器,其包含拓扑生成阶段和标签生成阶段。在拓扑生成阶段,通过集成已有的经典模型来生成网络的拓扑结构,使得其更接近真实世界的网络特征;在标签生成阶段,将其建模为一个多目标优化问题,并证明了该问题是NP-Hard的。在此基础上,提出了一种基于遗传算法的标签生成策略。大量实验表明,该方法能够生成具有各种属性的仿真网络,充分满足了网络数据分类器的评估需求。
其他文献
采用改进的Hummers法制备氧化石墨,并将纳米二氧化钛(TiO_2)分散在氧化石墨的水溶液中,采用高功率超声法将氧化石墨剥离为氧化石墨烯(GO),GO表面丰富的官能团使得纳米TiO_2附着在GO片上,最终得到TiO_2/GO团簇。研究结果表明,在TiO_2/GO团簇构成的复合材料中,TiO_2与GO相互独立存在,没有形成掺杂或者固溶体的结构。GO表面含有大量官能团,有利于TiO_2与GO的接触,
随着近年来经济的持续增长,云南省公路基础建设也迎来了跨越式的发展,高速公路作为重要的公路运输通道也进入了快速建设阶段。高速公路具有里程长、交通流量大、对社会提供开放式服务的特点,这使得路段中的交通安全和机电设施极易受到破坏和盗窃。电缆断电报警、设备震动报警、定期巡检等传统的监管方法在实际使用中的效果并不理想,需要利用新技术开发出一种创新的监管方式以满足路政巡检单位的业务需求。而现阶段物联网技术发展
学位
广东省近年来修建的高速公路,从路面服务质量、行车舒适性、维修养护等方面考虑,主要采用的是沥青路面结构形式。已有工程实践表明,高温稳定性不足而产生车辙是广东省沥青路面面临的最主要问题。采取经济上合理、技术上可行的方案,提高沥青路面的抗车辙能力,解决车辙问题,已成为广东省高速公路沥青路面工程技术人员关注的焦点问题之一。开展50号硬质沥青混合料在广东省高速公路上的应用研究的目的就是为了探寻一种新的提高沥
学位
一维TiO2纳米棒阵列因其优异的物理化学特性如电子传输效率高、光生电荷易分离、光散射效应强等而在光催化领域被广泛应用。本文以活性炭纤维(ACFs)为基底,制备了TiO2纳米棒阵列(TiO2 NRAs)和分枝状TiO2纳米棒阵列(TiO2 BNRAs)两种光催化复合材料,并对两种材料进行稀土镨离子掺杂。以亚甲基蓝为目标污染物,对制备复合材料的可见光催化性能进行了研究。  采用简单的两步水热法,在预负
臭氧氧化工艺具有反应迅速、流程简单、无二次污染等优点,已广泛应用在水处理中。然而,由于臭氧的部分氧化特性,在处理某些有机污染物的过程中常会生成生物毒性高于母体污染物的中间产物,导致出现水体生物毒性升高的现象。为了探究臭氧氧化氯酚类物质时工艺的安全性,本论文研究了臭氧氧化2-氯苯酚(2-CP)、3-氯苯酚(3-CP)以及4-氯苯酚(4-CP)过程中急性生物毒性的演变规律,并寻找急性生物毒性的可能替代
学位
医药、农药和染料中间体精细化工生产产生的废水一般具有高有机氮、高生物毒性以及难生化降解等特点,采用常规生物法处理,特征污染物不能有效降解,特别是含氮杂环物质去除效果较差,排放外环境存在潜在危害。常规的芬顿氧化法处理,因催化剂催化活性不可控,存在着羟基自由基生成量低,氧化效果不佳等问题,化学氧化过程中存在传质受控制的问题,效率较低,本项目构建了电催化芬顿氧化和电化学耦合的技术。本课题选取小洋口港化工
水环境保护在中国乃至全世界都取得了长足发展,尤其是在农村地区。一般而言,大部分的废水处理都是在常规处理厂进行的,而近些年,水平潜流、垂直潜流、自由表流、复合流人工湿地等已成功应用于农村地区的废水处理。本研究对探索一种能耗低、高效率、高使用率、操作维护简单的技术具有重要意义。课题的主要目标是开展小型水平潜流人工湿地(HSSF-CW)的研究,确保农村生活污水得到净化,使其排入自然水体前达到中国排放标准
学位
背景与目的热消融治疗凭借其微创、安全、疗效确切等优势,已成为肝细胞性肝癌主要的根治性治疗手段之一,尤其对于小肝癌病例(≤3cm),消融治疗的长期疗效与手术切除相媲美。但对于较大肝癌(直径3-5cm)病例,消融治疗疗效欠佳,存在完全消融率低、局部肿瘤进展发生率高等问题。文献报道较大肝癌患者消融治疗的完全消融率为71%-94%,而LTP高达15.9%-25%。我们前期研究证实超声融合成像技术能够用于术
本文探讨了灵芪胶囊对H22荷瘤小鼠的抑瘤作用及其抑瘤作用机理。文章采用体内实验法,于无菌条件下抽取传代7天、生长良好的H22荷瘤小鼠腹水,无菌生理盐水1:3稀释(约含瘤细胞2×106/ml),按0.2ml/只接种于消毒后的小鼠右前肢腋部皮下,制成肿瘤模型,经口灌胃灵芪胶囊11天后,取瘤体称重,计算抑瘤率,并计算免疫器官指数;采用HE染色,于光镜下观察各组肿瘤组织细胞病理形态学变化;用免疫组化法检测
学位
目的本课题通过建立的体外病毒性心肌炎(VMC)细胞模型,应用细胞生物学技术探讨红景天多糖(RSA)的体外抗柯萨奇B3病毒(CVB3)作用和对心肌细胞保护作用机制,探究其作用环节(药物靶点),为RSA的进一步开发利用奠定基础。方法在VERO细胞中加入不同稀释度红景天多糖后,感染CVB3病毒观察细胞病变,MTT染色比较各组间活细胞数的变化,分析红景天多糖对病毒感染后的VERO细胞是否有保护作用;采用差