【摘 要】
:
图或者网络可以对现实世界普遍存在的实体、关系、属性进行建模,构成属性网络。随着信息技术的发展,各种网站、桌面软件、手机应用、传感器产生了大量属性网络数据,如人们熟知的社交网络数据,物联网数据等,为相关研究提供了丰富的数据资源。属性网络的模式发现被广泛用于传染病爆发预测、道路拥堵检测、网络入侵检测等领域。现有网络模式发现的研究多关注单一网络或网络结构方面,而本文将研究重点聚焦于属性依存网络,即多个存
【基金项目】
:
大数据知识工程基础理论及其应用研究(编号:2016YFB1000901),国家重点研发计划; SPARK:A Theoretical Framework for Discovering Complex Patterns in Big Attributed Networks(编号:IIS-1750911),美国国家自然科学基金;
论文部分内容阅读
图或者网络可以对现实世界普遍存在的实体、关系、属性进行建模,构成属性网络。随着信息技术的发展,各种网站、桌面软件、手机应用、传感器产生了大量属性网络数据,如人们熟知的社交网络数据,物联网数据等,为相关研究提供了丰富的数据资源。属性网络的模式发现被广泛用于传染病爆发预测、道路拥堵检测、网络入侵检测等领域。现有网络模式发现的研究多关注单一网络或网络结构方面,而本文将研究重点聚焦于属性依存网络,即多个存在相互联系的属性网络。属性依存网络上的模式发现问题一般搜索空间规模庞大,计算复杂度高,是指数量级的,而且该类问题通常带有结构约束,优化求解困难,其中有些问题已被证明是NPhard难题。如何在对问题进行有效建模的情况下,进行带结构约束的优化求解是解决此类问题的核心难点。现有方法或者是启发式的,求解结果质量无法保证,或者算法的可扩展性有待提高,或者为了方便求解,简化了问题的建模方式与约束条件,这些都限制了相关应用领域的发展。本文基于结构化稀疏优化理论,将属性依存网络的模式发现形式化为图的块结构优化问题,并分别针对动态属性网络、网络的网络以及对偶属性网络提出了相应的优化方法,可以较好地应对上述挑战。本文的主要研究工作如下:1.针对动态属性网络,本文提出了图的块结构迭代硬阈值法GB-IHT。动态属性网络是指网络结构不变,属性随时间演化的网络。该算法基于投影梯度下降的思想,将动态属性网络的模式发现问题形式化为在每一时刻网络上施加结构约束的连续优化问题,并利用高效的近似投影算法解决结构约束问题,在梯度更新与近似投影操作交替迭代过程中,实现目标函数的优化。本文从理论角度证明了该方法的收敛性,同时证明算法的时间复杂度是近线性的,较原始指数级的问题搜索规模大幅下降。在模拟与真实数据集上的异常连通子图发现实验表明,该方法的性能优于基准算法,证明了方法的有效性。2.针对网络的网络,本文提出了图的块结构优化算法GB-Opt。该方法扩展了动态属性网络的优化算法,可以处理多个结构与属性不同的网络组成的属性依存网络,即网络的网络。该方法基于结构化稀疏优化思想,在求解过程中将原始问题分解为较易解决的结构约束投影问题和结构约束无关的优化问题,降低了问题求解的难度。可以从理论上证明,GB-Opt算法具有收敛性保证与近线性的时间复杂度。为了加快问题的求解,提升方法的可扩展性,本文也设计了基于块坐标优化的算法并行加速实现方案。鉴于该算法的通用性,本文将其应用在动态属性网络与网络的网络的异常连通子图发现问题上。相关实验结果表明,该算法的性能优于基准算法,可以高效地求解相关问题。3.针对对偶属性网络,本文提出了相应的块结构优化方法Dual-Opt。对偶属性网络是指共享节点子集,而关系不同的两个属性网络。该类网络数据的优化问题一般要求对两个网络施加不同的结构约束,这是该类问题的难点之一。本文旨在发现对偶属性网络上的连通稠密子图。为满足图密度条件,文中设计了相关的图密度约束投影算法,进而构建可以满足连通性与图密度约束的对偶属性网络优化方法。本文算法考虑了节点属性与不同类型的结构约束,可以发现在一个网络上连通而在另一个网络上稠密且属性重要的节点子集。在模拟与真实数据集上的相关实验表明,本文方法可以发现较其他方法更有意义的模式,证明了其有效性。
其他文献
随着大数据时代的到来,信息与数据的快速流动为互联网提供了良好的发展环境。作为数据与用户交互的媒介,近年来诞生的大量社交网络服务(Social Networking Services,SNSs)平台日益成为生活中不可缺少的重要组成元素。不仅为人们生活带来了便利提升用户满意度,也蕴藏着巨大的科学与经济研究价值,为商家增加了可观的经济收益。在用户服务上,SNSs提供了在线的平台,一方面利用推荐系统这一面
近年来,我国的食品工业飞速发展,但随之而来的食品安全问题日趋严重。食品在原料、生产、加工、运输和储存等阶段都可能受到各种污染物的侵害,食源性疾病成为对人类健康危害最大的一类疾病。有效去除食品中的污染物成为一项重大紧迫的任务。而传统的污染物清除技术,由于设备造价高,耗能大或效果差等原因,逐渐无法满足生产者的生产需求。因此,研发低成本、高效、环保的处理清除食品污染物的新型技术实现可持续发展,具有很重大
长江中下游成矿带是我国东部十分重要的铁、铜、金多金属成矿带,广泛发育斑岩-矽卡岩型矿床和玢岩型矿床。基于对带内典型矿床的详细研究,许多学者提出长江中下游成矿带斑岩型矿床为陆内背景下岩浆热液活动的结果。然而,对于长江中下游成矿带斑岩成矿系统的认识还存在很多疑惑和争议,如构造背景,成矿岩浆岩起源及演化过程,热液流体的出溶及矿质沉淀机制等,因此,需要对区内斑岩矿床进行深入细致的剖析,为该成矿带矿床成因提
脂肪组织作为主要的储能器官,在维持体内能量稳态过程中发挥重要作用。白色脂肪组织中不仅有典型的白色脂肪细胞,还零星分布着可以诱导产热的浅棕色脂肪细胞。白色脂肪组织基质血管相(stromal vascular faction,SVF)中的肥大细胞(MC)等免疫细胞、前脂肪细胞以及内皮细胞等,通过与脂肪细胞的互作而调控脂肪组织和机体的能量稳态。2009年,本团队报道了MC通过影响白色脂肪组织血管化,关键
锌是人体必需的营养素,与人类健康息息相关,体内锌紊乱会导致多种疾病的发生,如肿瘤。临床研究发现,肿瘤患者体内缺乏锌,存在多种锌转运蛋白表达异常,膳食补锌具有抑制肿瘤作用,但具体的分子机制仍不清楚。癌症基因组图谱(The Cancer Genome Atlas,TCGA)中数据显示,人类多种肿瘤组织锌转运蛋白Zn T7表达量下降,但无相关机制研究。本课题以此为契机,探究营养素锌对肿瘤发生发展的影响及
肉类食品是人类饮食的重要组成部分,肉制品安全与人们的身体健康和生命安全直接相关。近年来接连发生的肉制品安全事件使人们充分意识到建立准确、有效的肉品质量监管机制的重要性。然而,目前的检测方法仍以实验室分析为主,可用于快速、简单和现场检测肉源性成分的方法较少。针对肉制品检测的研究现状,本论文以聚合酶链式反应(PCR)、环介导等温扩增(LAMP)和重组酶聚合酶扩增(RPA)等核酸扩增技术为基础,并与荧光
随着我国社会经济的飞速发展和物质财富极大丰富,人们的物质生活水平得到了极大的提高,消费者也越来越倾向于购买高端化、个性化和品质化的产品。但传统的自动化生产线主要实现单一品种、大批量的生产,这一生产模式已远远不能满足消费者的需求。为解决需求变动所带来的生产问题,考虑到高端化、个性化和品质化产品的多品种、小批量、到达时间随机等特点,企业往往采用工作台的生产方式,安排员工各自加工,然后根据工艺要求,将加
该文针对行政规范性文件的文本纠错任务,提出了一个基于BERT(Bidirectional Encoder Representations from Transformers,一种经典的自然语言处理领域的预训练模型)的文本纠错模型,模型针对冗余、缺失、错序、错字等四类任务分别建模,分为检错和纠错两个阶段。检错阶段检查出文本是否有错、错误的位置以及错误的类型等内容,纠错阶段运用BERT掩码语言模型和混
下扬子地区在晚中生代时发生了强烈的、多阶段的成岩成矿作用,形成了大量的岩浆岩和多金属矿床。然而,下扬子地区内的两大构造单元,长江中下游成矿带和江南造山带东段,却有着明显不同的成矿特征。长江中下游成矿带燕山期岩浆作用主要产生Cu-Au-Fe矿床,而江南造山带东段却发育大量W-Mo矿床。此外,相对于与成矿密切相关的早阶段岩浆岩而言,长江中下游地区晚阶段A型花岗岩的岩石成因及构造背景研究较为薄弱,且争议
采用酶解法提取新疆伊吾县野山杏多肽,探究其对衰老模型小鼠的抗氧化作用。通过单因素实验,考察酶底物比、料液比、提取时间、p H值和酶解温度对野山杏多肽水解度的影响,结合正交试验,优化野山杏多肽提取工艺;以提取物为原料,D-半乳糖制备小鼠衰老模型,分为空白对照组,野山杏多肽低、中、高剂量组(50、75、100 mg/kg),衰老模型组以及Vc阳性对照组,连续灌胃饲养30 d,测定血清、肝组织和脑组织匀