动态复杂网络中的异常检测问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:new4sophia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂网络是具有某些共同结构特征的网络的统称。社会关系网络、文献引用网络、学术合作网络、Internet自治系统网络、Web Graph等这些来自不同领域的网络都是典型的复杂网络。复杂网络具有两个重要特性:大规模和动态性。这使得动态复杂网络的统计特征异常检测成为一个非常重要的问题。在网络管理、Web搜索引擎系统监控、复杂网络理论研究等应用中,动态复杂网络的异常检测都有着极其重要的现实意义。  本文对动态复杂网络中两个问题进行了研究:(1)给定复杂网络的一个时间序列,如何确认在什么时刻,网络的统计特征发生了异常;(2)给定发生异常的时刻,如何选出最能代表其网络统计特征的变化的区域。  对于第一个问题,复杂网络时间序列的统计特征异常检测问题,我们给出了一个复杂网络统计特征的检测框架。利用在真实数据上观察到的行为(顶点数,边数的线性增长)以及复杂网络的研究成果(稠化幂律以及度数的幂律分布),我们给出了在这些统计特征之下的异常定义。利用线性回归模型,我们给出了全局特征异常检测的基本算法。在此基础上,我们提出了去除检测到的异常点,然后迭代计算线性回归参数,直到异常点的集合达到稳定的迭代式算法:iLRAD算法。真实数据集上的实验结果表明,通过较少的迭代次数,iLRAD算法就能够达到收敛。同时,iLRAD算法就能够显著的改进异常检测的效果。  对于第二个问题,我们考虑了更一般化的版本,给定复杂网络时间上相继的两个快照,如何选出最能代表其网络统计特征的变化的区域。我们将该问题形式化的定义为一个组合优化问题:k-CR问题。以顶点统计特征为例,我们证明了该问题是一个NP-hard问题,不存在多项式时间的精确算法。我们给出了解决k-CR问题的两种近似算法:基于分数的Top-k Score算法与基于贪心策略的Greedy Remove算法。此外,我们给出求解k-CR问题最优解的分支限界算法,我们给出下界估计的策略并给出了证明。在真实与人工的数据集实验下,基于贪心的Greedy Remove算法表现出较好的实验近似比。
其他文献
P2P业务流量在对互联网应用起巨大推动作用的同时,也消耗了大量的网络资源,妨碍了正常网络业务的开展。为了保证网络能正常有序的运行,有必要对P2P流量进行识别,从而进行控制
信息时代的到来,数据的指数级增长,自动从海量数据库中方便、准确地获取有用知识和发现数据间的有用模式已成为人们迫切的需要,也促使数据挖掘方法与技术的研究应用不断深入,推陈
近些年来互联网发生了巨大变化,各种新型网络应用不断涌现。识别网络中具体运行着那些网络应用是网络管理,网络维护,网络安全的前提条件。其中深度报文检测(DPI, Deep Packet
伴随着网络的普及,网络模拟由于其成本低廉、模拟精准度高等特点,逐渐成为研究网络行为的有效手段之一。在使用众多网络模拟软件进行网络模拟时,必不可少的一个环节是将所模
目前,高性能容错计算机市场被国外厂商垄断。由于高性能容错计算机普遍应用于金融、能源、交通、电信等关系国家安全和民生经济的重要行业,所以大量重要信息存在泄露隐患。高
P2P(Peer-to-Peer)作为一种新型互联网应用技术,相对于传统的C/S模式具有非中心化、可扩展性、健壮性、负载均衡、容错性好等优点,因此得到了广泛的应用。BitTorrent(BT)协议
随着嵌入式系统的发展,其硬件性能不断提高,对拥有可视化界面的需求不断增长。除了数码相机、PDA、手机等传统的嵌入式可视化产品外,越来越多的领域,如工业设备、交通电子等
机器翻译自动评价是机器翻译研究中的一个重要环节,在机器翻译系统的开发周期中起着重要的作用。目前一些简单的基于字符串相似度的方法虽然能高速的对译文进行评价,但是其评
随着计算机应用的迅速发展,嵌入式系统深入到生产生活的各个领域,尤其是在电池电量有限的便携式设备中应用日趋广泛。伴随着嵌入式系统性能的飞速提高、处理器工作频率的不断
中医有着悠久灿烂的历史,是古代人民在长期医疗实践中逐步形成和发展起来的医疗体系,是中华民族的瑰宝。闻诊作为中医诊断中收集疾病信息、诊察病情的方法之一,既有中医理论