支持约束目标最优化的社会网络关键群体挖掘方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:youdong2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网和移动通信技术得到快速发展与广泛普及,越来越多的虚拟社会形态相继出现,比如以Facebook,Twitter,新浪微博等为代表的大型在线社交网络网站,通过手机通信、电子邮件等形成的人际关系网络等。而且社会网络也促进了新的软件开发方法与环境的形成,例如以TopCoder、Github和百度众测为代表的软件开发社区和众包平台。透过这些虚拟网络所展现出的社会关系和人际互动是许多研究的关注重点。对虚拟社会网络的探索,需要着眼于数据,通过分析业务系统中所积累的人类交互数据来完成研究的工作。与此同时,全球数据呈现出爆炸式的增长态势,据麦肯锡全球研究院(McKinsey Global Institute,MGI)预测,到2020年,全球数据使用量将达到35ZB,现代社会正面临颠覆性的数据革命。在大数据时代,社会网络中信息的膨胀已经对现有分析方法与技术产生了新的挑战,新的研究问题,原有分析方法可能不再适用。  随着在线社交媒体的功能扩展与用户群体的激增,社会网络中数据的积累主要表现在如下几方面:网络规模、信息传播、群体互动、群体结构,网络中节点的描述属性等,例如新浪微博已经从十几万用户扩增到现在的千万级用户,每天网络中传播的信息量以TB级别在不断积累。近年来,经过经验研究分析表明,这些数据呈现出如下的主要特征:(1)超大规模的数据量(ZB级别);(2)数据多样化(种类繁多);(3)数据动态化(无时无刻不发生变化)。在大规模网络中,针对不同应用需求的约束目标,如何高效地、准确地挖掘与分析有价值的关键个群体,是社会网络研究的热点问题之一。  针对这些问题,本文提出了一套支持约束目标最优化的社会网络关键群体挖掘方法。该方法面向具体应用需求的约束目标,着重提升了现有模型与算法的精准度与挖掘查询结果的质量,使得其能更好地解决实际问题,并且通过设计高效算法,在结果质量与系统性能开销之间达到了有效的平衡。此外,本研究尝试借助于新型分布式计算环境,提出具有高可靠性、高扩展性、高效性的分布式算法,使得所提出的方法可以很好地适应于大规模网络环境。  本文首先提出了面向动态社会网络的影响力最大化群体挖掘方法,针对口碑营销中的影响力最大化问题,以最大化群体影响力为约束目标,试图在社会网络中挖掘出对信息传播起关键作用的节点,从而提升口碑营销的成功率。为了精准地刻画与分析网络中的动态规律,本研究首次在该领域尝试利用随机模型检测的形式化方法,提出一种全新的动态影响力传播模型,其能够充分考虑多种信息传播过程中的网络动态性,提升了对网络中信息传播影响面预测的准确度。并且,在该模型基础之上,提出了一种基于打折函数的的启发式贪婪算法,加速了基于该模型挖掘影响力最大的关键群体的计算过程。  然后,针对软件工程领域的众测环境,以最大化测试覆盖度与测试质量为约束目标,提出了一种关键群体挖掘方法,从而提升众测平台中移动应用测试任务的实际测试覆盖度与测试质量。本研究首次提出并建模了众测环境中测试覆盖度约束的质量最大化问题,通过对集合覆盖问题进行规约,证明了该问题是NP-完全类问题,提出了两种适应于大规模众测平台的贪婪算法,可以高效地挖掘出一组满足测试覆盖度并能使得测试质量最大化的关键测试者。  其次,本文提出了一种支持模糊约束关系的关键群体挖掘方法。在社会网络中,通常利用图模式匹配算法,寻找满足特定结构约束的群体信息,从而找出与用户关注的结构一致或最为相似的关键用户群体。但是在大规模社会网络中,由于网络规模、群体结构与节点间关系的多样性,所以用户很难构建出拥有准确结构的查询约束图。本研究针对这一问题,提出一种新的查询图建模与支持模糊约束关系的精确图模式匹配方法,使得用户能够利用该模糊结构约束,在大规模网络图中,查询既满足模糊约束又满足精确约束关系的子图,进而挖掘出关键用户群体。  再者,本文提出了一种面向大规模网络集合数据库的关键群体交互式建模与挖掘混成方法。该方法主要处理由数量众多的小规模网络组成的大规模网络集数据库上的群体挖掘问题。通过构建离线与交互式感知索引,利用使用者对查询图建模过程中与系统交互的间隙,渐进地对候选图进行挖掘,从而缩短了系统最后挖掘阶段的响应时间,提升系统的性能。  最后,由于动态影响力传播模型中需要借助模型检测技术来预测信息传播的影响面,但是模型检测方法本身面临状态组合爆炸问题,对较大规模系统的验证与分析,通常难于将整个状态空间存放于在单机内存,并且计算通常需要持续数小时乃至数天,因此很难保证在长时间计算过程中系统不出现失效与宕机。因此本文提出了一种具有高可靠性的分布式线性时序逻辑模型检测算法,能够在不降低算法性能的基础上保证系统的可靠性,在一定程度上,进一步使得研究成果能够适用于超大规模网络。
其他文献
由于各行各业对IT系统的严重依赖,高级持续性威胁(Advanced Persistent Threat,简称APT攻击)对政府部门、研究机构、军事组织和行业企业均构成了巨大威胁,已成为目前信息安全领
关于图像检索技术的研究兴起于20世纪70年代,当时主要是基于文本的图像检索技术,90年代以后,出现了基于图像的内容语义,如颜色、纹理、布局等进行分析和检索的技术,即基于内容的图
基于人体步态的身份识别是一种新兴的生物特征识别技术,它旨在通过人们走路的姿态进行身份识别。与其它的生物识别技术相比,基于步态的身份识别具有非接触、远距离和不容易伪装
IPv4地址已经耗尽,IPv6网络由试验转向商用阶段。原本IPv4网络中的许多协议不能直接应用到IPv6网络中。IETF分别制定了IPv6协议和DSR协议的相关标准,但是IPv4中的网络协议应用
学位
传统的信息安全系统主要防止外部的入侵攻击,与现在信息安全主要来自内部的威胁的实际不相符。随着信息安全系统的发展,产生了可信计算。可信计算是为了从根源上防止各种安全隐
信息化是当今世界发展的大趋势,是推动经济社会变革的重要力量,以信息科学为指导,以信息技术为工具,实现了农业信息化的快速发展。全面推进农业信息服务,是繁荣农村经济、加快现代
如何在互联网的海量信息中找到自己所需要的信息已经成为困扰人们的主要问题。元搜索引擎可以综合多个搜索引擎的查询结果,因而提高了搜索的覆盖率,但同时也带来了一些问题。元
全过程计算机辅助动画自动生成技术是将人工智能理论引入到动画制作领域而产生的技术,20世纪90年代由中科院陆汝钤院士提出。全过程计算机辅助手机3D动画自动生成系统(简称手
随着PaaS逐步兴起,以及DevOps和自动化运维的快速发展,基于Docker的容器虚拟化环境成为业务系统的主流部署运行环境之一。Docker生态体系仍然面临着诸多挑战,其中容器镜像的构建