论文部分内容阅读
近年来,互联网和移动通信技术得到快速发展与广泛普及,越来越多的虚拟社会形态相继出现,比如以Facebook,Twitter,新浪微博等为代表的大型在线社交网络网站,通过手机通信、电子邮件等形成的人际关系网络等。而且社会网络也促进了新的软件开发方法与环境的形成,例如以TopCoder、Github和百度众测为代表的软件开发社区和众包平台。透过这些虚拟网络所展现出的社会关系和人际互动是许多研究的关注重点。对虚拟社会网络的探索,需要着眼于数据,通过分析业务系统中所积累的人类交互数据来完成研究的工作。与此同时,全球数据呈现出爆炸式的增长态势,据麦肯锡全球研究院(McKinsey Global Institute,MGI)预测,到2020年,全球数据使用量将达到35ZB,现代社会正面临颠覆性的数据革命。在大数据时代,社会网络中信息的膨胀已经对现有分析方法与技术产生了新的挑战,新的研究问题,原有分析方法可能不再适用。 随着在线社交媒体的功能扩展与用户群体的激增,社会网络中数据的积累主要表现在如下几方面:网络规模、信息传播、群体互动、群体结构,网络中节点的描述属性等,例如新浪微博已经从十几万用户扩增到现在的千万级用户,每天网络中传播的信息量以TB级别在不断积累。近年来,经过经验研究分析表明,这些数据呈现出如下的主要特征:(1)超大规模的数据量(ZB级别);(2)数据多样化(种类繁多);(3)数据动态化(无时无刻不发生变化)。在大规模网络中,针对不同应用需求的约束目标,如何高效地、准确地挖掘与分析有价值的关键个群体,是社会网络研究的热点问题之一。 针对这些问题,本文提出了一套支持约束目标最优化的社会网络关键群体挖掘方法。该方法面向具体应用需求的约束目标,着重提升了现有模型与算法的精准度与挖掘查询结果的质量,使得其能更好地解决实际问题,并且通过设计高效算法,在结果质量与系统性能开销之间达到了有效的平衡。此外,本研究尝试借助于新型分布式计算环境,提出具有高可靠性、高扩展性、高效性的分布式算法,使得所提出的方法可以很好地适应于大规模网络环境。 本文首先提出了面向动态社会网络的影响力最大化群体挖掘方法,针对口碑营销中的影响力最大化问题,以最大化群体影响力为约束目标,试图在社会网络中挖掘出对信息传播起关键作用的节点,从而提升口碑营销的成功率。为了精准地刻画与分析网络中的动态规律,本研究首次在该领域尝试利用随机模型检测的形式化方法,提出一种全新的动态影响力传播模型,其能够充分考虑多种信息传播过程中的网络动态性,提升了对网络中信息传播影响面预测的准确度。并且,在该模型基础之上,提出了一种基于打折函数的的启发式贪婪算法,加速了基于该模型挖掘影响力最大的关键群体的计算过程。 然后,针对软件工程领域的众测环境,以最大化测试覆盖度与测试质量为约束目标,提出了一种关键群体挖掘方法,从而提升众测平台中移动应用测试任务的实际测试覆盖度与测试质量。本研究首次提出并建模了众测环境中测试覆盖度约束的质量最大化问题,通过对集合覆盖问题进行规约,证明了该问题是NP-完全类问题,提出了两种适应于大规模众测平台的贪婪算法,可以高效地挖掘出一组满足测试覆盖度并能使得测试质量最大化的关键测试者。 其次,本文提出了一种支持模糊约束关系的关键群体挖掘方法。在社会网络中,通常利用图模式匹配算法,寻找满足特定结构约束的群体信息,从而找出与用户关注的结构一致或最为相似的关键用户群体。但是在大规模社会网络中,由于网络规模、群体结构与节点间关系的多样性,所以用户很难构建出拥有准确结构的查询约束图。本研究针对这一问题,提出一种新的查询图建模与支持模糊约束关系的精确图模式匹配方法,使得用户能够利用该模糊结构约束,在大规模网络图中,查询既满足模糊约束又满足精确约束关系的子图,进而挖掘出关键用户群体。 再者,本文提出了一种面向大规模网络集合数据库的关键群体交互式建模与挖掘混成方法。该方法主要处理由数量众多的小规模网络组成的大规模网络集数据库上的群体挖掘问题。通过构建离线与交互式感知索引,利用使用者对查询图建模过程中与系统交互的间隙,渐进地对候选图进行挖掘,从而缩短了系统最后挖掘阶段的响应时间,提升系统的性能。 最后,由于动态影响力传播模型中需要借助模型检测技术来预测信息传播的影响面,但是模型检测方法本身面临状态组合爆炸问题,对较大规模系统的验证与分析,通常难于将整个状态空间存放于在单机内存,并且计算通常需要持续数小时乃至数天,因此很难保证在长时间计算过程中系统不出现失效与宕机。因此本文提出了一种具有高可靠性的分布式线性时序逻辑模型检测算法,能够在不降低算法性能的基础上保证系统的可靠性,在一定程度上,进一步使得研究成果能够适用于超大规模网络。