论文部分内容阅读
人工智能被认为是引爆新一代科技革命的核心技术和关键力量之一。数据挖掘作为其中关键的技术,有着广泛的应用前景。本论文围绕“社交与信息网络中的数据挖掘研究”这一课题通过对社交网络、信息网络和智能交通网络等当下应用最为广泛、功能日益丰富和结构愈发复杂的应用场景进行深入研究,对其中存在的推荐系统分布式算法、矩阵分解的MapReduce框架、无人车的智能控制和网络免疫策略等关键问题,借助数据挖掘、大数据分析的分布式优化与处理和机器学习等技术与方法,进行了一系列的方案设计,并通过真实数据集上的仿真进一步验证了所提方案与算法的可行性与有效性。本论文的具体研究内容和主要贡献如下:
(1)针对社交网络中推荐系统的分布式算法问题,提出了一种含有相似度约束的低复杂度分布式推荐系统设计方案。首先,引入了一种含有相似度约束的矩阵分解模型,以充分挖掘推荐系统中诸如内容、情景和信赖的朋友等额外信息的潜力。其次,提出了基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)的分布式算法并给出了闭式解,以减轻服务器计算负载,提供隐私保护。此外,采用数值分析中的优化方法,充分挖掘问题的特殊结构,降低计算复杂度。最后,基于真实数据集上的仿真,验证了算法的有效性。
(2)针对信息网络中矩阵分解的MapReduce框架问题,提出了一种异步分布式矩阵分解方案及定制的Hadoop MapReduce框架。首先,以ADMM为基础设计异步的分布式框架,解决同步的分布式实现中不同服务器间等待超时的问题。其次,提出了一种通用的共轭梯度(Conjugate Gradient,CG)算法,减少两种不同类型矩阵求逆的三次方复杂度。此外,提出了Hadoop平台上,在一个MapReduce作业中实现所有迭代过程的定制框架,以充分利用矩阵分解的特殊结构,降低其传统MapReduce框架中频繁产生作业所带来的开销。最后,通过真实数据集上的仿真结果验证了算法的有效性,同时也讨论并分析了仿真中相关因素的影响。
(3)针对智能交通网络中无人车的智能控制问题,提出了一种挖掘司机分心行为的无人车纵向速度控制方案。首先,该方案考虑无人车与人类驾驶车辆的交互,设计了一个整合了司机分心监测、车对车信息交换(Vehicle-to-Vehicle,V2V)和无人车速度控制的协作框架。其次,通过模型预测控制(Model Predictive Control,MPC)策略建模为可行的优化问题,设计了应对司机分心行为的无人车智能控制策略。此外,分析了在保持交通性能前提下协作框架可以带来的安全增益。最后,进行了基于卷积神经网络(Convolutional Neural Network,CNN)的司机分心监测实时性评估的对照实验,以及无人车智能控制策略在避让分心司机和减少追尾碰撞方面的仿真实验,表明了该协作框架可以增大安全区域,减少追尾碰撞,提升整个智能交通网络的安全性。
(4)针对信息网络中的网络免疫策略问题,提出了一种控制最坏情况下的网络传播的网络免疫方案。该方案针对具有图结构的信息网络,通过设计算法对边分配固定总预算的免疫干预措施来控制网络中感染的传播。首先,将控制最坏情况下的网络传播建模为一个有约束的、针对免疫干预部署和初始传播源选取的最小-最大优化问题。该问题为一个NP-hard的双层混合整数优化问题,且目标函数没有显式表达式,故而采用了无导数优化和随机优化中的工具,通过内层最大化问题和外层最小化问题交替迭代进行求解。具体而言,在内层循环中,使用加权度折扣(Weighted Degree Discount, WDD)方法选取影响力最大化问题的初始传播源集合;在外层循环中,使用了两种方法:一种是基于采样的同步扰动Nelder-Mead(Sample-Based Simultaneous Perturbation Nelder-Mead,SBSP-NM)算法,另一种是同步扰动随机近似(Simultaneous Perturbation Stochastic Approximation,SPSA)算法。最后,通过在人工合成数据集和三个更大规模的真实数据集上的仿真,验证了算法的计算可行性和在控制感染传播方面的有效性。
(1)针对社交网络中推荐系统的分布式算法问题,提出了一种含有相似度约束的低复杂度分布式推荐系统设计方案。首先,引入了一种含有相似度约束的矩阵分解模型,以充分挖掘推荐系统中诸如内容、情景和信赖的朋友等额外信息的潜力。其次,提出了基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)的分布式算法并给出了闭式解,以减轻服务器计算负载,提供隐私保护。此外,采用数值分析中的优化方法,充分挖掘问题的特殊结构,降低计算复杂度。最后,基于真实数据集上的仿真,验证了算法的有效性。
(2)针对信息网络中矩阵分解的MapReduce框架问题,提出了一种异步分布式矩阵分解方案及定制的Hadoop MapReduce框架。首先,以ADMM为基础设计异步的分布式框架,解决同步的分布式实现中不同服务器间等待超时的问题。其次,提出了一种通用的共轭梯度(Conjugate Gradient,CG)算法,减少两种不同类型矩阵求逆的三次方复杂度。此外,提出了Hadoop平台上,在一个MapReduce作业中实现所有迭代过程的定制框架,以充分利用矩阵分解的特殊结构,降低其传统MapReduce框架中频繁产生作业所带来的开销。最后,通过真实数据集上的仿真结果验证了算法的有效性,同时也讨论并分析了仿真中相关因素的影响。
(3)针对智能交通网络中无人车的智能控制问题,提出了一种挖掘司机分心行为的无人车纵向速度控制方案。首先,该方案考虑无人车与人类驾驶车辆的交互,设计了一个整合了司机分心监测、车对车信息交换(Vehicle-to-Vehicle,V2V)和无人车速度控制的协作框架。其次,通过模型预测控制(Model Predictive Control,MPC)策略建模为可行的优化问题,设计了应对司机分心行为的无人车智能控制策略。此外,分析了在保持交通性能前提下协作框架可以带来的安全增益。最后,进行了基于卷积神经网络(Convolutional Neural Network,CNN)的司机分心监测实时性评估的对照实验,以及无人车智能控制策略在避让分心司机和减少追尾碰撞方面的仿真实验,表明了该协作框架可以增大安全区域,减少追尾碰撞,提升整个智能交通网络的安全性。
(4)针对信息网络中的网络免疫策略问题,提出了一种控制最坏情况下的网络传播的网络免疫方案。该方案针对具有图结构的信息网络,通过设计算法对边分配固定总预算的免疫干预措施来控制网络中感染的传播。首先,将控制最坏情况下的网络传播建模为一个有约束的、针对免疫干预部署和初始传播源选取的最小-最大优化问题。该问题为一个NP-hard的双层混合整数优化问题,且目标函数没有显式表达式,故而采用了无导数优化和随机优化中的工具,通过内层最大化问题和外层最小化问题交替迭代进行求解。具体而言,在内层循环中,使用加权度折扣(Weighted Degree Discount, WDD)方法选取影响力最大化问题的初始传播源集合;在外层循环中,使用了两种方法:一种是基于采样的同步扰动Nelder-Mead(Sample-Based Simultaneous Perturbation Nelder-Mead,SBSP-NM)算法,另一种是同步扰动随机近似(Simultaneous Perturbation Stochastic Approximation,SPSA)算法。最后,通过在人工合成数据集和三个更大规模的真实数据集上的仿真,验证了算法的计算可行性和在控制感染传播方面的有效性。