论文部分内容阅读
信息传播网络学习方法研究因特网中存储的信息会随着时间的推移在网络中传播,并形成一个传播网络。该网络显示了信息传播的路径,反映了信息传播的规律,对此网络进行研究可以用于信息传播趋势的预测,也可以用于网络关键结点的识别。但是,因特网结构本身遵循无标度模型刻画,无法精确给出,此外,结点接受信息时通常不会指示出信息的来源,这些原因导致通过传统的观察追踪方法难以准确获取信息传播的网络结构。信息传播网络结构学习已经成为一个热门课题,一些研究者提出了创造性的想法,也得出了有价值的结论,但现有学习方法仍然存在一些问题与不足。比如大部分工作未考虑网络信息传播的“个体选择性”,大部分方法对真实网络的预测效果不够理想等。本文首先对比分析了信息传播研究领域的两个经典传播模型—Cascade模型和Threshold模型。其中Cascade模型被广泛应用于医学领域,鉴于信息在网络中传播与疾病在人群中传播的相似性,该模型被引入计算机领域,而Threshold模型则来自社会学研究领域,该模型刻画了信息在网络中传播的部分特点。虽然信息传播在一定程度上符合Cascade和Threshold模型的建模原理,但对信息本身而言,信息传播属于一种被动行为,且传播过程不涉及到传播个体的利益问题。因此,信息传播与上述两种模型所刻画的过程存在一定差异,本文将两个经典模型中合理的因素综合在一起,提出了新的混合传播模型。新模型从信息传播的本质出发,提出了结点对信息的“兴趣度”概念,信息在网络中传播时,结点对信息存在一个“接受阈值”和“兴趣阈值”。当结点对信息的兴趣度大于或等于兴趣阈值时,信息在结点间的传播类似Cascade模型所描述的过程;当结点对信息的兴趣度介于接受阈值和兴趣阈值之间时,结点对其邻居存在一个影响权值,该影响权值表示结点可以影响其邻居结点对某一信息的“兴趣度”,这一影响权值会随着时间推移逐渐变化;当结点对信息的兴趣度低于接受阈值时,信息不会感染影响到该结点。通过设定结点对信息的兴趣阈值及接受阈值,混合传播模型可以等价到Cacscade模型或Threshold模型。接下来,本文分析比较了现有的学习方法,在最优近似推理算法Netinf基础之上,提出了新算法PCpinf。最优近似推理算法的原理在于逐步找出当前可信度最高的边,具有较高的求解精度,但该算法存在选取伪边及多条候选边的问题。PCpinf对其做出了如下改进:1.分析推断边存在时的依据,基于统计的思想,引入了“统计出现比”及“互信息”的概念,设置相关参数阈值,在算法开始前对备选边集进行预处理分类,删除其中一部分伪边对,并标记另一部分潜在伪边。2.结合“最大K覆盖问题“,讨论了存在多条候选边时的选取策略,给出了一个简单有效的启发式选择方法。3.结合边的单向性,并进一步挖掘“互信息”,在选择正确边的同时,将可确定的伪边从备选边集中删除。4.挖掘“边缘收益”的局部单调性和整体单调性,对迭代过程中边缘收益的更新次数进行剪枝。5.改进原算法的“延迟估计”,结合删边剪枝,调整引入“延迟删边”的优化过程。为验证预处理协同剪枝近似推理算法效果,本文设计了严谨合理的实验流程:首先,定义不同的统计指标,在不同的传输时间模型及不同的网络结构条件下,对算法预处理及协同剪枝过程的合理性进行验证;其次,通过与原算法Netinf进行对比,证实了改进后的优化效果,在选取少数边时算法速度提升较大,在选取较多边时仍能将效率提高40%左右;另外,在不同网络结构组合不同传播模型的情况下,对PCpinf和Netinf进行学习效果对比,证实了新算法在求解精度上有所提高;最后,通过不断改变时间序列数据集合的大小,验证了新算法具有很好的健壮性,在只有少量数据的情况下,算法便可以正确预测出80%以上的真实边。在新算法中,预处理及协同剪枝相关的参数都是参照传播概率β值设定的,下一步工作将需要对参数的设定进行深入分析和研究,以达到更好的预处理及剪枝效果,提高最终算法精度和效率。