论文部分内容阅读
互联网应用的普及使得在线媒体已成为人们获取与分享信息的主要方式之一。很多实际的互联网应用都包含网络结构,如社交网络、公司之间的竞争关系网络。在线媒体数据在网络节点之间的相互传递就形成了信息的流动。一方面,数据中可能包含谣言、虚假广告等恶意信息的撒布;另一方面,大部分互联网应用具有开放性,允许与其他应用之间进行数据共享与信息交流,进而形成一个正反馈的信息流动效应。因此,深入研究在线媒体数据中的信息流动,不仅对准确刻画网络信息传播机制,还是对群体行为分析与社会舆情监控、避免恶意信息传播,乃至对社会学、行政学、管理学等相关学科的理论研究,都具有十分重要的意义。为此,围绕在线媒体的信息流动模式分析及流行度预测,分别从刻画网络节点之间信息流动(微观层面)、发现网络信息传播源头(宏观层面)、结合在线媒体信息流动进行预测(应用层面),开展了三方面研究:基于潜在影响因素的在线招聘需求分析,网络信息传播源头检测,以及基于信息流动的在线连载内容流行度预测。具体如下,首先,从以潜在影响因素刻画竞争关系网络中节点之间信息流动的角度,研究了在线招聘需求分析问题。公司之间因人才、业务等竞争形成了以公司为节点的竞争关系网络。每个公司的招聘需求不仅受本身业务需求影响,还受竞争对手(即相邻节点)及整个行业发展趋势的影响。而传统的在线招聘需求分析方法不仅忽略了竞争关系网络结构,也没有同时考虑上述三种影响因素。为此,提出了一种基于潜在影响因素的在线招聘需求分析方法(TMRDA)。该方法设计了一种无监督学习的概率生成模型,将上述三种因素集成到在线招聘数据文本建模的过程中。同时,设计了一种从在线招聘数据获取关于竞争对手招聘需求及整个行业发展趋势的先验知识。该方法使得一些更深层次的招聘分析成为可能,如招聘需求预测、市场竞争分析。真实在线招聘数据集的实验结果验证了该方法在招聘需求分析方面的有效性与可解释性。其次,以发现恶意信息传播源头为目标,研究了网络信息传播源头检测问题。当信息在人群中广泛传播时,如何根据观察到的传播结果发现信息传播的源头,对传染病爆发抑制、互联网病毒源识别、社交网络恶意信息追踪等至关重要。相关研究虽然注意到其重要性,但是,他们所提出的算法要么时间复杂度过高,无法应用到大规模网络,要么检测精度不够,难以准确发现信息传播源头。为此,针对无向带权图,提出了一种基于最大化后验概率(MAP)的网络信息传播源头检测方法。与已有方法不同的是,该方法以某些方法的输出作为先验知识,并利用被影响节点和其邻居节点数据计算出有效传播概率,进而推导出似然函数的精确形式。为了进一步提高算法效率,又设计了两种MAP近似估计:暴力搜索近似(BFSA)和贪心搜索边界近似(GSBA)。BFSA尝试枚举出观察数据对应的所有可能情况,而GSBA利用贪心策略降低了时间复杂度。在四个网络结构上的信息传播源头检测结果表明,本文方法在基本保证精度的同时,大大降低了时间复杂度。最后,以结合在线媒体网络信息流动进行预测为出发点,研究了在线连载内容流行度预测问题。如果某用户发现了一个感兴趣的连载内容(如电视剧、网络小说),他就可能在其他社交网络中分享给其好友。他的好友可能受其影响也去体验这个连载内容,并重复上述可程。这样的信息流动提供了一种正反馈的助力,进一步增强了连载内容的流行度。而已有连载内容流行度预测方法大多从时间序列分析的角度思考问题,忽略了上述过程。为此,以在线连载电视剧为例,先利用相邻集流行度之间的相关性,提出了一种朴素自回归流行度预测方法(NAR)。但是,该方法忽略了用户的观看行为和与外部应用交互信息的可能。进而,又设计了一种转移自回归流行度预测模型(TAR)。它假设每个时间段的观众由两部分组成:追剧者和新增者。基于该模型参数,构造了一种可以自动地评估连载内容品质的新指标。真实的优酷网在线电视剧播放量数据验证了本文方法在流行度预测方面的优势。