论文部分内容阅读
社交媒体改变了人们的生活方式,也逐步成为人们获取信息的主要渠道。在社交网络中,用户成为了信息的发布者以及推动信息扩散的传播者,而不再只是信息的受体。信息在网络媒介中的这种传播模式动摇了传统新闻媒体作为信息发布者和舆论引导者的主导地位。由此,在线社交网络的安全管理成为当前的一项重要研究课题。及时掌握网络话题动态并发现其变化趋势以及数据来源是管理网络、引导舆情的一个重要途径。传统的话题检测和搜索研究更多是关注于发现话题的质量,这往往都依赖于复杂计算。然而在线网络话题却是随着时间发展而不断演化着的,这对话题的时效性提出了要求,使得传统解决方案的应用受到了限制。同时社交数据的生成节点分散在网络的各个角落,传播打破了距离的限制,而管理却面临着时空的制约。如何从离散分布的网络节点中筛选出有效数据,并在保证话题质量的前提下,满足实时性需求是一个具有挑战性的课题。面对以上问题和挑战,本文以社交网络中文本数据流为研究对象,以及时发现、快速搜索为研究目标,对社交网络中突发话题检测和数据来源搜索问题进行了研究。完成的研究工作主要有以下几个方面:(1)针对社交网络数据的时空依赖性、语义稀疏性问题,研究了社交网络时空数据的表达与语义分析。全面分析了网上话题和离线活动之间的关联关系以及社交网络中影响主题建模的因素。针对在线社交网络话题在时间上的演化特征、地域上的分布特征,结合社交数据的结构特征,提出了一种基于背景特征融合的社交网络数据表达方法(BFF)来表达社交网络短文本数据。该方法将时空、结构特征相似的数据融合在一起,通过张量模型来表示社交网络语料集。张量的横截面表示关键词在时空、结构特征上的分布。背景特征融合实现了在线话题与离线活动的关联,并在一定程度上缓和了语义稀疏性问题。在此基础上,通过聚类得到关键词的分组,具有相似特征分布的关键词集合表示同一个主题。基于BFF方法便于不同粒度的聚类,发现不同粒度的话题。时空数据融合的方法是后续突发主题检测以及数据来源搜索的基础。实验结果验证了所提方法的有效性和可靠性。(2)针对在线网络话题的早期发现问题,研究了基于数据流的突发因子实时检测。全面分析了用户行为对数据演化产生的影响,以及存在的不确定性影响。在此基础上提出了基于平滑去噪的数据流实时监控算法,以及建立在数据预测基础上的突发因子判别算法。通过对数据流的实时监控实现对关键词时态特征的跟踪,通过数据的历史记录预测特征词在未来可能的发展趋势。在此基础上进行横向比较,计算出语料集中异常变化的特征词作为潜在的突发因子来触发突发话题发现。所提算法可以主动计算未来潜在的突发因子而不是被动地等待突发因子触发运算。通过实验验证了所提算法的有效性和鲁棒性。实验结果表明对于瞬时话题,所提算法可以提前对比方法1个时间单位发现突发因子(根据时隙设置,在实验中可提前10秒到100秒);对于演发话题,所提算法可以提前更多的时间检测到潜在的突发因子(在实验中可提前10个时隙以上),可以满足突发话题的实时发现问题。(3)针对突发话题检测的实时性需求,研究了社交网络中时空主题的快速搜索问题。综合分析了网络话题在空间分布上的差别以及历史数据对突发话题的影响,在此基础上提出了基于社交网络数据流的突发话题检测算法(FDBST)。通过数据预测与特征计算发现突发因子,通过局部特征与全域特征相结合实现了突发主题的发现。通过构造连通图来表示在线主题,通过搜索局部主题来发现全域主题,最终包含突发因子的强连通图即为所求的突发主题。FDBST算法仅考虑包含突发时空主题的强连通图,而不追求数据集中完整的主题分布,因此自动屏蔽掉了网络中噪音主题的干扰(与突发因子不相关的数据并未参与计算过程)。相对于传统建模方法,在计算效率方面有了显著的提升。全域主题融合了动态变化中的时空数据,可用来提取出动态变化中的时空主题,并在一定程度上克服了语义稀疏性问题。实验结果验证了所提算法的效果和效率,在不牺牲发现主题质量的前提下,将主题发现的时间控制在了 0.1秒的水平范围,可满足实时性要求。(4)针对在线话题演化带来的安全问题,研究了热门话题的来源搜索。分析了用户行为对在线话题发展产生的影响以及由此带来的热门话题在演化过程中结构的变化问题,提出了 一种基于图的安全话题数据源搜索与发现算法(DHTS)。DHTS算法以安全主题为搜索源,根据结构特征在时间轴上逆向搜索相关数据。通过构建完全图来表示公共主题,通过构建强连通图来搜索相关的局部主题。在此基础上,根据图的结构变化来跟踪公共主题,最后根据公共主题与局部主题之间的新颖度来判断话题的数据来源。DHTS算法追求查询结果的相关性而不一味地追求相似性,因此返回结果与搜索内容不一定相似,但紧密相关。实验验证了所提算法的有效性,与对比算法相比,DHTS算法获得了更高的新颖度值和更早的发现时间以及较低的相似度和一致性指标值,同时相似度值在时间轴上呈连续分布状态表明了数据源的准确性,因此可用于同一话题在不同阶段的数据源搜索。(5)结合时空主题发现算法、FDBST算法以及DHTS算法实现了基于时空特性与行为特征的在线社交网络搜索系统。该系统主要包含了突发话题的实时监测模块、时空主题的发现模块以及安全话题数据源的搜索模块。三个功能模块分别实现文本数据流中异常话题的实时监测、指定内容的时空主题发现以及安全相关话题的数据源搜索。突发话题的实时监测模块为用户展示时空数据流的时态特征以及出现异常变化的数据的结构信息;时空主题的发现模块根据用户的需求在特定位置返回与指定内容相关的时空主题;安全话题数据源的搜索模块根据输入内容为用户展示相关信息在时间轴上的逆向变化过程,并返回最终的数据结果。基于以上研究工作,本文为社交网络的安全管理提供了一种基于时空特性与用户行为特征的在线社交网络搜索方法,可用于在线突发话题的即时检测、安全话题来源的快速搜索。