【摘 要】
:
微博消息的快速传播以及突发事件的敏感性使得微博成为突发事件的舆论传播中心.面向海量微博消息流的微博实时突发事件检测已经成为微博舆情监管领域重要研究课题之一.由于海量实时微博消息流以及微博消息的不规范性使得人们对实时微博消息流处理模型的实时性以及突发事件检测的准确性提出了很高的要求.本文提出了一种基于二层哈希表和突发消息的在线突发事件检测方法,其基本思想是首先基于滑动时间窗口构建高效的微博消息存储及
【机 构】
:
哈尔滨工程大学信息安全研究中心,哈尔滨150001
论文部分内容阅读
微博消息的快速传播以及突发事件的敏感性使得微博成为突发事件的舆论传播中心.面向海量微博消息流的微博实时突发事件检测已经成为微博舆情监管领域重要研究课题之一.由于海量实时微博消息流以及微博消息的不规范性使得人们对实时微博消息流处理模型的实时性以及突发事件检测的准确性提出了很高的要求.本文提出了一种基于二层哈希表和突发消息的在线突发事件检测方法,其基本思想是首先基于滑动时间窗口构建高效的微博消息存储及更新模型并提出一个自适应调整突发阈值的突发消息检测算法,然后采用融合事件特征的在线突发事件检测算法对突发消息进行增量聚类分析从而检测突发事件.在实时微博消息流环境下的实验结果表明本方法适用于在线突发事件检测并且能够更加准确地检测微博中的突发事件.
其他文献
网络地址空间随机转换技术通过分配虚拟IP、改变发送端和接收端主机的IP地址致力于构建一种动态、异构的网络,其目的是增加系统随机性并减少可预见性,以此增加攻击者攻击难度来对抗同类攻击.本文利用了新型网络架构OpenFlow具有的数据平面控制平面分离、集中控制以及传输规则动态更新等特性,将网络地址空间随机转换技术与OpenFlow网络技术相结合,在Floodlight控制器上设计了一种新型的改变IP的
Declassification and endorsement can efficiently improve the usability of mobile applications,some declassify and endorse operations in practice,however,are often ad-hoc and nondeterministic,as a resu
网盘作为一种流行的资源传播方式,其所分享的资源已经在网络流量中占有越来越多的比例,因此获取网盘资源的分享链接对于网络安全有着重要的意义.为此本文提出了一种基于Cookie的分享链接获取方法—CookieTracking.该方法首先建立cookie和HTTP会话的索引.其次,通过location哈希表和token哈希表获取了下载网盘资源的URL跳转链.最后,通过URL跳转链上的每个节点的统计分析获取
针对UDP上未知服务的发现这一挑战,网络管理员通常只能做到UDP服务分类,而要具体确定UDP上的未知服务,则首先需要对流量中的服务端进行确定.由于UDP无连接的特点,使得服务端的确定变得十分困难.本文提出了一种基于离线流量统计信息的方法试图解决这一挑战,并进行了相关实验.结果表明,该方法可在很多场景下有效确定UDP流量中的服务端.
针对网络流量特性随时间推移发生改变而引起训练样本变化(即概念漂移),从而导致基于机器学习的流量分类方法精度明显降低问题,本文提出一种基于协同策略的流量分类方法,该方法借助K-S检验对流量概念漂移进行检测,然后通过协同策略引入新的流量样本使分类器得到有效更新,应对流量概念漂移,最后根据集成学习策略综合分类结果.实验结果表明该方法在处理流量概念漂移上具有较好的分类性能和泛化能力,模型建立和分类效率表明
在传统语种识别中,特征研究的目标在于提取各个语种间的语言鉴别性信息.但在安全领域应用中,常常只对某一特定语种感兴趣,这就要求特征能够最大限度的体现目标语种与其他语种间的差异.为了解决这个问题,本文对在语种识别任务中取得优秀性能的对数域音素后验概率特征进行优化,来提高目标语种检出任务的性能.应用F比方法来分析特征向量每一维对目标语种检出的贡献大小.在本文方法中,首先利用音素识别器来估计帧级的音素后验
As the information security on network is being widely concerned,automatic speaker recognition technology could be used to find terror speeches containing some specific speakers.In this paper,we propo
微博转发是消息在微博网络中得到持续传播的重要方式,微博转发预测对微博突发性检测和微博影响力评估具有重要意义.现有微博转发预测大多集中在消息属性及传播网络特征的研究,而微博是否会被转发与用户个体行为具有紧密相关性,本文从微博对用户的能见度和用户兴趣角度,研究用户对于上游用户单条微博的转发行为预测问题.(1)提出了基于用户活跃期和动态时间窗的转发行为、忽略行为、未接收行为识别方法;(2)提出了基于兴趣
针对Logistic序列存在的吸引子与空白区问题,本文提出了一种基于初始值和分形控制参数之间关系的Logistic映射改进方法.利用两者之间关系对映射自变量区间进行合理分段,扩大了混沌控制参数区域,将满射范围扩大到整个控制参数区间,使产生的序列分布更均匀,解决了“稳定窗”与空白区等问题.通过将改进Logistic与原Logistic进行仿真对比,实验结果表明改进后的映射产生的序列混沌特性得到显著加
本文通过分析并利用不同话题之间的相关性提出话题交叉回归方法(Topic Cross Regression,TCR),该方法将话题的流行度序列建模为其他相关话题的流行度序列的线性回归函数.为获得相关话题集,TCR在回归分析前对话题流行度序列进行聚类.在TCR基础上提出两步预测法TCR+,第一步利用自回归方法预测相关话题的流行度,第二步基于相关话题流行度预测值利用TCR对当前话题的流行度进行预测.大量