社交网络中新闻挖掘的关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:aiyanxiyanxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络,即社交网络服务(Social Networking Services,简记SNS),它是以一定社会关系或共同兴趣为纽带、以各种形式为在线聚合的用户提供沟通、交互服务的互联网应用。在社交网络服务中,信息获取更加多元化,信息传播速度更快范围更广。而新闻信息,作为社交网络中流动的最重要的一类信息,如何对它进行挖掘分析,已经引起了研究人员的关注。   本文基于大规模真实的社交网络数据,对社交网络中新闻事件的挖掘进行了较深入的研究。涉及其中几个关键问题,包括新闻事件的回顾检测,新闻事件的在线实时检测与跟踪,新闻事件和话题的趋势分析。论文的主要工作和贡献有:   1.提出了社交网络中新闻事件回顾检测的算法框架。回顾检测是对过去已有的数据进行回顾,然后检测出其中的新闻事件。以往的回顾检测研究都是针对新闻数据集,而本文面对的是社交网络中用户发布的数据,这样的数据集中有大量的非新闻相关的数据。所以,本文首先用LDA模型对数据集建模,并在此基础上提出词义单元的概念;然后根据新闻事件的特点,通过观察词义单元在不同时间段的频率变化,进而实现从海量的社交网络数据中过滤出最有可能和新闻信息相关的数据。最后用一种两层的混合聚类方法,检测出其中的新闻事件。实验结果表明整个算法框架简单有效。   2.提出了社交网络中新闻事件在线检测与跟踪算法。在线检测与跟踪要求能即时的处理数据,并快速给出结果。传统研究多采用单遍历聚类算法,但该算法对所有不同的新闻事件或同一新闻事件处于不同状态时都做相同处理:即给定一个不变的阈值和生命长度。这样的做法并不合理。因此,本文提出了基于能量函数的改进单遍历聚类算法。首先用能量函数对新闻事件的生命过程建模。能量值表示了新闻事件在社交网络中的相对活跃度,同时它还随时间变化,因而能反映出同一新闻事件不同时期的相对活跃情况。然后本文基于能量函数改进原始的单遍历聚类算法,使它能对不同状态的新闻事件做出不同的处理。实验结果表明,该方法以极小的时间代价换取了准确率和召回率的双重提升,并且这种时间代价并不影响算法的实时性。   3.提出了对社交网络中新闻发展趋势的预测和分析的方法。首先,本文基于MACD指标定义了趋势动量,来对社交网络中新闻事件或话题的未来发展趋势进行预测。MACD是对金融产品的价格趋势进行预测的常用指标。基于MACD定义的趋势动量能很好的反映社交网络中新闻事件或话题的发展趋势的内在动向。然后本文将新闻的趋势发展分为不同的状态,将趋势预测问题进一步抽象为对新闻的趋势状态转换的判断问题。趋势动量配合一些简单的规则可以很好地解决该问题。更进一步看,新闻的趋势变化通常是有原因的。所以,本文又提出并分析了引起新闻趋势变化的几种可能原因。最后本文基于趋势动量,还提出一种新闻话题排序方法,该排序方法能够兼顾当前话题热度和它未来可能的发展趋势。实验证明本文提出的趋势预测方法准确有效,且对趋势变化原因的推测和新闻话题排序方法也是可靠的。   4.设计一种新的适用于社交网络的,新闻挖掘原型系统。本文设计了一个社交网络中新闻事件挖掘的原型系统,并实现了其中几个重要的模块。它可以对社交网络服务的数据流进行实时监测,从中检测出新闻话题,跟踪它们,给出对它们的发展趋势的预测,分析它们的趋势变化的原因,并能自动的对热门新闻话题进行排序。该系统为进一步研究社交网络中信息的传播、扩散、演变机制,以及背后的社会学意义提供良好的实验平台。
其他文献
本论文主要开展了如下工作:   (1)对涡动相关系统功能进行了拓展,除能够测量常规气象参数、显热通量、潜热通量、土壤热通量、长短波辐射与净辐射、水汽和二氧化碳通量等参
智能车辆(Intelligent Vehicle,IV)是智能交通系统(Intelligent Transport System,ITS)的重要组成部分,它将环境感知、规划决策、自动驾驶以及多等级辅助驾驶等功能融于一身,在保
随着社会、经济的高速发展和城市化进程的加快,城市机动车数量及道路交通流量急剧增加,为现代社会带来诸如交通拥堵、环境污染等一系列问题。而交通拥堵则制约经济发展和城市
由于测量中不可避免地会存在误差,测量值不能正确的反映实际的化工生产过程,这种现象称为测量数据的不平衡性,解决这个问题的方法就是采用数据校正技术。目前研究的数据校正
直觉模糊集,是模糊集的扩充与发展,它更加合理的描述与刻画客观世界,也更加符合人脑的思维,这使得用直觉模糊集来处理不确定性信息比传统的模糊集有更强的表达能力,也更加准
功能磁共振成像(functional magnetic resonance imaging,fMRI)是一种测量神经元活动所引发的血液动力学改变的脑成像技术。fMRI数据含有丰富的信息,人类利用这些数据进行脑
脑血管疾病因其在临床上的常见性和多发性,已经成为一种严重威胁人们身体健康、给人们带来生命威胁的主要疾病,其高患病率、高致残率、高死亡率使之成为当今社会关注的重要问
在实际工业生产过程中,过程控制回路发生性能下降极其普遍,即便使用初期控制性能良好,若没有定期维护,回路的性能也会随投入使用时间的增长而下降。为了更好地改善和提高控制
日趋复杂的工业控制系统,客观上要求控制系统的网络化,网络控制系统是控制领域发展的必然趋势。本文从网络控制系统调度与控制协同设计方面进行研究,减小了网络诱导时延等给控制
微流控PCR是将微流控芯片技术与分子生物学PCR技术相结合,在微流控芯片上实现PCR。与常规的PCR技术相比,微流控PCR具有耗样少、速度快、扩增效率高和可集成等优势。温度是影响P