短文本流突发性话题发现:BBTM改进算法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:LINGBAOLAOLI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:BBTM模型克服了数据稀疏性和冗余性,是短文本流突发性话题发现的有效方法。然而,BBTM模型量化词对突发概率方法比较简陋且存在不合理性,对周期性话题关联词对的突发概率估计有偏差,故提出了一种结合基于自动状态机的枚举突发词对和正态分布的改进方法。实验证明,该方法能够为模型建模提供更准确的先验知识,从而提高模型对突发话题的敏感度和话题抽取的准确度。
  关键词: 短文本; 突发性; BBTM; 枚举突发; 正态分布
  中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2017)01-0248-03
  Abstract:BBTM is an effective model for bursty topic discovery in short texts well solve data sparsity and redundancy. However, the method used to quantify the burstiness of biterms proposed by BBTM is pool and irrational, making the wrong kind of assumptions about biterm bursty probability related to periodic topics, then an improved algorithm based on enumerating bursts biterms used state automation and normal distribution is presented. Experiments show the improved algorithm gives more precise prior knowledge for modeling, then raises the sensitivity and accuracy of bursty topics discovered.
  Key words:short texts; bursty; BBTM; enumerating bursts; normal distribution
  1 概述
  近年來,短文本形式数据充斥社交网络平台,大量突发性话题隐含其间,而这类话题往往与社会网络热点事件息息相关。短文本流的突发性话题发现工作是对海量网络文本的精馏,为舆情分析、商务智能、新闻故事线跟踪提供了必不可少的研究基础。然而,大量冗余信息增加了突发性话题发现的难度,同时短文本的文本稀疏性特征对话题抽取的精度的影响显著。
  在过去的研究工作中,主要通过两类方法提取文本流突发性话题。一类经典的方法是,先检测文本突发性特征后聚类[1][2][3]。然而,突发性特征存在二义性对于聚类效果影响显著,从而复杂的启发式调节和后处理方法不可或缺,另外,仅仅以突发性特征表征话题会丢失文本基本信息,造成话题的理解和解读困难。另一类方法,通过主题模型对突发性话题进行提取[4],但传统意义上的主题模型的初衷是揭示文本集合的主话题,并不能够直接用于突发性话题的提取,后处理方法仍旧不可或缺[5][6],由于大部分主话题并不具突发性,启发式后处理方法也不能够弥补模型本身的缺陷。Yan等人提出了一种针对突发性话题发现的主题模型,即BBTM模型[7]。模型的核心思想是量化词对的突发概率,作为BTM模型建模的先验知识。
  BBTM模型对突发概率的量化算法存在不合理性,任一词对的突发概率恒小于非突发概率,先验知识的误差导致模型更倾向于将词对归类为非突发性话题而非非突发性话题。本文引入Kleinberg的枚举突发算法[8]用于词对的突发状态评估,并定义了一种突发概率量化方法,改进BBTM模型中的突发概率量化方法。
  OBTM模型的Novelty指标在各个时间片上均小于0.2,远小于另外三种模型对突发话题的敏感度。可见,BBTM模型相较传统意义上的主题模型更适用于突发性话题的发现,而本文提出的改进方法在各个时间片上的Novelty指标较为平稳,相较原来BBTM模型有更优的敏感度表现。
  5 结论
  本文给出了整合使用突发特征提取方法和主题模型方法的一种有效途径。对BBTM模型的改进方法中先通过引入枚举突发词对方法估计词对的突发状态,再采用正态分布的累积分布函数拟合词对的突发概率,为模型建模提供了相较于BBTM模型更准确的先验知识,从而提高了模型对突发性话题的敏感度和话题抽取的准确度。
  参考文献:
  [1] Mathioudakis M, Koudas N. Twittermonitor: trend detection over the twitter stream[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data. ACM,2010:1155-1158.
  [2] Cataldi M, Di Caro L, Schifanella C. Emerging topic detection on twitter based on temporal and social terms evaluation[C]//Proceedings of the Tenth International Workshop on Multimedia Data Mining. ACM, 2010: 4.
  [3] Li C, Sun A, Datta A. Twevent: segment-based event detection from tweets[C]//Proceedings of the 21st ACM international conference on Information and knowledge management. ACM,2012:155-164.   [4] Blei D M. Probabilistic topic models[J]. Communications of the ACM, 2012, 55(4): 77-84.
  [5] Diao Q, Jiang J, Zhu F, et al. Finding bursty topics from microblogs[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 536-544.
  [6] Lau J H, Collier N, Baldwin T. On-line Trend Analysis with Topic Models:\# twitter Trends Detection Topic Model Online[C]//COLING. 2012: 1519-1534.
  [7] Yan X, Guo J, Lan Y, et al. A Probabilistic Model for Bursty Topic Discovery in Microblogs[C]//AAAI. 2015: 353-359.
  [8] Kleinberg J. Bursty and hierarchical structure in streams[J]. Data Mining and Knowledge Discovery,2003,7(4): 373-397.
  [9] Mimno D, Wallach H M, Talley E, et al. Optimizing semantic coherence in topic models[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2011:262-272.
其他文献
一部声乐作品的形成通常都要经历两个过程,创作过程和传播过程。也就是说,一部声乐作品的创作过程是具有两种不同的运行模式,在这个模式中创作者也就是通常我们所指的词曲作者,他
期刊
12月10日,首届中国高端特种肥料行业发展论坛在宁波市圆满落幕。为期一天的论坛上,来自中华全国供销合作总社、宁波市政府的有关领导,农业部、南京农业大学的多名专家,以及全国
期刊
双赢生态肥开拓东北市场首战告捷。12月5日,双赢生态肥料东北(长春)招商会在吉林省长春市成功召开,与会经销商现场订货8000多吨。中国农科院农业资源与农业区划所副所长徐明岗、
摘要:该文对计算机技术与企业信息管理整合的必要性进行分析,结合实际情况,提出计算机技术与企业信息管理的有效整合措施,从根本上保证计算机技术自身的作用在企业信息管理当中充分发挥出来,提高企业自身的管理质量和效率。  关键词:计算机技术;企业信息管理;整合;分析  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)03-0004-01  当前,社会经济不断快速发展,各行各
目前的数据元与数据项的匹配算法主要思想是基于字面相似程度实现匹配,这种算法对数据项命名结构规范有较强依赖,且大多业务数据库的数据项没有加入中文名,故无法实现匹配。
如今随着软件产品对社会的影响的逐渐加大,用户对软件意识的不断提高,使得越来越多的软件开发商在软件开发过程中加大了对所开发软件的测试力度以及提高测试费用的比重。当下
摘要:关联规则是数据挖掘的重要方法之一,但传统的关联规则算法Apriori需要多次扫描数据库,需要很大的I/O开销,不能处理节点失效和负载均衡。云计算下的MapReduce模型能够处理节点失效并能做到负载均衡。将传统的关联规则算法Apriori进行改进,然后移植到Hadoop平台,提出了基于MapReduce編程的数據挖掘算法,它能高效的、并行的完成海量数据挖掘任务。通过实验验证了算法的有效性。 
12月18日-19日,由中华合作时报·中国农资传媒主办.河南万庄农资物流集团独家协办的首届农药物流模式高层论坛暨万庄农药物流模式推广会在郑州顺利召开,来自中国农药工业协