【摘 要】
:
聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特
【机 构】
:
北京工商大学计算机与信息工程学院,东华大学计算机科学与技术学院
【基金项目】
:
国家自然科学基金(61170112);北京市属高等学校科学技术与研究生教育创新工程建设项目(PXM2012_014213_000037)资助~~
论文部分内容阅读
聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特征.但K_SC算法具有对初始类矩阵中心高度敏感、高时间复杂度等特性,使其难以在实际高维大数据集上应用.文中结合小波变换技术,提出一个新的迭代式聚类算法WKSC,主要提出两个创新:(1)用Haar小波变换将原始时间序列进行压缩,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果.文中分别采用国内外3个数据集作为测试样本,进行了大量的实验.实验结果表明WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果.WKSC算法可很好的应用于大量高维热点话题的模式分析.
其他文献
并购是资本营运活动的重要组成部分,是企业资本扩张的重要手段,也是实现资源优化配置的有效方式。然而作为一项复杂的资本运作活动,企业并购蕴含着大量风险。统计资料显示,世
随着医疗体制改革和医疗保障体制改革的不断深入,作为国家卫生服务和体制改革的一项重要政策和解决群众“看病难、看病贵”问题的突破口和重要措施,中国的社区卫生服务正从发
水具有来源广泛、安全性和难燃性等优点。水润滑轴承以水为润滑介质,可以节约大量的油料和贵重有色金属,减少传统油轴承对环境的污染,以及提高水下航行器的隐蔽性,因此开展水
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不
现代无线通信技术的迅速发展,使得频谱资源变得日益紧张,对微波滤波器的指标要求也越来越高,比如高选择性、低损耗、低互调及低成本等,势必推动了对微波滤波器更深入的研究。
相比传统的社交网络,基于弱关系的微博类社交网络具有显著的异构特征.根据特征可以将节点分为用户(消息订阅者)和主题(消息发布者)两类,面向用户推荐其感兴趣的主题成为了该
科学研究在经历了实验科学、理论科学、计算科学阶段后,进入了数据密集型科学阶段,与之相伴的是大数据时代的到来.大数据泛指规模达到几百TB,甚至PB级的数据①,其典型的特征
生态住宅是我国当今房地产投资的热点,但目前的“生态住宅”很多只是炒作的时髦包装,有些问题亟待深入探索和研究。文章基于绿色生态住宅的内涵和特征及其水环境系统技术导则
数据流中的数据分布随着时间动态变化,但传统基于事务的滑动窗口模型难以体现该特征,因此挖掘结果并不精确.首先提出时间敏感数据流处理中存在的问题,然后建立基于时间戳的滑
湖北省旅游资源丰富,以楚文化为代表的地域文化积淀深厚,在旅游纪念品开发上存在十分广阔的空间,本文在分析湖北旅游文化资源及湖北省旅游纪念品开发现状的基础上,运用现代产