【摘 要】
:
对科技文献进行自动主题识别能够帮助用户更好地掌握学术研究中的动态.主题识别的时效性即如何依据现有数据及时探测新主题的产生,是影响其实用程度的关键因素.提出一种引用次数和社区划分相结合的科技主题识别算法STD,依据top节点所在社区的变化检测新主题的产生.在真实数据集上的实验结果表明,该方法可在只有当前而非全部历史数据的条件下,及时、准确地识别新主题的形成.
【机 构】
:
武汉大学计算机学院 武汉 430079 武汉大学软件工程国家重点实验室 武汉 430079 武汉大
【出 处】
:
第二十五届中国数据库学术会议(NDBC2008)
论文部分内容阅读
对科技文献进行自动主题识别能够帮助用户更好地掌握学术研究中的动态.主题识别的时效性即如何依据现有数据及时探测新主题的产生,是影响其实用程度的关键因素.提出一种引用次数和社区划分相结合的科技主题识别算法STD,依据top节点所在社区的变化检测新主题的产生.在真实数据集上的实验结果表明,该方法可在只有当前而非全部历史数据的条件下,及时、准确地识别新主题的形成.
其他文献
分析了XML文档聚类的应用趋势与前景,提出了XML聚类算法所面临的一些问题。详细介绍了由Richi Nayak提出的快速而高效的增量式XML文档聚类算法XCLS和XCLSE.算法提出一种新的XML数据表示结构Level Structure,并在此基础上定义了基于层次相似度的文档聚类计算方式,而不需再花费大量时间与工作来计算"逐对"XML文档之间的相似度.对XCLS和XCLSE算法结合语义的过程进行
数据流中最大频繁项集挖掘是许多数据挖掘应用中的关键问题。提出了一种基于滑动窗口快速挖掘最大频繁项集的算法SW-MFI,创建了PB-tree数据结构来维护当前滑动窗口内所有事务,它采用了数据的垂直表示和指向当前最大频繁项集的指针.利用PB-tree,SW-MFI算法可快速挖掘当前滑动窗口内最大频繁项集,从而大大提高了挖掘效率。
随着互随着互联网的迅速发展,网络环境中的数据管理与挖掘成为研究热点.基于关键词的搜索引擎虽然获得巨大成功,仍无法满足人们的搜索需求.目前已有很多研究将网页中的文本信息进行更深一层的抽象,即对象化的抽象,然而由于Internet环境的复杂性,Web对象的信息通常难以挖掘整合.基于已有的Web框架,着眼于结构封闭性好,相关度高的intranet语料环境,将传统的面向对象的分析方式应用到Web对象建模的
在信息化飞速发展的今天,电子邮件的使用正在变得越来越频繁,而且其应用场合也在不断扩展,目前世界上很大一部分、并且越来越多的商业和个人往来都是通过电子邮件完成的.电子邮件的作用正在被人们不断拓展,特别是它作为任务管理和协作管理的重要工具和手段,被人们广泛使用。但是由于电子邮件数量越来越大,其设计初衷只是单纯的通信手段,具有轻量性和随意性等特点,因此当前的邮件管理工具很难有效地组织和管理人们的大量邮件
近年来,数据流挖掘已成为知识发现领域中的一个研究热点,而数据无限性和概念漂移性等特征使得传统的分类算法不能很好地适应数据流环境.提出一种基于贝叶斯的多窗口数据流分类模型(Bayesian classifier for classifying data streams based on multi-windows,BCCDSMW)对数据流进行分类.BCCDSMW考虑离散属性和连续属性的不同处理,对时
异常点挖掘是一种从数据中分析并发现潜在的反常对象的数据挖掘技术,它在实际生活中有很多的应用,如入侵检测、金融数据分析、病症数据分析等。异常点挖掘具体技术与所研究的数据类型和数据环境有密切关系,已有研究大多是假定数据是集中分布在一张单表上的,而实际应用中很多数据是分布式的.分析了水平分布的数据集上异常点挖掘的问题,并提出了一个改进的基于Birch的分布式数据集中上top-n异常点挖掘的算法MOD.M
ARC-BC是目前已知的分类效果最好的关联规则分类算法。但是,无论是ARC-BC还是其他的文本关联分类算法都是以规则的置信度为分类准则,完全忽略了特征项的权重,这导致了关联文本分类算法的性能较差.为此利用特征项权重定义了规则和文本的匹配度,以之作为关联分类器的分类标准,并在ARC-BC的基础上进行改进,提出了新的关联文本分类算法FWARC(feature weight-based ARC).实验结
依据物理学理论中的刚体最稳态结构,将数据集合看做物理实体,提出虚拟数字实体化观点和代表数据五元组、典型约束等概念,并在此基础上建立4点中心-边界算法(EFCBA)和基于相互约束的模糊数据归类算法(MRFCA).实验表明EFCBA算法提高了代表数据的集合代表性,缓解了图形不规则性对集合代表数据获取的影响;MRFCA算法有效利用了代表数据的特点,提高了归类准确率,并具有较好的自适应能力和未知新型数据归
自动文本摘要是文本挖掘技术中的一个重要的研究课题。现有的文本摘要系统大多是应用单一方法,基于特定领域提取摘要,不能够应用到各个领域中,所以将各种方法组合起来,将能够解决这个问题。在深入研究6种基本的浅层和实体层的自动摘要算法的基础上,实现多知识源融合的摘要系统,并应用基本的机器学习算法对上述的算法进行了特征组合的分类器的训练、交叉验证和测试,找到最佳的特征组合参数,形成摘要.采用内部评价方法对系统
提出了一种面向网络安全的序列模式挖掘方法。引入IP约束窗口的概念,利用IP地理信息和IP拓扑信息建立IP约束窗口模型,并且使用时间滑动窗口进行序列模式挖掘,是一种在特定领域中基于约束的序列模式挖掘方法。可以有效减少候选集数量,提高挖掘效率,实验证明这是一种有效的特定领域应用的序列模式挖掘方法。