结构数据挖掘与处理的若干问题的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zhouqiangjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,数据挖掘及其应用已经渗透到多个学科,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。同时,数据挖掘也不仅是科学家的兴趣所在,更多地得到了政府、工业界的密切关注。通过引进数据挖掘的能力,可以大大提高生产力,取得社会的更大进步。世界上许多国家和地区的政府及工业界都希望掌握数据挖掘技术,提升国家和企业的科技含量,并最终取得领先的地位。 随着研究的深入,越来越多的问题呈现在我们面前,也提出了更高的要求。当前,复杂类型数据的挖掘需求上升,专家学者开始关注这方面的新应用和理论研究,并试图利用无结构化数据挖掘方面的经验和方法论来帮助解决新问题。而针对结构数据的挖掘与处理就是本文所致力研究的问题。 本文针对结构数据挖掘与处理目前存在的几个关键问题进行了研究,包括提高半结构化数据挖掘的速度与效率、提高图结构数据挖掘的可量测性和处理速度、约束条件下的图结构数据挖掘的方法、图结构数据索引技术。本文的创造性研究成果主要有: (1) 提出了4个频繁子树挖掘算法,分别是Chopper、XSpanner、ESMiner、ISMiner。分别采取了序列增长技术和最右路径增长技术,挖掘嵌入式子树和导出式子树模式。实验结果表明这些算法的运行效率良好,在性能上优于目前已提出的子树挖掘算法。 (2) 提出了一个新颖的子图索引结构ADI,并将其应用于频繁子图挖掘过程中,形成了图挖掘算法ADI-Mine和图挖掘应用系统GraphMiner。实验结果表明,ADI在一定程度上避免了子图同构判断的巨大代价,提高了算法的效率和可量测性。通过与目前世界上认可的最快的图挖掘算法gSpan比较,ADI-Mine无论从可量测性上还是从时间效率上,都大大优于对方。在此基础上,还提出了将ADI移植到其他图挖掘算法中的想法,进一步提高效率。 (3) 总结了目前常用的图约束条件,并根据其特性将约束分成若干类别,最后提出了带约束的图挖掘算法CabGin。实验证明,通过聚集挖掘焦点,不仅可以减少噪声结果对分析造成的影响,还可以提高挖掘效率。
其他文献
目的:分析胃间质瘤的CT影像特征表现,探讨胃间质瘤的CT诊断价值,进一步提高胃间质瘤的CT诊断水平。方法:回顾性分析了19例胃间质瘤螺旋CT检查并经手术病理证实的影像资料。结果
近年来,国家发改委在制定药品定价政策时,对原研药给予“超国民待遇”的做法受到了理论界和实践界的普遍质疑——因不符合专利保护时间性和地域性的基本属性,违反了《Trips协议
实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包
过度检查作为一种侵权行为已为《侵权责任法》所确认,然而过度检查只是“过度诊疗”这一广义概念所包涵的一种表现形式.过度诊疗作为一类侵权行为,其责任构成应包括:违法行为
将从道路与桥梁施工技术发展的现状入手,对道路与桥梁施工技术进行简单的介绍,其中包括道路与桥梁施工技术的诸多问题介绍,希望读者能够更加深入的了解桥梁施工技术。 Start
[摘 要] 本文从旅游者观赏的角度,探讨旅游景点的评价方法。主要以旅游者的旅游需求为评价内容,建立与传统风景景观质量为内容的景点评价不同的评价体系,从而为景区的游览路线设计和道路规划提出建议。  [关键词] 观赏性 景点评价 游览区 评价方法    一、引言  目前,旅游业已发展成为世界第一大产业。游览区景点评价不仅仅依赖于景点自然风景的景观特性和其深广的内涵,而且很大程度上还应取决于观赏者的主观