空间数据挖掘关键技术研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：luckchenhu

【摘要】

：

空间数据挖掘也叫大规模空间数据库知识发现，是指对空间数据库中隐含的知识、空间关系或其他非显式的模式的提取。由于空间数据库固有的海量性特点，空间数据挖掘面临的主要挑战

【作者】

：

孙鹏

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

空间聚类挖掘空间数据库知识发现 Cluster-by 多核并行算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

空间数据挖掘也叫大规模空间数据库知识发现，是指对空间数据库中隐含的知识、空间关系或其他非显式的模式的提取。由于空间数据库固有的海量性特点，空间数据挖掘面临的主要挑战是研究高效的空间数据挖掘技术。空间聚类是空间数据挖掘中一项关键技术。　　本文以数据库管理系统中集成空间聚类挖掘为主线，研究基于密度的聚类挖掘中的效率问题。分别考察了如下领域：SQL语言空间聚类扩展、多查询优化以及多核并行算法。本文主要贡献如下：　　 1.提出了参数可变的DBSCAN处理算法。分析了DBSCAN算法中Eps和MinPts的九种变化情况，提出了S-DBSCAN和E-DBSCAN两类处理算法，E-DBSCAN算法中提出了两两簇合并的方法，该方法适用于低维空间数据。在标准测试数据集SEQUOIA2000上的实验结果表明，S-DBSCAN在1-noise/n比率为0.11，0.45，0.88的情况下，相对于DBSCAN分别获得了85.41％，49.442％，12.9％的性能提升，E-DBSCAN算法也较好地提高了计算性能。　　 2.基于SQL2008语言标准提出了支持空间和非空间数据的聚类扩展语句Cluster-by。定义了Cluster-by的语法与语义。从对数据进行分组的角度来看，它是一类模糊的Group-by。该Cluster-by提供了对空间以及非空间数据的支持，对多个字段进行聚类的情况下，使用权重以定义距离函数。本文在PostgreSQL8.4中实现了该语句。　　 3.提出了Cluster-by使用的代价模型，构建了DBSCAN、S-DBSCAN和E-DBSCAN算法相应的代价函数。代价模型用于当数据库处理多个不同的聚类请求时，在DBSCAN、S-DBSCAN和E-DBSCAN算法中选定其中代价最小的一个。实验结果显示在California的兴趣点数据集上，当S-DBSCAN算法平均执行时间约为DBSCAN算法的12.5％时，代价函数EFS-DBSCAN的平均误差仅为12.18％。　　 4.实现了一种多核并行DBSCAN算法MC-DBSCAN。通过把DBSCAN算法中regionQuery计算放于ExpandCluster之前进行并行计算。在此基础上，构建了适合在低维空间数据上聚类的内存空间索引CellIndex。实验结果显示在两个Intel Xeon E5506 CPU共8核Dell PowerEdge R510服务器上，8个工作进程的MC-DBSCAN算法带来5.4倍的加速比。　　上述工作应用于全国商业兴趣点数据集，在VegaGIS3.0平台上设计了空间数据挖掘扩展VegaMinerPOI，分析了空间聚类挖掘所发现的新的地理区域。　　

其他文献

面向主题的双约束网页采集方法的研究和实现

Web信息分布的局部专题化是互联网信息所呈现的特征之一,伴随着面向主题信息获取的需求越来越多,用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自

学位

主题搜索引擎网络爬虫抓取策略HITSShark Search

光学成像效果真实感绘制技术研究

光学成像效果是与光学镜头成像特性相关的一类光学效果，常见的包括景深、渐晕、光学像差、散景、眩光等效果，在计算机生成的图像中加入这些效果可以增强图像的真实感和逼真度。

学位

光学镜头模型光学成像效果真实感绘制分布式光线追踪

回答集程序设计在语义网中的应用

语义网是一种能理解人类语言的智能网络，目的是完成基于语义的知识表示和推理。RDF是W3C推荐的一种语义网信息描述方式，用于表达任何可在Web上被标识的事物信息，它提供的语义丰

学位

语义网知识表示RDF技术经典非回答集程序加权

片上网络可重构路由算法

为了满足多核及众核处理器对高并发、低延迟、高可靠片上通信的需求，片上网络逐渐取代总线成为芯片内部的主流互连方案。但是由于芯片内部资源的限制、芯片特征尺寸的不断缩小

学位

众核处理器死锁避免转向模型片上光网络光信号广播可重构路由算法

基于启发式算法与虚拟化技术的数据中心动态调度模拟的设计与实现

近年来，随着信息化业务的不断发展和IT系统的日益复杂，数据中心的规模在不断扩张，而严重的电力消耗日益成为数据中心在成本控制和后续发展方面不可忽视的问题。各国的研究者纷纷

学位

虚拟化技术启发式算法数据中心动态调度能量消耗节能设计

分布式数据流的集成分类学习方法研究

近年来，在诸如网络流量分析、传感器网络、入侵检测等应用中，相关的业务数据往往来自于多节点的网络环境，在各个节点源源不断产生大量的数据流并不断地被收集处理，这样的环境被称

学位

分布式数据流分类挖掘自适应滑动窗口微簇融合集成学习

基于视频的视觉语音特征分析和模式构建

视觉语音是说话者说话过程中伴随着以唇部为主要区域的口型等变化表达言语信息,目前被广泛应用于唇读以及与声音语音一起实现双模态的语音识别其研究方法涉及了语音识别,计算

学位

视觉语音特征提取模式构建

信息呈现形式和浮动广告对网页视觉搜索影响的眼动研究

视觉搜索即从干扰项中找到特定目标项的视觉行为过程,是人们日常学习和生活中一项重要的认知活动,是人们获得信息和知识的重要手段之一。随着互联网的飞速发展,越来越多的人

学位

眼动技术信息呈现形式浮动广告网络用户视觉搜索行为网页设计人机界面

基于微惯性技术的人体运动跟踪关键技术研究

人体运动跟踪关键技术研究在虚拟现实、人机交互、动画制作、互动娱乐、训练仿真、运动分析等方面有着重要的意义。随着微机电系统(MEMS：Micro-electromechanical Systems)技

学位

人体运动跟踪滤波算法人机交互微惯性传感器微机电系统

无纸化考试系统组卷算法的研究与实现

随着信息技术的迅速发展和网络的普及,信息技术对于经济的发展和科技进步产生了深远的影响。考试是教学活动中的一个重要环节,它用来检查考生掌握所学知识的情况。由于考试的

学位

考试系统自动组卷遗传算法B/S模式

空间数据挖掘关键技术研究

与本文相关的学术论文