论文部分内容阅读
由于信息化产业的迅猛发展,社会各领域产生的数据呈现指数级增长,而膨胀的数据中却蕴含了无穷的信息亟待人们去探索,此时,诞生了一门新的科学技术,数据挖掘与知识发现,旨在通过有效方法在大量数据中发现有价值的信息。如今,数据挖掘的飞速发展使得多种数据挖掘算法可以应用到多个领域。地理位置信息的研究与应用自从搜索引擎的发展开始越来越受到人们的关注,随着移动互联网的热潮再一次得到了迅猛的发展,针对地理位置信息与其相关联的物理信息进行数据挖掘的研究也被大量展开。本文基于北京市开放地理标志数据集,分别选取了以北四环和南四环为核心10公里范围内的地标数据点,针对北四环附近房价较高且人口密集的实际情况,通过数据挖掘的相关技术,对北四环附近的地理位置信息规则进行挖掘,试图探究不同类别的城市标志对于地区房价乃至繁荣程度的影响规则,并对其进行合理有价值的科学解释。结合本文中地理位置信息的特殊性,传统的关联规则挖掘方法并不能够适用。因此,在本文的实验中,通过对关联规则挖掘的数据预处理和挖掘具体流程进行研究和改进,最终实现了挖掘结果的生成和解释,主要概括如下:(1)引入聚类算法,将存放地理位置信息的关系型数据库转化为布尔型数据库。由于地理位置信息都是离散的坐标点,无法作为Apriori算法输入的布尔型事务数据库,本文引入了基于密度的聚类算法,对表示地理位置信息的点集合进行聚类,将得到的簇作为一条事务,生成布尔型数据库。(2)改进关联规则挖掘算法的事务集划分方法。针对事务集容量过大导致数据库庞大进而致使挖掘效率低下、算法速度缓慢的问题,本文对事务集划分方法进行了改进,对关联规则挖掘步骤进行了粗细粒度的拆分,并结合FP-Tree算法提升关联规则挖掘的整体效率,有效提升了算法的运行速度,提高了算法发现有效关联规则的能力。(3)对关联规则挖掘引入扩展信息。结合地理位置信息距离的特性,本文依据挖掘结果,将距离信息扩展到地标类型中,对扩展挖掘结果进行更深层次的解释。