论文部分内容阅读
随着计算机和网络技术的迅速发展,尤其移动互联网的崛起,Web已成为知识获取和信息传输不可或缺的渠道。Web2.0技术的出现,使互联网的使用产生了革命性转变,即每个用户从单纯的访问者转变成了潜在的信息发布者。因此,Web资源蕴含着大量社会行为和自然事件方方面面的信息,从中挖掘带有时空信息的数据,可作为社会研究的重要素材。同时Web技术的发展也推动着地理信息技术的前进,WebGIS是地理信息技术和Web技术发展到一定阶段的结合产物。它以服务大众为宗旨,能够作为时空数据和相关知识展示的平台。本文拟从网络资源中抓取感兴趣的半结构化网页文本,经过时空信息抽取和整理等处理步骤,形成结构化的时空数据,以数据库形式进行存储。之后将多种时空数据源进行整合,利用时空数据挖掘技术,发现这些数据中隐含的知识和规则。在知识表达方面,应用WebGIS地图可视化的方式展示统计分析得到的时空数据和数据挖掘得到的知识。根据以上思路,本文分为六个章节:第二章探讨研究的背景和意义,同时对国内外的相关研究进展做了综述,同时论述本文的研究内容和目标,最后确定论文架构。第二章概述数据挖掘及其分支Web数据挖掘、空间数据挖掘、时空数据挖掘、Web数据挖掘和Web时空数据挖掘的概念和基础理论。最后介绍地理信息系统及其分支WebGIS的相关概念。第一章介绍本研究的主要技术和算法,其中包括HTTP、URL地址、网络爬虫、网页解析、分词技术和Apriori算法。最后讨论本研究用到的一些工具。第四章选取中国天气网和新浪微博网站作为例子,介绍网页数据下载,时空信息的抽取、整理、入库及变换,时空关联规则表的建立,以及如何利用Apriori算法计算气象数据和交通事故之间的关联规则。最后讲述系统实现的功能和向用户提供的服务。第五章总结回顾全文,概括研究成果和创新点,同时指出本文的不足和下一步需做的工作。