论文部分内容阅读
Web 2.0时代打破了消费者与生产者之间的壁垒,为解决传统数据生产封闭、昂贵、更新较慢的问题提供了新的可能性。随着大数据时代的到来,既有的数据生产应用模式已难以满足日新月异的数据需求。以维基百科为代表的众包模式在若干领域已经取得了成功,构建出一个个良性发展的开放的知识生产社区。在地理信息领域中,志愿者地理信息采用开放式的编辑模式,允许普通用户在一定的规则内自由地上传和编辑数据,即由“志愿者”生产和维护地理信息。志愿者地理信息的原理与维基百科类似,即利用各用户在细分领域(区域)的专精,结合系统的协作、监督与纠错机制,不断扩充数据集和提高质量。志愿者地理信息着眼于利用新的技术手段打破既有数据壁垒,有望满足新的数据需求,推动地理空间大数据领域向前发展。为了替代或补充传统地理数据生产,志愿者地理信息的数据质量必须得到认真地考量。尽管许多研究已经从事实上证明了志愿者地理信息可以具有很高的质量,但均受困于有限的时空范围和巨大的地区差异性。究其根本,由于志愿者地理信息的质量生成机制一直未能得到充分确认,所有关于数据质量的实证研究都只能是局部和片面的。本文以志愿者地理信息中最具代表性的OpenStreetMap项目为研究对象,结合质量研究和贡献者研究这两个本领域的主要研究方向,通过分析贡献历史来分析志愿者地理信息的数据质量生成机制,阐释数据质量如何在项目的发展过程中得到保证。论文主要包含以下几部分内容。(1)提出了志愿者地理信息中数据演化与贡献行为的时空模型,为该领域相关构建了坚实的理论基础;设计实现了OpenStreetMa 历史数据通用处理工具,对比以往工具有明显优势。传统的地理信息是静态的,更新一般随着地物本身的变化进行,频度较低且不透明。而以OpenStreetMap为代表的志愿者地理信息一直处于可见的高速变化当中。这变化既包含地物自身的演化过程,也包含在社区努力下数据不断富集与演化的过程。与此同时,社区结构与贡献者行为也在时空中变迁,与数据的演化紧密交互。这种时间-空间的动态过程折射出志愿者地理信息的本质,也是解释这一新型地理数据生产模式中数据质量如何生成的关键所在。最近的研究越来越多地采用历史贡献数据,却受限于数据规模过大,数据格式不友好,时空数据具有本质复杂性等问题。本文基于时间地理学定义了一个OpenStreetMap历史数据的时空模型,用以建模、分析和探讨这一过程,并在此基础上实现了一套工具集,以便相关研究能高效地建模并生成自己想要的结果,避免重复劳作。(2)定量化地分析了贡献不平衡性的基本特征、时空规律与内在机理,拓展了贡献者和社区分析的广度与深度志愿者地理信息不断扩张的规模挑战着人们的认知,贡献不平衡性就是其中最重要的问题之一。贡献不平衡性指的是绝大部分数据来自于极小部分的贡献者,而绝大多数贡献者总共只负责一小部分数据。这一现象对于理解数据从何而来和项目如何发展至关重要。许多研究发现了贡献不平衡性,但并没有将其放在整个项目的演化当中进项全面和深入的讨论。本文回答如下问题:OpenStreetMap中贡献的不平衡性程度如何、又如何随时间改变?哪类贡献者对这种趋势起到了决定性的作用,是“沉默的大多数”还是“发声的少数”?本文使用基尼系数和洛伦兹曲线来量化不平衡性,设计了基于分位数的分类策略来考察社区的结构,并使用秩和检验来分析生产率的改变。(3)基于贡献历史推断主要贡献者的专业度,重新审视了志愿者地理信息的数据是来自专业用户还是业余用户这一久被忽视的问题,对相关研究领域的基本假设进行了重估。既有研究往往将志愿者地理信息考虑为业余爱好者的产物。有些研究者发现了社区中的异构性和人员背景的多样性,但仍囿于社区中大部分是业余爱好者的事实,未能辨明数据究竟来自于专业还是业余用户这一至关重要的问题。本文针对主要贡献者进行讨论分析,设计了一个基于贝叶斯法则的逻辑推断方法,并围绕实践、技能与动机定义了一系列指标和行为,揭示了长久以来掩盖在长尾分布的噪声中的事实,即贡献了绝大多数数据的贡献者很可能是专业用户。(4)结合数据演化的特点,分析了主要贡献者的偏好、变迁及其影响。首次对贡献偏好进行了大规模的统计分析,将研究拓展到时间维,并对现象之下的内在结构和影响进行了深入讨论。主要贡献者的偏好决定了社区贡献的风向。多数贡献者在位置精度,几何精度,精细度,或属性精度等方面的偏好自然会使数据在某些方面获得较高的质量。贡献者的偏好变迁规律对理解数据质量的演化进程至关重要。既有研究往往止步于发现贡献者存在偏好这一现象,未能对其细节和意义进行深入探讨。本文使用熵和一系列统计方法,结合数据演化的特征揭示了主要贡献者中偏好的变迁规律与其对数据质 量生成的影响。本文继而用关联分析的方法探讨了社区偏好变迁的来源,发现这变迁主要来自偏好不同的贡献者的持续加入。