论文部分内容阅读
2015年8月,国务院颁发的《促进大数据发展纲要》中大力鼓励推动大数据的发展和运用,明确了大数据给我们整个社会带来的飞速改变和巨大效益。随着每天数据量的增长,也进一步衍生出了数据交易市场。但是,目前数据交易市场缺乏完善的交易机制,导致数据交易价格不合理,很多企业频繁发生数据断交等事件。2017年9月,随着国家发改委及国资委的《公共交易平台数据规范》的颁布及实施,使得其成为了公共数据交易的技术标准,不仅打破了信息的壁垒,而且推动了数据的共享。面对大量的数据交易,交易双方必须有基本的交易参考标准,有规范的数据定价,而不是单一的依靠数据量的大小作为定价的标准。如此看来,研究数据的质量问题变成公平数据交易的首要问题,如果交易双方能够对数据的价值有基本的判断,那么将会降低数据交易的成本。因而,对交易的数据进行质量评估对规范数据交易市场、数据定价具有十分重要的指导意义。传统对数据质量评估方法是基于ISO9000系列标准提出一些数据评估的维度,或是研究某些数据质量特征。面对如今大量的数据应用,这种研究方法已经不能满足当下实质性的需求。我们每天生活出行都产生很多的轨迹数据,所以本文选择基于智能公交IC卡刷卡和公交GPS轨迹两类数据进行数据质量评估方法的研究,从数据接入到清洗,提出不同的指标算法对数据进行评估,每个指标都利用熵值法进行权重的计算,最后得出数据的质量评分,进而将数据的质量评估结果量化,得出比较直观的评估结果。为了对所提出的质量评估模型进行准确性的验证,本文分别计算OD客流量和准点到站率来对两类评估后的数据进行验证。经验证,数据评估得分为90~100分的数据集所算出的OD客流量和准点到站率达到真实值的95%以上,正确率明显提高了10%以上。而得分在70分及以下的数据集所算出的OD客流量和准点到站率只有真实值的60%左右。可以发现,本文所提出的质量评估模型对数据具有很好的评价效果,得分越高的数据有效提高了数据运用的正确率,也证明了本方法对数据的质量评估是非常有效的。为了将数据质量评估的结果更好的展示,本文进一步将评估过程一体化,将评估结果进行可视化的展现,这样更直观、形象的展现评估结果,将整个数据质量评估的过程和结果进行了很好的整合,真正方便、快速的实现对接入数据进行质量评估。