【摘 要】
:
目前,越来越多的政府机构和企事业单位开始了开放数据的工作,建立了许多公共数据开放平台,实现数据共享。但由于公共数据涉及的领域较多,来源复杂,在规范性和完整性等多方面存在着更复杂的质量问题,导致常用的清洗算法对于公共数据进行清洗的结果不理想,影响了公共数据的使用效果和利用率。因此本文通过对开放数据平台的公共数据质量问题进行分析,基于聚类思想,对几类常用数据清洗算法进行研究和改进,并设计了一个公共数据
论文部分内容阅读
目前,越来越多的政府机构和企事业单位开始了开放数据的工作,建立了许多公共数据开放平台,实现数据共享。但由于公共数据涉及的领域较多,来源复杂,在规范性和完整性等多方面存在着更复杂的质量问题,导致常用的清洗算法对于公共数据进行清洗的结果不理想,影响了公共数据的使用效果和利用率。因此本文通过对开放数据平台的公共数据质量问题进行分析,基于聚类思想,对几类常用数据清洗算法进行研究和改进,并设计了一个公共数据清洗框架。首先对主流的公共数据平台上的数据进行分析研究,总结目前公共数据存在的普遍性质量问题。接着介绍了数据清洗的基本方法、分析了公共数据清洗的需求,以此作为清洗算法改进的基础。在重复、相似数据的清洗方面,对近邻排序算法(Nearest Neighbor Sorting Algorithm,SNM)进行研究和改进。SNM算法在重复值清洗过程中排序关键词的选取影响相似排序结果,滑动窗口不易控制且不能伸缩,相似度阈值的设置等问题都极大影响清洗的结果。因此基于聚类与综合属性权值对算法进行了改进。综合属性权重法来避免固定属性权重的问题,关键词排序用聚类方法来代替,将数据与聚类后的结果集进行匹配,解决窗口设置导致的数据遗漏等问题。并使用公共数据集对改进后的算法做实验进行对比分析,验证改进后的算法的有效性。在缺失值清洗方面,以初始k值的确定、初始聚类中心点的选择、孤立点的检测与去除等为方向,对k均值聚类算法(K-means clustering algorithm,K-means)数据清洗算法进行了研究和改进,基于迭代得到更加准确的k值,借鉴基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法的思想,基于最大距离和最大密度优化聚类中心的选择,避免离散点对聚类结果的影响,提高类间数据关联度。使用数据集对改进后的算法进行实验和数据分析。最后,基于改进后的清洗算法,总结出一套适合公共数据的清洗框架。清洗框架包括适合公共数据的清洗规则与质量规则的制定阶段,清洗阶段和评估阶段等。选取了公共数据集进行了数据清洗实验,分析验证公共数据清洗框架的可行性,以及改进算法在清洗框架中的有效性,得出实验数据结果和最终结论。由实验数据分析得出,改进的算法对公共数据清洗准确度较之前有明显提高,所提出的公共数据清洗框架具有较好的可行性和效果。
其他文献
目的:分析术前淋巴细胞绝对数与C-反应蛋白比值(Lymphocyte to C-reactive protein ratio,LCR)在Ⅱ/Ⅲ期胃癌中的临床价值。方法:纳入2013年1月至2016年12月于我院接受胃癌根治性切除术的Ⅱ/Ⅲ期胃癌患者116例。收集患者术前的中性粒细胞数目、血小板数目、淋巴细胞绝对数、单核细胞数目、C-反应蛋白(C-reactive protein,CRP)、癌胚抗原
目的:目前内镜下乳头括约肌大球囊扩张术(EPLBD)已越来越多地被用于治疗胆总管结石,虽然多与内镜下乳头括约肌切开术(EST)联合使用,但单独的EPLBD不仅能减少对括约肌的损伤,同时更易于操作且节约了成本。最近的研究发现,单独的EPLBD与EST有着相似的疗效及安全性,并且可以减少机械碎石使用率和出血发生率。因此本文通过对比单独的EPLBD与EST,来评价单独的EPLBD治疗胆总管结石的疗效和安
目的:皮质类固醇注射是治疗原发性冻结肩(Primary Frozen Shoulder,PFS)的常用保守治疗方法,但关于不同注射部位是否具有不同疗效仍存在争议。其中肩袖间隙(rotator interval,RI)在冻结肩的发生发展过程中起着关键作用,研究证明RI注射比传统盂肱关节(intra-articular,IA)注射更优。然而通过检索,我们发现对于RI、IA联合肩峰下滑囊(subacro
目的:肝细胞癌(HCC)是一种具有高度恶性、复发性和耐药性的肿瘤,肝细胞内基因表达异常与HCC的发生密切相关,本研究的目的是筛选肝脏肿瘤组织和正常肝脏组织之间的差异表达基因(Differentially expressed genes,DEGs)并寻找枢纽基因,为肝癌的诊断及治疗提供相关潜在靶点。方法:从高通量基因表达数据库(Gene Expression Omnibus,GEO)中分别下载基因表
数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表
背景:甲状腺乳头状癌(papillary thyroid carcinoma,PTC)合并有桥本甲状腺炎(Hashimoto’s thyroiditis,HT)的患者常伴随着中央区淋巴结肿大。如何在术前发现中央区淋巴结转移的高危因素将有助于指导甲状腺癌手术的范围,尤其是是否行中央区淋巴结(central lymph node,CLN)的清扫具有重要意义。本研究的目的是确定PTC合并HT患者发生中央
目的:探索鼻咽非角化未分化型鳞状细胞癌组织中Ki-67的表达强度及治疗前中性粒细胞绝对值/淋巴细胞绝对值比值(NLR)在鼻咽癌对鼻咽癌预后的预测意义。方法:通过对2007年1月-2017年1月经重庆医科大学附属第二医院耳鼻咽喉科收治并经病理活检确诊为鼻咽非角化未分化型鳞状细胞癌患者的回顾性分析,入选患者共178名。记录患者性别、年龄、吸烟史、饮酒史、TNM分期,收集患者外周血白细胞计数(WBC)、
目的:探讨颈围作为一种预测指标在多囊卵巢综合征(polycystic ovary syndrome,PCOS)患者中评估其对胰岛素抵抗(insulin resistance,IR)及代谢综合征(Metabolic syndrome,MS)的预测价值,为临床提供一种更简便、可靠的参考指标。方法:收集2021年1月1日-2021年12月31日于我院妇产科生殖和中心多囊卵巢综合征门诊就诊的90例作为研究
目的评价染色体微阵列分析(Chromosomal microarray analysis,CMA)在产前诊断中的临床应用价值,探索对于不同介入性产前诊断指征的孕妇使用CMA带来的诊断益处,以期为孕妇的围产期管理提供参考依据。方法对2141例进行产前诊断并进行CMA检测的病例相关资料进行分析,比较不同产前诊断指征的孕妇进行CMA检查的结果。结果2141份样本的CMA结果显示,CMA的总染色体异常检出
目的在结肠镜检中丙泊酚作为目前使用最为广泛的镇静药物,可为患者时带来不错的镇静效果,但也会引起患者认知功能下降,影响日常活动。现在越来越多的患者在检查后需马上进入正常生活状态,目前在满足检查条件的麻醉药物中对认知功能影响较小的药物尚无定论。阿芬太尼已被证明可单独用于无痛结肠镜的检查,但在结肠镜检查患者中,关于阿芬太尼对认知功能影响的情况,尚缺乏相关研究。本研究通过神经心理学测试,比较了阿芬太尼和丙