【摘 要】
:
在这个信息爆炸的时代,与某个特定实体相关的信息往往会由多个不同的数据源提供,比如:不同气象观测部门对同一地区的气象要素描述,放射性成像的医学图像分割阈值等。但是,传感器的观测误差,放射性药物的注射计量偏差,这些都会使不同数据源对特定实体的相关信息描述产生不同的偏差。因此,真值发现旨在从多个存在偏差和冲突的数据源中提取出最为可信的信息。近年来,真值发现得到了学术和企业界的广泛关注,传统的真值发现模型
论文部分内容阅读
在这个信息爆炸的时代,与某个特定实体相关的信息往往会由多个不同的数据源提供,比如:不同气象观测部门对同一地区的气象要素描述,放射性成像的医学图像分割阈值等。但是,传感器的观测误差,放射性药物的注射计量偏差,这些都会使不同数据源对特定实体的相关信息描述产生不同的偏差。因此,真值发现旨在从多个存在偏差和冲突的数据源中提取出最为可信的信息。近年来,真值发现得到了学术和企业界的广泛关注,传统的真值发现模型往往却依赖于这样的假设:高可靠度的数据源不可能产生大误差的观测值,即使低可靠度的数据源产生的观测误差也在一个确定的范围内。然而,结合大量的实际应用中的数据集,这种假设往往不成立:即使位于城市中心的高可靠度气象观测站也可能因为物理破坏而上传大误差的异常值,一批次的药用实验大鼠中可能因为药物不耐受的个体而使实验产生的图像分割阈值不适用。这种促使传统的真值发现模型中假设不成立的数据,在已有的真值发现文献中被称为异常数据,需要通过人工进行预去除。为此,本文拟研究面向异常数据的鲁棒真值发现算法及其应用,本文主要贡献如下:首先,针对多个可靠度的真值确实存在的情况,核密度估计方法总结了多个真值的候选观测值。通过分析数据的概率分布对源的可靠度进行概率估算,该方法被用来对源的可靠度评估以及真值的估测实现了一定的成功。然而,异常值的出现将会对该概率模型产生边界效应,从而对真值的估计产生较大的偏差。因此,本文在此研究基础上,通过局部线性回归的方法对异常数据进行拟合,利用缺失值插补的策略修复异常值。实验结果表明,所设计的方法能合理地给出数据源的可信度评分,并有效地提高了真值估测的精度。其次,本文采取迭代式动态阈值过滤方法对异常值进行过滤来提高真值发现的效率。在信息由多个来源提供的大数据环境中,传统真值发现普遍认为将平均值作为真值的方法可行性并不高,而选取中值却是被认可的。在实际应用的数据集中,由于所测试的小样本数据中的异常值影响了数据分布,导致了中值与算术平均值产生了差异。这种差异是导致样本数据质量低的主要原因。由此,本文提出一种迭代式动态阈值过滤异常值的方法,定量地过滤掉异常值以提高数据质量。实验结果证明了理论方法的可行性。同时相比已有的真值发现方法,上述方法不仅减小了对真值估测的误差而且提升了算法的运行效率。
其他文献
目的:观察隔药十字灸法治疗脾肾阳虚型慢性疲劳综合征的临床疗效,对比隔淀粉十字灸法治疗该病,比较和分析这两种方法治疗前后的疗效,为临床上治疗慢性疲劳综合征提供新思路。方法:筛入符合标准的慢性疲劳综合征患者60例,随机分为试验组(隔药十字灸组)与对照组(隔淀粉十字灸组)各30例,比较治疗前后慢性疲劳综合征以及中医伴随症状评分的变化情况。结果:1.中医症状的改善情况:隔药十字灸组单项临床症状积分和症状总
自党的十八大报告提出“人类命运共同体”后,人类命运共同体已多次在不同场合被提及,现已受到越来越多民众的关注,人类命运共同体思想得到了多数民众的认同。文化是人民的精神家园,是民族进步和社会发展的持久动力。人类命运共同体思想是基于马克思主义理论、中国优秀传统文化、当代社会主义先进文化等一系列文化基础发展起来的。在对人类命运共同体思想的研究中,文化起着举足轻重的作用。为此,本论文将以文化作为研究视角,从
Lévy单是一类重要的具有零初值,平稳独立增量且随机连续的两参数随机过程,Poisson单、Brown单等都是特殊的Lévy单.Lévy单在物理、经济、金融、通信,保险等领域都具有十分重要的应用.因此,研究Lévy单具有重要的学术价值和应用价值.针对Lévy单的样本分布,一致随机连续性等,本文得到以下结果:(1)样本分布,给出了Lévy单同分布、独立同分布的相关结论.(2)一致随机连续性,证明了L
瓦斯灰是高炉冶炼的重要副产物,含有大量的可燃性含碳物和丰富的金属资源。含碳物的含量可反映高炉供料结构的合理性以及生产参数的稳定性,金属及其氧化物可进行资源回收再利用。因此,实现瓦斯灰成分的定量分析对于指导高炉顺行、低耗生产以及瓦斯灰的高效、洁净化利用具有实际意义。本文在分析瓦斯灰中不同目标成分显微图像特点的基础上,采取分割与分类相结合的方式对于含碳物和金属氧化物进行识别,鉴于两者尺寸不一以及识别的
《中级汉语精读教程》(第二版)是北京大学出版社在2010年出版的一套长期进修中级精读对外汉语教材。本文研究对象是《中级汉语精读教程》(第二版)中的生词项目。通过采用定量分析法、对比分析法和归纳分析法对《中级汉语精读教程》(第二版)教材中的生词量及等级、生词复现、生词释义内容进行考察,笔者发现:该教材所选生词对中级水平的外国留学生来说学起来有一定难度,建议在课文中用简单词代替复杂的书面语词,然后在汉
光纤激光在工业加工、遥感探测以及生物医疗等多个领域有着广泛的应用。不同应用领域对光纤激光的特性(如功率、偏振、空域、时域和频域等)有一定的需求,因此,对激光特性调控
微型金融机构是为中低收入群体提供小额金融服务的金融机构,是对传统金融体系的一种有效补充。根据所有权类型的不同可以将微型金融机构划分为非政府组织、信用合作社、非银
模块化智能变电站的新型建设模式大大减少了变电站的占地面积,缩短施工周期,是未来变电站建设的主流模式之一。目前,海南地区变电站设备受海岛地区“三高”“三强”典型气候影响,存在着腐蚀严重、故障率高等问题,且智能化水平低。因此,海南要在2025年全成建成智能电网综合示范省,需采用简单、可靠、快速的模块化智能变电站建设新模式,快速提升省内智能站的建设速度及智能化水平。同时南网110k V变电站标准设计方案
随着我国城乡一体化建设的不断深入,新型城镇化进程给城乡社会发展带来了巨大的影响,社区和农村作为我国基层社会治理的微观单位,面临着越来越复杂的社会问题,比如城乡流动人口增加,农村留守儿童与留守老人等。同时,城乡社会经济的发展变革也带来了新的经济增长与利益分配格局,城市经济结构发生变化,农村传统农业生产关系不断瓦解,给城乡社会稳定带来了巨大挑战和压力。为了加强城乡社会治理机制创新,解决基层警力不足,维
基于指纹特征的文本复制检测技术虽然可以快速识别抄袭现象,但是存在指纹特征过大,指纹特征选取复杂,相似度计算效率低等问题。为了解决上述指纹特征提取中存在的问题,本文提