【摘 要】
:
面对数据爆炸式积累的大数据时代,从海量数据中如何高效的挖掘信息成为了一项有意义的研究课题。分类是数据挖掘中基本且重要的技术,在生物特征识别、文档分类、医学诊断等领域有着广泛应用,而数据缺失是进行分类任务时需要处理的一个常见缺陷。真实数据集中通常会存在数量不等的数据缺失,从而增大了数据分析的难度。在此背景下,本文论述了一种不完整数据分类辅助缺失值填补的多任务学习模型,以提高缺失值填补性能为切入点,研
论文部分内容阅读
面对数据爆炸式积累的大数据时代,从海量数据中如何高效的挖掘信息成为了一项有意义的研究课题。分类是数据挖掘中基本且重要的技术,在生物特征识别、文档分类、医学诊断等领域有着广泛应用,而数据缺失是进行分类任务时需要处理的一个常见缺陷。真实数据集中通常会存在数量不等的数据缺失,从而增大了数据分析的难度。在此背景下,本文论述了一种不完整数据分类辅助缺失值填补的多任务学习模型,以提高缺失值填补性能为切入点,研究充分利用不完整样本中隐含的有价值信息的填补方法。该方法在自联想神经网络的基础上建立了一种基于置信度的属性互联多任务学习模型,通过优化输出层节点的数据传输路径,构建主要填补任务与次要分类任务并行的多任务学习架构。同时为了提高数据集中已知观测值的利用率,将不完整样本加入到训练集中一同参与模型训练。然后利用样本中的属性缺失率作为该样本的初始置信度,以调节不完整样本和完整样本输入对模型参数优化的影响程度。另外,在神经网络的分段式填补方案的基础上,将缺失值作为未知变量参与到模型训练的过程中,同时基于优化算法对缺失值进行迭代式更新,以此降低预填补引入的估计偏差。同时,将分类任务得到的结果用来动态更新置信度,从而改进代价函数的权重以改变对模型参数优化的程度。让模型的训练与填补同时进行,即训练结束填补也伴随式完成。本文选用UCI、KEEL中的数据集对上述两部分研究内容分别进行了实验,验证了所提模型和填补方案在不完整数据分类和缺失值填补方面具有较高的准确性。在数据质量难以保障的今天,本文涉及面向不完整数据的分类和填补方法的研究具有现实意义。
其他文献
城市道路交通流预测有助于相关部门对交通供求协调以及制定交通管理计划,同时也为出行者路线规划提供有利依据,也是智能交通系统ITS(Intelligent Transportation System)研究和应用的核心组成部分。然而交通流预测也是一个复杂的课题,该课题从对交通特征建模的数理统计分析到以知识发现的智能预测方法为主体的预测经历了巨大的演变,智能预测方法以大规模数据为基础、以深度学习为核心、以
放射治疗是治愈癌症的强力手段,而医生准确诊断则依赖于多种模态医学图像(如MR、CT图像等)所提供的综合信息。CT图像为制定放射剂量所必需,但其拍摄时具有辐射性,且某些情况下CT图像诊断价值并不高,另外不同医学图像间的严格配准也较为复杂和费时。因此准确高效地从MRI图像直接转换为CT图像能够为患者减轻经济、健康负担,为医生节省时间精力,具有较大的意义。目前,相对于传统方法精度和速度不足的问题,现有方
背景:生长激素具有免疫调节、促进细胞增殖及蛋白合成等生理作用,已被证实可以促进急慢性创面愈合。目的:构建过表达生长激素的脂肪干细胞系(生长激素-脂肪干细胞),并探究其对成纤维细胞增殖迁移能力的影响及其分子机制。方法:(1)体外分离并鉴定脂肪干细胞;(2)构建生长激素过表达慢病毒,将脂肪干细胞分为生长激素组、空载组、对照组,以上3组分别转染生长激素过表达慢病毒、空载慢病毒或不进行传染;(3)RT-q
随着社会的发展,海量数据在给人们带来生活便利的同时也带来了困扰。以用户购房为例,海量房源数据使用户容易陷入信息过载的泥潭,难以获取到有效数据;并且区位资源已经成为用户购房考虑的重要因素,但是用户难以将自己对于区位资源的需求同房源数据关联起来。本文针对以上用户购房时遇到的问题进行设计实现。系统由六个模块组成,分别是数据台账、查询统计、区位资源、房源推荐、房源对比和个人信息。数据台账模块展示整体房价和
基于草图的图像生成是计算机视觉中一个亟待解决的重要问题。对于手绘草图来说,不同用户对同一个对象的表达有巨大的差异,这要求算法模型能够学习草图类别内部巨大的差异。并且,草图与图像之间存在着尺度与纹理间的巨大差异,这种特征之间的鸿沟使得草图生成图像模型训练更加困难。为了填补草图与图像之间的特征鸿沟,本文提出了由草图到边缘图,再由边缘图到图像的两阶段草图生成图像模型,并应用该模型实现了基于多类别草图的图
当下的工业物联网(Industrial Internet of Things,IIo T)包含了承担多种不同业务的节点。IEEE 802.11ac/ah协议共同应用于IIo T中,可以满足复杂的传输需求。信道绑定技术和限制接入窗口(Restricted Access Window,RAW)机制是IEEE 802.11ac/ah协议在媒体访问控制(Media Access Control,MAC)层
网格作为工业界建模,模拟,有限元分析计算以及多媒体,游戏开发等计算机三维图形应用中几何物体的表示方法,在信息时代中起着不可或缺的作用,它使简单的模型文件可以显示在屏幕上,进行动画渲染以及仿真计算。在计算机图形领域的快速发展的当下,网格的生成与相关算法成为该领域的一个热点。现在的表面网格中,广泛应用的有三角形网格和四边形网格,而四边形网格由于其适用于纹理贴图与离散计算的特性,更是发挥着越来越重要的作
计算机视觉在体育视频方面已经越发的成熟,并且在很短时间内获得了长足的发展。其中目标跟踪是热门研究方向之一,多目标跟踪是现阶段要解决的难点问题。本文目的是在现有目标跟踪算法基础上,针对足球转播视频的场景下进行改进,完成对小目标球员的跟踪,并将算法应用于移动端进行实时跟踪。在预处理阶段,本文对于原始的足球转播视频存在大量镜头切换的现象,提出基于主色率和帧差阈值双阈值限定的视频镜头检测算法,对原始足球转
隐喻普遍存在于人类的日常表达中,据统计,平均每三句话就包含一句隐喻。隐喻是一种常见的语言表达方式,也是一种重要的认知手段。人类习惯于借助已知的具体概念来描绘未知的抽象概念。准确地识别出隐喻现象能够帮助人们更好地理解复杂的抽象概念,深入地挖掘语言中的深层含义。目前,隐喻识别已经成为自然语言处理领域中的一个重要问题,被广泛应用于信息抽取、观点挖掘、机器翻译、情感分析等任务中。随着社交媒体的蓬勃发展,语
芯片行业不断发展,IC设计规模和复杂程度进一步提高,IC验证已成为高性能芯片研发过程中的一个重要瓶颈。同样,FPGA系统的验证工作存在复杂性和全面性的问题。当前仿真验证与形式化验证技术主要针对系统实现的中后期,对于早期设计与需求的一致性验证上未能发挥作用。而越早开始系统验证工作,发现错误后的改正成本越低。从验证的全面性角度考虑,验证工作应尽量覆盖数字系统的设计实现过程,做到问题尽早发现,提高验证效