【摘 要】
:
在真实世界的数据集中,数据缺失的情况非常普遍,例如:交通数据、人口统计信息数据、医疗数据等。数据的缺失导致了数据质量下降、诸多信息丧失,在机器学习的研究中,如果将这种残缺的数据作为模型的数据集,模型系统中表现出的不确定性将会更加显著,还会导致模型对数据信息的挖掘走向混沌的状态,最后得到不靠谱的输出。如果利用常用的算法来分析不完整的数据集,不仅会增加建模的难度,还会给后面的分析留下隐患。现有的大多数
论文部分内容阅读
在真实世界的数据集中,数据缺失的情况非常普遍,例如:交通数据、人口统计信息数据、医疗数据等。数据的缺失导致了数据质量下降、诸多信息丧失,在机器学习的研究中,如果将这种残缺的数据作为模型的数据集,模型系统中表现出的不确定性将会更加显著,还会导致模型对数据信息的挖掘走向混沌的状态,最后得到不靠谱的输出。如果利用常用的算法来分析不完整的数据集,不仅会增加建模的难度,还会给后面的分析留下隐患。现有的大多数算法不具有直接处理缺失数据的能力,因此需要在实验开始前对缺失数据进行有效的处理,后续的实验才能顺利的进行,如何处理缺失数据,并且保留数据集中特征属性之间的关联性,补全的信息尽量符合真实的信息是数据处理过程中一个重要的问题。目前,对于缺失值的处理方式主要分为两种:直接删除不完整的样本、补全缺失项。在现有数据集不大,所利用的有效信息不多时,直接删除不完整样本会导致模型建模的数据量减小,本文所使用的ADNIMERGE数据集中,大部分的患者记录中都有不同程度的缺失,如果直接删除含缺失项的数据,将会导致大量的信息丢失。因此补全缺失项是一个合理的解决方案。本文针对阿尔兹海默症病人的脑组织特征进行缺失项补全,每个脑组织对应脑区的特定功能,阿尔兹海默症在大脑中的宏观变化体现在各个脑组织的萎缩和退化,脑组织之间的变化是有密切的联系的。本文研究的一个重点在于特征补全时,如何保留特征之间的联系以及利用这种联系使得填补值更加精确,并利用补全后的脑组织特征对阿尔兹海默症的病程进行预测,来验证填补的有效性。1)本文提出了一种特征保留型自编码器,融合了去跟踪自编码器和多重填补降噪自编码器的优点,并对该模型进行了改进。融合的两种自编码器,前者能有效解决自编码器存在的恒等映射问题,后者能很好的挖掘并保留特征间的相关性。融合之前对特征数据进行预填补,有效的缓解了降噪后的信息损失,并加快了模型的训练过程。2)对于填补好的脑组织特征数据集,通过对两次诊断记录进行融合,将带有脑组织形态学变化的组合特征进入到数据集中,针对和阿尔兹海默症相关性高的脑组织做合成处理,经过特征降维处理后,通过几种分类模型来验证填补效果。3)为了解决ADNIMERGE数据集中脑组织特征大量缺失,并且特征数据每日都在更新的问题,同时为了满足单个用户通过脑组织的形态变化来判断自己是否有患病的风险,本文设计并实现了脑组织特征填补及AD病程辅助诊断系统,针对研究人员设计了特征数据集填补,针对个人设计了特征填补及病程预测。
其他文献
本文通过比较企业财务会计与管理会计的功能,分析了两者之间的差异与联系,并探讨了企业财务会计向管理会计转型的必要性和动力。在此基础上,本文进一步探讨了企业财务会计向管理会计转型实践中的问题,并提出了相应的解决策略。最后,本文以某企业为例,深入分析了该企业财务会计向管理会计转型的实践过程,总结了转型成功的经验与教训。
随着以现代计算机技术为基础的网络经济崛起,虚拟试衣、时装展示等人工智能技术在服装业中得到了广泛的应用,人们越来越习惯于在线上购买服装。随着经济发展,人们越来越不满足于千篇一律的成品西装而转向寻求对西装进行个性化定制。西装由于其正装的属性,款式较为固定,所以在线上个性化定制西装时,用户更在意对西装面料的选择定制。为满足用户需求,可以利用图像合成技术实时生成不同面料西装的效果图,这样不仅可以提升用户的
近年来,由于移动设备的普及以及社交媒体网站的发展,互联网上产生了规模前所未有的多媒体数据量。多媒体数据核心的表现为一个实例可以通过不同的媒体类型呈现,不同媒体类型的数据存在一定程度上的语义关联。因此,人们对于大规模跨媒体数据检索的需求与日俱增。与此同时,跨媒体检索也已经成为了一类重要的应用,由于其更加符合现实的应用场景,从而往往能够显著提升用户体验。在这类应用中,人们使用一个模态的查询实例(例如图
进入二十一世纪以来,移动通信技术飞速发展,各种计算密集型应用不断涌现,如AR/VR、视频流处理等,传统的云计算模式在处理此类应用时,造成了较大的时延和能量消耗。为了降低计算任务处理时延和能量消耗,业界提出了移动边缘计算(Mobile Edge Computing,MEC)来解决上述问题。MEC模式把CPU资源、磁盘资源和互联网资源等分配到处于互联网边缘的MEC服务器中,为移动终端提供服务。由于ME
为实现“三位一体”智慧医院的建设目标,提升医院综合效益,推进落实医院后勤科学化、标准化、精细化管理水平,成都中医药大学附属医院以“完善标准、强化监督、多方协同、数字基底”为思路,以建筑信息模型(Build-ing Information Modeling,BIM)为内核,运用大数据、人工智能、云计算等数字技术进行管理实践,实现了后勤运维可视化把控,大幅降低人工成本,提升了医院保障服务安全及效率。
联邦学习作为一种分布式深度学习框架,能够解决由于数据隐私无法集中数据进行训练的问题。传统联邦学习采用中心化参数服务器对模型进行聚合、更新和分发,容易引起单点故障和数据泄漏问题。通过结合去中心化、不可篡改的区块链,能够解决联邦学习中的信任问题。然而,区块链无法避免恶意者通过修改训练样本而引起的中毒攻击。现有研究结合聚合规则或异常检测来防御中毒攻击,但仍存在防御效果差、难以准确识别恶意节点和中毒率超半
受益于数据的爆炸式增长和算力的飞速发展,以深度神经网络为代表的人工智能技术飞速发展。如今,深度学习技术已广泛应用在医疗诊断领域进行手术风险自动评估、药物研发、疾病预测、疾病早筛等。美国食品和药物管理局(FDA)在2018年已经批准了有史以来第一款自动人工智能(AI)诊断仪的上市。伴随着人工智能系统的日益推广,如何对其在医疗健康等安全关键型环境中的性能进行监管成为新的问题。数据是深度学习模型构建的核
淋巴瘤是起源于淋巴造血系统的恶性肿瘤,是血液肿瘤中发病率最高的类型。对于疑似恶性淋巴瘤的筛查手段有很多。近年来,先进超声检查技术在临床上的应用,为淋巴瘤的诊断提供了更加便利的条件。高分辨率超声能显示淋巴瘤的大小、形态和内部回声结构及其变化,提供丰富的诊断信息,临床医生可以凭借其镜下超声表现筛选出疑似细胞进而通过穿刺活检获得明确的病理诊断。但对于临床经验较为缺乏或非肿瘤科领域的医生来说,镜下筛选过程
由于阿尔兹海默病(Alzheimer’s Disease,简称AD)对中老年人的危害较大,近年来发病率逐渐提升,并且该疾病病程漫长,不可逆转且暂无有效的治疗方式,只能秉持早发现早干预的方针,对患者进行早检查以及早预后,因此其早筛尤为重要。多阶段事件判别模型(Multi-stage Event Discriminant Model,MDEBM)以生物标志物属性变化为事件,通过样本横截面数据分析得到阿
阿尔兹海默病(Alzheimer’s Disease,AD)目前是中老年人群中较为常见的高发疾病,已经严重影响患者及其家庭的正常生活。然而,目前的治疗药物只能尽可能延缓AD的病变进展,却不能从根本上医治AD患者。因此,通过利用计算机技术研究AD的疾病进展情况,帮助医生实现AD患者的早期干预,对潜在的AD病变者尤为重要。Tau蛋白是AD的主要致病物质之一,在脑部鉴定Tau蛋白含量有助于区分认知正常的