【摘 要】
:
随着互联网、信息技术及存储技术的快速发展,数据量呈指数增长,获取大量有标记数据样本十分困难,而获取大量未标记数据样本相对容易。半监督学习和迁移学习都能够利用少量已
论文部分内容阅读
随着互联网、信息技术及存储技术的快速发展,数据量呈指数增长,获取大量有标记数据样本十分困难,而获取大量未标记数据样本相对容易。半监督学习和迁移学习都能够利用少量已标记数据和大量未标记数据进行训练学习,不需要大量的人力物力去获取有标签的数据,节省了时间和成本。然而,半监督学习在使用未标记数据时可能导致学习性能下降,而迁移学习领域自适应方法在维度约简过程中忽略了标签的依赖关系,也可能导致分类准确率降低。本文针对这些问题进行了改进,主要工作如下:(1)为了减小Tri-training算法在学习过程中产生的标记噪声对学习性能的影响,本文分别提出了一种基于交叉熵的Tri-training算法、一种安全的Tri-training学习算法、一个基于交叉熵的安全Tri-training学习框架。在提出的方法中,用交叉熵代替错误率来更好的反映模型预估结果和真实分布之间的差距,并结合凸优化方法降低了标记噪声,提高了伪标签的质量和模型的泛化性能。在UCI基准数据集验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能。实验结果表明,所提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tritraining算法拥有更高的分类精度和泛化能力。(2)现有的领域自适应方法在维度约简过程中没有考虑到标签与特征之间的依赖关系,维度约简后也未考虑如何保留数据局部性。针对此问题,本文提出了一种半监督均衡分布自适应方法。提出的方法首先利用最大均值差异来近似源域和目标域的边缘分布距离和条件分布距离,其次利用Hilbert-Schmidt独立性准则测量源域中标签与特征的依赖关系,然后利用流形正则化器的局部保持性保留数据的局部信息,最后将来自不同分布的源域和目标域数据维度约简后得到的数据集用在Tri-training上,解决了用Tritraining算法直接处理非独立同分布数据集的不足。实验结果表明,所提方法具有良好的分类准确率,且在一定的参数选择范围内可以保持稳定性。
其他文献
随着半导体工艺的快速发展以及技术水平的不断提高,单个芯片上可以集成越来越多的IP核,片上系统(System on Chip,SoC)处理器结构逐渐朝着多核化和异构化的方向发展,基于总线结构的片上系统产生的问题越来越明显。为了更好地满足应用需求、提升系统性能,片上网络(Network on Chip,NoC)应运而生。片上网络是一种新型的片上系统通信架构,借鉴了计算机网络的思想,主要采用了数据路由、
肌电控制假肢通过解码截肢患者残肢的肌电信号,可以实现截肢患者自主控制的目的,但是在实际中,截肢患者使用肌电假肢的比例仍然较低,其中部分原因在于肌电控制的方式不够自然
文字是重要的信息传递载体,能表达高级语义信息,场景文本作为重要的表现形式在生活中大量出现。近年来,在学术界和工业界,场景文本检测已成为理论研究和应用的热点。场景文本
随着大数据时代的到来,信息数据急剧膨胀,Hadoop和Spark大数据分析平台提供了一种分而治之的解决方案来处理大量的实时数据。然而,这种用于实时数据处理的方案的关键问题之一
随着社会生产生活对电力的依赖越来越高,如何有效保障电力系统尤其是变电站的生产安全成为了一大研究热点,变电站的巡检主要是各类型仪表的巡检,以往对于仪表的巡检主要借由
随着互联网的快速发展,互联网用户群体持续增长,网络应用流量呈指数增长,互联网体系结构面临着新的需求和挑战。面对新型互联网多样性业务的需求,传统互联网的灵活性差、可靠性差等问题凸显,网络僵化问题日益突出。光网络虚拟化可以克服传统互联网所面临的这些问题。在光网络虚拟化环境下,多个虚拟网络被映射到共同的物理网络,以共享底层基础设施的资源。网络虚拟化的一个挑战是如何将具有资源约束的多个虚拟网络映射到物理网
随着以物联网和大数据为代表的新一代信息技术在装备制造业中广泛应用,装备制造型企业得以全方位地整合产业内外部资源,形成了向智能制造转型升级的战略数字资源,而优化装备
目的:探讨国产支架取栓系统的安全性与有效性方法:本次实验共应用实验动物12只,分为0天、30天和90天动物模型组,每个模型4只动物,实验组3只,对照组1只。每只动物选取3根目标血管,0天动物模型组在每根血管成功建立血栓栓塞模型后进行标准取栓,30天及90天动物模型组在每根血管进行模拟取栓3次。实验动物按计划分别存活至0天、30天及90天终点。对于0天组动物模型,选用数字减影血管造影(DSA)系统(
目的:结合深度学习算法,探究一种算法,使得多标签分类中,在测试集里出现训练集中从未出现过的数据标签组合,使用此算法能够作出较为准确的判断,并使用尽可能少的时间。这对于
研究背景和目的增生性瘢痕是临床常见病和多发病之一,是创伤后人体自我修复过程中的异常反应,以成纤维细胞增殖失控和胶原等细胞外基质过度沉积为特征的人类真皮区特有的纤维