基于支持向量机的多示例学习算法

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:hyp88_down
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多示例学习是一种新型的机器学习框架,与其他学习框架不同,它从由多个示例组成的包中学习分类器,并对包或示例的标签进行预测。多示例学习的特点是其训练集只具有包层级的标签信息,而示例层级的标签信息是未知的。在多分类多示例学习问题的假设中,每个包至少含有一个示例的标签与从属的包标签一致。以往对多示例学习的研究假设数据集只包含目标类,即需要分类的类别,然而在现实应用中研究者可以收集一些不属于任何目标类的Universum数据,尽管Universum数据不属于任何类别,但它可以提供关于数据分布的先验知识,利用这些知识可以提高训练的分类器的性能。针对带有Universum数据的多分类多示例学习问题,本文提出了融入Universum数据的多分类多示例学习方法(UMMIL)。该方法第一步是在每个包中选择初始的候选示例,选择完成后,每个类的所有候选示例组成一个新的子集,而不是候选示例的示例也组成一个子集。第二步是使用一个相似度模型表示所有的示例,每一个示例对每个类都有一个相似度。第三步是训练一个多分类多示例分类器,本文提出一种扩展的的融入Universum的基于相似度的支持向量机模型。第四步是更新候选示例,提出一种迭代框架迭代的更新每个包中的候选示例并训练支持向量机模型。在测试阶段,测试包的预测标签取决于包中所有示例在所有分类器上的投影。与现有的多示例方法相比,该方法考虑了Universum数据提供的先验知识,可以学习出更精确的分类器。本文在五个数据集上进行实验,通过与现有多示例学习方法进行比较,验证融入Universum数据的多分类多示例学习算法的有效性。实验结果表明,与现有的多类多示例学习算法相比,本文提出的方法在具有更高的分类准确性的同时对标记噪声的敏感性低。
其他文献
生成技术旨在利用合适的算法分析视频结构,从原始的视频数据中筛选出具有代表性的、用户可读的精简摘要。目前基于Seq2Seq模型的视频摘要生成技术能有效地学习人类理解视频的高级语义,对视频数据中的帧间依存关系进行建模,并生成具有较强概括能力的视频摘要。然而,现有视频摘要生成技术存在计算量大、由冗余帧带来的性能损耗大和模型效果不稳定等问题。本文围绕降低视频摘要结果的冗余度和提高模型训练效率展开研究,主要
习近平人工智能发展重要论述遵循马克思主义唯物史观的基本原理,总结和借鉴了中外人工智能发展的历史经验,因应了当前人工智能发展的国内外形势,是习近平对人工智能发展的全新思考和科学判断。该论述对人工智能基础研究的重要性、科技创新和人才创新的重要内容进行深刻阐释,对人工智能世界合作的模式进行积极探索,同时对数字经济范式融合人类命运共同体先进理念的新型文明形态进行展望。全面落实习近平人工智能发展重要论述,必
在低剂量CT图像质量改善问题中,存在去噪算法的定量指标和定性指标不匹配的问题。在医学成像中,一次CT扫描的X射线辐射量远高于常规X光成像。减少X射线辐射量最常用方法之一是降低X射线管的工作电压或电流,但是该方法会导致大量的量子噪声,使图像质量下降,从而影响患者的病情的判断。因此消除或抑制低剂量CT图像的噪声,改善图像质量成为研究的热点。近年来,研究者们提出了许多经典的机器学习算法以及深度学习方法来
合成孔径雷达图像领域开放数据集较少、图像相干斑噪声等因素,导致一些基于合成孔径雷达图像地物分类应用的精度偏低。深度学习中卷积神经网络和迁移学习技术在语义分割领域的应用取得了较好的效果,卷积神经网络可以提取图像的高层特征,迁移学习技术使用源域的先验知识帮助语义分割模型的训练,为提升基于合成孔径雷达图像的地物分类应用的精度提供了新思路。针对合成孔径雷达图像语义分割数据集较少的问题,采购了研究区域内的T
随着我国基建工程的飞跃式发展,国内隧道工程呈现出规模化,复杂化的趋势,给隧道监测带来了新的挑战。而如何基于无线信息化技术实现监测数据的高效集成管理,并建立实时的三维可视化监测平台,是目前亟待解决的问题。从早期的人工检查到现在的自动化监测设备,从现场巡检到无线化监测,伴随飞速发展的信息技术,隧道监测系统呈现向云平台发展的趋势,然而目前的监测系统在图纸呈现方式多数停留在平面化,对比三维展示不够直观,尤
随着中国经济发展,社会进步,人民生活水平从如何吃饱转变为如何吃好的问题,从而更加关注食品新鲜与健康问题,生鲜农产品的需求量与日剧增,对冷链物流运输能力产生了很大挑战,然而中国冷链物流起步晚,虽然经过一定的发展,但是冷链物流运输能力由于冷链运输车辆保有量较低,远不能满足市场冷链物流运力的需求。通过发展冷链物流,提高配送效率,满足冷链市场对基础运力的需求,保证生鲜农产品的新鲜度和安全性同时减少浪费。冷
随着海洋强国的兴起,国家加大对沿海地区及岛礁的建设,部分地区出现严重的河砂及淡水资源短缺现象,使用海水和海砂来制备混凝土,不仅就地取材节约成本,还能解决由使用淡水和过度开采河砂造成的资源枯竭和环境问题。然而钢筋在海水海砂混凝土中氯离子富集的环境下会加速锈蚀,GFRP(玻璃纤维复合材料)筋因其优异的机械性能和抗腐蚀性,可有效解决钢筋的锈蚀问题,因此GFRP筋-海水海砂混凝土结构拥有良好的应用前景。框
在图像分类领域,深度神经网络(Deep Neural Network,DNN)取得了巨大的成功,表现异常出色。但是,对原始输入样本添加微量的扰动,可以形成对抗样本,会误导已经训练好的神经网络分类模型,使其分类错误。所生成的对抗样本与原始输入在视觉上差异很小,人类无法察觉,但分类模型却会以较大概率的置信度识别错误,导致神经网络的安全性受到严重挑战。对抗样本的仿真生成及检测是目前的重大研究问题。现有方
甘蔗作物具有糖料和能源原料的属性,是我国九大主要农作物之一,围绕甘蔗的相关产业链在农业经济中有着重要的地位。随着国家对现代化农业的重视,利用遥感技术对甘蔗进行精准、实时的生长监测,对于甘蔗的估产、政府的农业补贴政策的制定具有重要意义。以甘蔗作物种植和华南地区实际气候和天气条件为基础,针对遥感作物反演领域的若干经典参数对甘蔗的生长变化不敏感的问题,通过对覆盖甘蔗全生长周期的23景时间序列双极化Sen
越来越多的研究表明长链非编码RNA(lncRNA)在各种生物过程中起着关键作用并与多种复杂疾病存在关联关系。虽然进行生物学实验或临床研究可以发现lncRNA与疾病之间存在的关系,但是其需要大量成本和时间。因此,如何利用较少的lncRNA-疾病的关系,设计相应的计算方法以预测潜在的lncRNA-疾病关联成为了解决传统生物学实验昂贵且费时的有效途径,也是当前的研究热点。近年来,研究人员提出了各种计算方