【摘 要】
:
多示例学习是与监督学习、非监督学习和强化学习并列的第四类学习框架,目前已广泛应用于药物设计、图像搜索等领域,并已获得很好的效果。在多示例学习中,训练样本是由多个示
论文部分内容阅读
多示例学习是与监督学习、非监督学习和强化学习并列的第四类学习框架,目前已广泛应用于药物设计、图像搜索等领域,并已获得很好的效果。在多示例学习中,训练样本是由多个示例组成的包,包是有概念标记的,但示例本身却没有概念标记,学习的目的是预测新包的类别。多样性密度(DD)算法是一种典型的多示例学习算法,能够根据概率学习到比较接近的目标函数,但DD算法尚存在两点不足。首先,DD算法只学习到一个目标函数,该算法的学习能力有待提高;其次,在预测新包时,如果一个包中至少包含一个正例,则该包是一个正包,否则即为反包,没有考虑某些样本存在正例稀疏的特点,在对重叠示例的包进行分类时,通常出现把反包误分为正包的情况。首先,本文针对DD算法只能学习到一个目标函数的缺点,提出了多概念DD算法,多概念DD算法通过学习多个目标函数,较全面的描述目标概念。其次,本文针对在预测新包时,没有考虑某些样本存在正例稀疏的特点,提出了基于重叠示例的分类算法,该算法通过改变示例在包分类时的影响策略,消除反包中个别示例的噪声。本文在理论优化的基础上,将改进算法应用在图像检索和鉴别microRNA前体中。在图像检索中,将多概念DD算法与基于重叠示例的分类算法相结合,多概念DD算法全面获得了读者感兴趣的概念,重叠示例的分类算法滤除了反包中个别有正例性质的噪声,并且实验结果优于以前的DD算法;另外,本文使用多示例学习算法鉴别microRNA前体的真伪,使用重叠示例的分类算法对真伪microRNA前体进行分类,也得到了理想的效果。
其他文献
可穿戴计算机是一种超微型、可穿戴的新型移动计算机设备,它能随时随地为使用者提供信息获取、交换和处理的能力。它不只是将计算机微型化和穿戴在身上,它还实现了人机的紧密
在高校的信息化建设过程中,因为各种原因使各个部门根据各自的信息需要和特定的应用选择了各自的软硬件环境,因此各种媒体资源(图、文、声、像)是按部门或功能进行组织和管理
随着网络技术的飞速发展,网络元素在不知不觉中渗透到社会的每一个角落,并正在深刻的影响和改变着人们的生活。在此过程中,网络人际交往也成为现代社会人际交往的一种最新颖、最
针对经典的多安全策略支持结构,特别是通用访问控制框架(Generalized Frameworkfor Access Control,GFAC)在加入多个安全策略后效率明显下降的问题,借鉴人工免疫系统(Artific
J2ME(Java2 Micro Edition)是近年来随着各种不同设备,尤其是移动通信设备的飞速发展而诞生的一项新的开发技术。它定位在消费性电子产品的应用上,对设备的智能化、多样化,提供
随着软件功能的强大,复杂度的增加,只有加强软件的可理解性、可修改性、可测试性和可维护性,才能保证软件质量和延长软件生命。在软件的测试和维护过程中,对错误的跟踪定位和
校园网是学校信息化建设的基础设施,是广大师生完成教学和科研的一个重要平台。基于P2P校园网搜索引擎利用P2P分布式体系结构,将网络中的资源分布在互联网中的各个节点上。并组
移动Ad Hoc网络(Mobile Ad Hoc network,MANET)正逐渐成为无线网络研究领域的热点,移动Ad Hoc网络独有的特性,使其更容易受到攻击,构造网络安全体系也更为复杂,因此移动Ad Ho
电子邮件自发明以来,已经成为人们生活中不可缺少的通讯方式。人们在享受电子邮件带来的方便和速度的同时也遭受着垃圾邮件、钓鱼攻击以及其它一些网络诈骗行为的危害。据200
排课,是给学校各专业的教学计划中设置的课程安排合适的时间和地点,也就是给每个班的课程安排时间和地点。排课工作在教学管理中很重要也很繁琐,计算机自动排课系统,可以降低排课