基于样例及属性特征分析的多标记分类算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:dianshenshizhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习自出现以来,为各领域普遍存在的多义或歧义性问题提供了有效的解决办法,弥补了传统单标记学习的不足。作为机器学习及数据挖掘方向的一个研究热点,多标记学习已广泛应用于各个研究领域。本文绪论简要综述了多标记学习研究背景与意义、两个关注方向的多标记分类算法的研究现状;详细介绍了多标记学习相关的理论基础,包括学习框架、性能评价指标及测试基准数据集;对本文所使用的对比算法进行了详细介绍。多标记分类是多标记学习任务重要的组成部分,关于多标记分类算法的研究,绝大多数研究者关注的是标记空间,主要算法大致分为三类:算法适应方法、问题转化方法、集成方法。第一类方法是对传统已有的学习算法进行改进扩展使其适应多标记数据;第二类是将多标记问题转化为若干个单标记问题或者回归问题进行处理;第三类是把上述两类方法单独或者联合集成为一个算法处理多标记数据。基于特征属性空间的分类算法考虑到了样例的特征属性空间操作对分类性能的影响,其分类效果不亚于其他算法。另外,通过挖掘样例之间数值关系,将关系映射到标记空间,也为标记预测提供了新的思路。本文对多标记分类问题进行的研究如下:(1)基于特征属性的多标记分类研究,提出了一种改进I2C距离的多标记场景分类算法。已出现的基于特征属性的算法都是对原始数据特征属性进行各种变换,另外对原始数据集特征提取方法的改变也可以达到目的。本文将多标记场景图像进行重新提取surf特征,改变了传统以一个向量表示一个样本的方法,变为以向量集合表示一个样本,分类即转变为基于特征属性粒度;其次采用改进的I2C计算方法来计算待测图像与已知类之间的距离;最后利用标记相关性预测所有可能的标记,通过实验表明该方法在各评价指标上效果有所提升。(2)基于样例数值关系的多标记分类研究,提出了一种通过挖掘样例之间数值关系预测样例标记的多标记学习方法。传统分类算法中,用到样例之间关系的只是在特征空间比较两个样例之间的相似性,借此推测类别标记,忽略了存在于样例之间的数值关系。充分挖掘样例之间的数值关系,将挖掘的数值关系映射到标记空间进行预测标记,为多标记分类提供了一种新的思路。本方法预处理过程为:首先对数据集根据标记分成若干组,对组内数据集的样例矩阵进行处理,求取相关参数;然后通过对两个优化函数的求解,计算每组样例对待测样例的贡献权重和待测样例近邻的贡献权重;最后结合了全局映射和局部平滑,通过参数控制两者对预测标记的影响权重,提高了标记预测的精度。
其他文献
流媒体应用是推动未来宽带应用的主动力,但流媒体对带宽的高占用特性使其在Internet上大规模应用面临诸多困难。传统的C/S、单源组播以及CDN(Content Delivery Network)模式
如今,Web成为了网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web页面的无结构性、超链接的自由无序、以及Web内容的海量性、多样性和动态变化,人们从Web上搜索真正想
曲线作为计算机辅助设计(CAGD)与计算机图形学(CG)的重点研究对象之一,其有理参数表示是几何造型和设计中最常用的一种表示形式,如常用到的有理参数Bézier曲线与B样条曲线。同
分组交换网是网络发展的一个重要趋势,而高速交换系统是网络中最关键的组成部分,担负着转发分组的任务。在当前以IP为主导的分组交换网络中,按交换系统对其分组交换的层次看,可包
随着信息社会的发展,越来越多的信息被数字化,尤其是伴随着Internet的发展,数字化的信息呈爆炸式增长。因而在未来几年里,如何存储和管理这些数据将成为人们关注的焦点。七、
近年来,随着医疗卫生事业的发展,在临床医疗活动中的药物使用问题逐步成为公众关注的焦点。合理用药是指根据疾病种类、病人状况和药理学理论选择最佳的药物及其制剂,制定或调整给药方案,以期有效、安全、经济地防治和治愈疾病的措施。解决临床合理用药中存在的技术性问题的指导性原则就是循证医学。循证医学的主要研究方法有随机对照研究、系统评估和临床指引等几种。遗传算法是模拟生物界适者生存、自然选择等生物进化机制发展
随着科学技术和医用科技的不断发展,中药中传统的“望闻问切”四诊法也面临着技术实现的现代化。‘望’诊,尤其是其中的舌诊是中医四诊的重要内容,它通过观察舌像的变化了解
计算机软件产业发展至今已经经历了几十年的时间,在此期间,有大量的应用软件被开发应用,软件行业是一个快速发展的行业,新旧技术的交替往往带来一个大规模的软件改造过程,在
随着嵌入式系统应用的不断扩展与深入,高可靠性在嵌入式系统的发展历程中正占据越来越重要的地位,成为设计和应用的首要考虑因素。当前,嵌入式微处理器越来越多地被应用于各
语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领