基于类别层次粒化的分层分类方法

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:wild_lynx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模的样本数据、超多的类别以及高维特征丰富了机器学习解决问题的方法多样性。人们将数据按照“由粗到细”粒度的多级粒化方式组织成一个层次结构实现记忆和检索,而且类别之间也蕴含着复杂的结构关系。这种数据结构类型给机器学习分类任务提供了新思路,但仍存在一定的局限性:(1)分层分类任务由于受到类别层次结构知识固有的层间错误传播问题影响而降低了分类效果;(2)根据语义知识构建的层次结构可能会存在的“语义鸿沟”问题;(3)真实数据中存在类别分布不平衡情况破坏了传统类别均匀分布的基本假设,这导致先前的分层分类方法处理大规模的分类任务时表现不佳。面向类别具有层次结构数据的大规模分类任务,本文充分挖掘原始数据和类别层次结构知识的关系,提出基于类别层次粒化的分层分类方法,主要内容包括:(1)基于知识驱动层次粒化的分层分类方法。针对传统分层分类方法固有的层间错误传播问题,采用多路径预测策略进行知识驱动,借助于给定语义空间中所蕴含的层次结构来考虑上下粒度层间及各个粒度层内的关系实现由粗到细粒度的预测,最终提出了基于知识驱动层次粒化的分层分类方法。(2)基于数据驱动层次粒化的分层分类方法。针对语义层次结构与数据特征所体现的类别层次结构的差距,通过从原始数据角度考虑进行数据驱动,根据不同类别粒度特征之间的相似度进行自下而上粒化聚类,再利用各粒度层特征的普遍性和特征自身的特殊性进行每个粒度层的1,2-规范正则化实现特征降维效果,最终构建了基于数据驱动多粒度聚类的分层分类方法。(3)基于双向驱动层次粒化的分层分类方法。针对真实数据集的类别呈样本分布不均衡的状态而无法适用于传统的分层分类方法,利用层次结构知识与原始数据的互补性应用双向驱动策略。根据原始数据的分布形态进行问题局部化分别处理,对于样本较少的尾部类别,利用数据样本间相似度进行“由细到粗”粒化构建适合于少样本的层次结构。再借助于阈值控制策略进行知识驱动实现不同局部的自顶向下分类,最终提出了一种基于双向驱动的层次粒化分层分类方法。
其他文献
腰椎间盘退变诊断对预防腰椎疾病意义重大,但目前对其诊断主要依赖于影像医师的主观评价,易因个人经验不足产生误判。本文基于核磁共振(NMR,Nuclear Magnetic Resonance)检测的椎间盘代谢组学数据,应用机器学习方法建立自动识别腰椎间盘退变(LDD,lumbar disc degeneration)等级的计算机辅助诊断方法,为影像医师提供参考。首先,本文对Spearman相关分析、
青少年处于人格塑造关键期,易产生强烈相对剥夺感,若得不到及时的宣泄与指导,则容易对个人、家庭乃至社会产生不良影响。目前较少研究关注青少年的父母关爱相对剥夺感,本论文旨在通过三个研究对其进行初步的探讨。研究一,经过理论维度构建、深度访谈(74名被试)、项目编制、试测(30名被试)、初测(600名被试)和复测(863名被试)等一序列严格的程序,编制《青少年父母关爱相对剥夺感量表》,结果发现:所编量表信
随着信息技术的发展和信息系统的不断更新,处理复杂而庞大的动态数据面临着严重的计算效率低的问题。动态计算为解决这一问题提供了有效途径。在完备的信息系统中,大多数近似动态更新方法主要是针对经典粗糙集及其扩展模型。而在多粒度的环境下,目前的研究方法较少且时间效率不高。此外,在许多的实际应用中,需要处理的数据不是单一的,而是数值型和符号型相混合的复杂数据。同时,信息系统往往不一定是完备的信息系统(即数据会
加强课程思政教育体系建设,是高职院校适应新时期课程思政建设新要求、全面落实立德树人根本任务的必然要求和重要举措。通过对课程思政教育体系的概念界定,结合当前高职院校课程思政建设现状,从构建多层次多维度目标体系、分层分类分段内容及实施体系、多元化多样化评价体系、多方协同推进保障体系等方面入手,有针对性地提出了构建高职院校课程思政教育体系的对策与建议。
物联网技术加速了“万物互联时代”的到来,传统的工业控制系统与信息网络系统的结合,提高了工厂生产效率和增强了工业控制系统管理机制,但同时也带来了安全隐患,暴露在互联网中的工业内网很容易遭受“五花八门”的黑客攻击。此外,随着IPv6协议不断发展,未来将广泛应用于工业控制系统领域中,新的技术融合可能会带来诸多新的安全问题。然而,在传统的入侵检测系统中,异常检测存在较高的误报率,误用检测存在较高的漏报率,
手指在日常生活和工作中与外界环境接触的最多,因此容易受外伤,往往影响手指的正常运动,此外神经系统疾病、脑卒中等也会造成手指运动功能的缺失。经过手术或治疗后,需对其康复程度进行测评,传统的方法多基于手工测量其运动范围,然后根据数值进行伤情判定,进而在屈伸这一平面制定单个手指的康复训练方案。这些方法大多只关注单个手指独立运动的范围,缺乏对相邻指间约束关系的考虑,且没有对其建立可视化模型;同时获取的测评
随着计算机科学与技术不断发展,我们在生活中面对着各式各样的数据。其中许多数据是同时被多个标记所描述的,这样的数据被称为多标记数据,也是多标记学习任务的研究对象。多标记学习是根据大量已有的多标记数据建立一个分类模型。经过训练,模型能够给未知的数据打上一组标记。多标记学习在许多现实场景中发挥着作用,如图像识别、文本分类、音频识别等等。然而多标记数据往往拥有大量的特征,特征的高维性易导致“维数灾难”。维
在当今信息化时代,许多数据集是动态变化的,而对于动态变化下数据集的处理在人工智能中占有重要地位.关于动态变化下数据集的处理,许多学者提出了很多有效而快速的方法,增量计算便是其中之一.另外在数据集的处理过程中,将信息粒化从而建立数学模型,利用数学理论方法进行分析研究也是常用的策略之一.常见的粒化方式有两种:基于单粒度数据建模和基于多粒度数据建模.在基于多粒度数据建模方面,钱宇华等提出的多粒度粗糙集模
基于属性签名是一种密码学原语,具有细粒度访问控制机制和强隐私性。近些年,受到了广泛的关注,并有越来越多的相关研究被提出。但是计算开销大、效率低是基于属性签名方案的一大缺点,无法满足一些对实时性要求较高或者计算能力受限制的应用场景。为了解决基于属性签名计算开销大的问题,目前学术界有两种思路:第一种是优化算法,但效果有限。第二种是将计算开销大的部分外包给第三方进行计算。多线性映射是双线性对概念的推广和
2017版普通高中课程目标指出在课程的设计上引入数学文化,重视数学文化在教材中的作用。在课程结构上,数学文化融入数学课程内容。学生学习数学文化即为了提高数学文化素养,可见,数学文化素养在新时代尤为重要。本论文研究的问题是漳州市高一学生的数学文化素养现状,并根据此现状分析原因,提出相应的策略。从已有的研究出发,对研究数学文化、数学素养、数学文化素养及其数学文化融入数学课堂等资料进行研究与分析,以20