【摘 要】
:
Stacking算法是提高分类器性能的常用方法。Stacking首先训练多个初级分类器;然后将初级分类器的结果作为输入,训练得到一个强分类器。本文将探究Stacking算法在输出变量为定序变量时以及在输入数据为文本时的应用。(1)Stacking算法在定序数据中的应用研究。定序数据是存在顺序关系的离散型数据。常规的Stacking算法在处理定序数据分类任务时没有兼顾定序变量之间的顺序关系,导致分类
论文部分内容阅读
Stacking算法是提高分类器性能的常用方法。Stacking首先训练多个初级分类器;然后将初级分类器的结果作为输入,训练得到一个强分类器。本文将探究Stacking算法在输出变量为定序变量时以及在输入数据为文本时的应用。(1)Stacking算法在定序数据中的应用研究。定序数据是存在顺序关系的离散型数据。常规的Stacking算法在处理定序数据分类任务时没有兼顾定序变量之间的顺序关系,导致分类准确率降低。因此,本文利用定序数据的类别顺序关系提出定序Stacking算法。首先,对存在8)个类别的定序数据按照类别的顺序划分为8)-1个二分类数据集,并训练8)-1个分类函数1)4)()。然后利用随机森林算法构造样本的类别向量到样本真实类别的映射函数。将本文提出的定序Stacking算法用于常用的分类算法上,发现定序Stacking算法能够显著提升分类器的性能。(2)Stacking算法在文本分类中的应用研究。文本分类是按照规则对文本进行类别预测的过程。Stacking算法需要多个初级分类器。但随着预训练模型和深度学习的发展,文本分类任务中的初级分类器模型参数巨大,使用Stacking算法需要的大量的算力资源。因此,本文结合Stacking算法中再训练的思想提出了IFGSR算法。IFGSR算法将文本切分成多个子文本,并使用已有的分类规则计算子文本属于每个类别的概率以及概率的标准差、均值和最大值,最后使用Softmax模型训练这三个统计量到真实类别的映射函数,并使用该映射函数对要预测的文本进行分类判别,最后通过配对样本T检验证明了IFGSR算法的有效性。本文结合Stacking算法的思想,提出定序Stacking算法和IFGSR算法,将Stacking算法的思想作用在定序数据和文本分类任务中,并且通过实验来论证定序Stacking算法和IFGSR算法的有效性。
其他文献
心血管疾病是人类健康的头号公敌,已成为世界上备受重视的公共卫生问题,其患病率和致死率逐年攀升。虽然心血管疾病医疗的检测技术更新换代,但心电图(ECG)由于具有快速、无创和可靠的特点,仍然是临床上辅助诊断心血管疾病的重要工具。作为人群中常见的一类心血管疾病,心律失常的全球患病率为2%到5%,随着年龄增长而增加。大多数心律失常患者在心电图上都表现出明显的特征性改变。与此同时,深度学习可捕捉图像和信号等
近年来,医学成像技术快速发展,医学图像在疾病诊断中的应用越来越广泛.医学图像分割作为医学图像分析中非常重要的一个步骤,其分割结果的好坏直接影响后续分析过程.因此,对医学图像进行准确高效的分割就显得尤为重要.脑胶质瘤是颅内的常见脑肿瘤之一,它的大小、形状以及位置会因病人而异.此外,核磁共振图像有时还存在灰度不均匀等问题.因此,脑胶质瘤核磁共振图像的自动分割一直是该领域研究的热点和难点.本文的研究数据
对于股票价格的预测是近几年来机器学习和深度学习领域中热门的研究方向之一,其主要方法是将原始的股票价格序列送入神经网络,通过神经网络进行拟合,最终对未来的价格进行预测。更进一步地,研究人员会对原始股票价格序列进行处理,比如使用时间序列的方法,或者给原始股票价格序列加上权重,使其更符合一般投资者的经验直觉。通过上述的方法进行组合研究,也是该领域的热门方向之一。本文就是基于过去学者所提出的方法进行组合研
土地资源的开发利用关系着国家产业结构、环境保护等方面,及时了解土地使用现状具有重要的意义。然而目前利用人工审核来判断土地使用现状的方案存在时效性低,工作量大,投入成本高等问题。随着深度学习技术的快速发展,将深度学习应用到图像场景识别已成为计算机视觉领域的重要研究内容。本论文面向土地举证照片数据,使用深度卷积神经网络对土地场景分类展开研究,提出两种适用于土地图像场景分类的方法。本文的主要工作如下:首
随着大数据时代的到来,互联网上数据的规模极速膨胀,海量数据逐渐导致了用户很难及时准确地发现其感兴趣的信息,即信息过载现象。传统的门户网站已经无法满足时代发展的需求。因此,如何帮助用户从海量信息中发现其感兴趣的信息已经成为一个迫切需要解决的问题。推荐系统已经成为大数据时代帮助用户挖掘其偏好的有力工具,也创造了大量的经济价值。当下流行的基于图的推荐模型,能将用户、物品、属性等各种重要对象,以显示或隐式
裂缝检测是评估结构损伤程度的重要步骤,为了实现自动化裂缝检测,需要把裂缝从图像中分割出来。基于图像的裂缝自动检测是保证硅酸盐水泥混凝土和沥青混凝土路面安全性和耐久性的一项重要任务。路面的破坏取决于许多原因,包括水的入侵,来自重负荷的应力,以及所有的气候影响。一般来说,裂缝是路面出现的第一个问题,适当的监测和维护以防止裂缝蔓延或形成是重要的。传统的裂纹检测和测量算法耗时长,效率低。因此,自动裂纹检测
近年来,无线身体局域网(WBAN)成为了实施远程医疗监测的有效技术手段之一,可以通过佩戴式或者植入式的传感器采集体征数据,由网关传输至后台,极大地降低了医疗成本,可应用于疾病的早期预防与检测。由于在WBAN中传输的体征信息属于个人隐私且用于判断病情,因此必须保证其在公共信道中安全的传输,任何形式的篡改或删除都可能导致对用户造成严重后果。然而,传感器的计算能力、功耗与体积限制了WBAN的安全保护强度
随着经济的飞速发展,空气污染已成为全社会关注的重点问题。近年来,我国大部分地区都出现过雾霾,且从2013年开始,雾霾连续四年被纳入我国国家安全事件。大气污染防治是消除雾霾的重要途径,空气质量预测可以为大气污染防治和人们出行提供预见性信息。因此,建立科学、有效的空气质量预测模型具有重要的现实意义。在已有研究的基础上,本文提出CEEMD-LASSO-ELM组合模型预测AQI,旨在为建立可靠的AQI预测
偏微分方程作为数学工具,常用于各种建模问题中,在工程、物理和医学等领域中都发挥着重要的作用。光纤通讯、电磁场、分布参数电路等常涉及到偏微分方程的求解问题,但方程的解析解难以获取。传统的数值求解方法利用网格剖分对方程近似求解,而网格剖分严重影响解的精确度,在求解过程中也会带来巨大的存储代价和计算代价,造成计算效率低下等问题。在2022年国家自然科学基金委员会发布可解释、可通用的下一代人工智能方法重大
目前脑卒中已经成为我国成人致死、致残的首位病因,其中21%-38%的脑卒中患者会患上失语症。现存至少十几万潮州方言失语症患者,然而至今全球仍然没有一个面向潮州方言失语症患者的失语症评定方法。国内外常用的失语症评定方法过程繁琐、时间过长,许多失语症患者,尤其处于卒中急性期的失语症患者,无法忍受这种形式的言语评估。其次,这些评定方法都没有对潮州方言的当地文化以及口音进行特色化适配,导致了潮州方言失语症