【摘 要】
:
随着大数据时代的到来,海量多标签数据带来的“维数灾难”引起了国际上的广泛关注。针对高维数据,通过降维的手段可以使数据分类变得更加轻松,而特征选择在数据的降维处理中起着不可或缺的作用。特征选择从原始特征集中选择特征子集而不进行任何转换,并保持原始特征的物理意义。在降低了数据需求的存储空间的同时,提高了算法的分类效率和预测的准确性。目前已经诞生了大量基于Filter模型的信息论多标签特征选择算法,在本
论文部分内容阅读
随着大数据时代的到来,海量多标签数据带来的“维数灾难”引起了国际上的广泛关注。针对高维数据,通过降维的手段可以使数据分类变得更加轻松,而特征选择在数据的降维处理中起着不可或缺的作用。特征选择从原始特征集中选择特征子集而不进行任何转换,并保持原始特征的物理意义。在降低了数据需求的存储空间的同时,提高了算法的分类效率和预测的准确性。目前已经诞生了大量基于Filter模型的信息论多标签特征选择算法,在本文中,我们也聚焦于信息论提出了两种多标签特征选择算法。1.我们考虑了结合三种影响特征相关性评估的关键方面:候选特征、已选特征和标签相关,而传统的多标签特征选择算法并没有将这三种因素进行综合考虑。为了评估特征相关性,对这三个关键方面进行全面彻底地检查才更有利于捕获最佳特征。于是我们设计了一种新颖的特征相关项FR(Feature Relevance),它采用三个增量信息项来表示三种条件相关性,以此来综合考虑影响特征相关性的三个关键方面。此外,我们使用标签-相关的特征冗余作为一个新的特征冗余项LR(Label-related feature Redundancy)来尽可能地降低冗余性。综上,提出了结合三种条件相关性的多标签特征选择算法(Feature Selection combining Three types of Conditional Relevance,TCRFS)。大量实验表明,在来自四个领域的13个多标签基准数据集上,TCRFS取得了更加优越的分类性能。2.在以往的基于信息论的多标签特征选择算法中,一般根据已选特征或候选特征提供给标签集的信息量来对特征相关性进行评估。尽管考虑信息量很重要,但它们低估了信息量变化率在评估特征相关性上的重要性。为此,我们基于未确定信息量的变化率和已确定信息量的变化率来评价对特征相关的影响,并设计了一个新的特征相关项RW(Relevance based on Weight)。基于RW提出了一种新的基于特征相关权重的多标签特征选择算法(Relevance based on Weight Feature Selection,RWFS)。为了验证RWFS分类的有效性,将其与八种最先进的多标签算法在13个真实数据集上进行了比较。实验结果表明,RWFS获得了最好的分类结果,也就是说,考虑两种信息量变化率来评估特征相关性能有效地提高算法的分类性能。本文中我们关注基于信息论的多标签特征选择技术上的研究,通过对现有的算法中存在的不同问题,进行特征选择策略上的创新,并以此设计多标签特征选择算法,获得了比现有算法更加优良的分类效果。
其他文献
随着我国对绿色环境越来越重视,为了有效保护森林资源及抚育森林资产,改革后的森工企业为了安置富余职工和保证“天保工程”的推进,成立森泰园林绿化有限公司。企业主要生产公益性绿化树苗,以生态建设为主、经济效益为辅进行运营。但企业传统粗放的成本管控模式及传统的成本核算方法已经无法为管理层提供准确的成本信息,产品成本核算数据不准确,成本控制效率低下,管理层很难做出正确有效的生产经营决策。综上,企业需要更加系
EGFR作为第一个被发现的受体酪氨酸激酶,在生物体中,主要负责调节细胞增殖、存活以及分化。同时作为最经典的药物靶点,EGFR代表着一个靶向治疗的时代,EGFR靶向药物深刻地改变了肿瘤的治疗方式,给患者带来了极大的益处。目前,虽然关于EGFR相关信号通路及作用机制的研究已经较为成熟,针对EGFR及其突变研究开发的靶向药物也在癌症的临床治疗中得到了广泛的应用,并且已经有抗体和小分子化合物等多种类型的E
科技强盛是国家富强、民族振兴之基。我国始终坚持以科技创新驱动经济实现高质量发展的总体战略,科技人才作为推动科技创新必不可少的要素之一,是推动产业结构优化、实现经济高质量发展的核心动力。科技人才集聚是科技人才流动过程中所形成的一种特殊现象,即处于不同地区的科技人才受外部因素和内部因素的多重影响,从不同地区或行业向特定地区或行业流动,并最大限度的发挥其集聚效应的过程。产业结构优化是实现经济高质量发展的
传统锚杆(索)支护由于延展率低,无法适应高静载、强动载的叠加作用,导致杆(索)体断裂、托盘冲击弯曲和丧失锚固基础等的失效现象,成为冲击危险巷道支护工程中亟待解决的技术难题。论文结合理论分析、数值模拟以及室内试验,在剖析普通钢绞线锚索冲击失效原因的基础上,研发了一种扩胀-摩擦式吸能防冲锚索。基于金属套管塑性力学原理,建立了扩胀-摩擦式吸能装置塑性力学解析模型,并讨论了吸能装置吸能阻力对其结构尺寸、材
地震是一种常见的具有破坏性的自然现象,浅源地震的机制是在沿老断层或新形成的断层滑动过程中发生的黏滑。黏滑是由断层两盘闭锁、应力应变积累直到突然释放,产生相对位移错动的过程,在失稳错动过程释放大量能量。对断层黏滑错动的机制及断层黏滑失稳过程进行研究对地震预测具有重要意义。本文对预制不同倾角断层的粗晶正长花岗岩进行摩擦滑动实验,研究不同倾角、不同加载速率、不同侧压下断层黏滑过程中的力学特性和声发射参数
国家认同是现代国家建设的一个重要维度,也是维护国家统一、提升国家韧性、推动国家发展的重要基础。现代国家要构建普遍的、持续的、有效的国家认同,就必须要不断提升国家能力,提升国家治理的有效性,为国民提供优质的公共服务。国家认同研究的是国家与国民之间的互动关系。国家要获得国民的认同,国家就要不断提升其治理的有效性,满足国民的不同需要。本文以建国初期消灭天花运动为研究对象,研究新中国国家认同建构的实践逻辑
煤岩是典型的具有非均匀性的准脆性材料,内部富含各种缺陷。煤岩动力灾害形成具有时间效应,煤岩由变形到破裂过程的实质是煤岩中裂纹的萌生、扩展、相互作用和贯通的过程。因此,本文通过三点弯曲加载条件下I型断裂实验模拟拉伸破坏模式、单边切口四点剪切加载条件下II型断裂实验模拟剪切破坏模式和单轴压缩实验模拟混合破坏模式,研究煤岩内部微裂纹时空演化规律和煤岩破裂微观机制,进而深入了解微裂纹间相互作用、扩展和贯通
<正>中国新能源汽车市场迅速发展,新能源车保有量已突破千万辆。作为全球最大的汽车生产国,我国消费者对新能源汽车的接受程度日渐提升。2022年,中国新能源汽车产销量分别为704.1万辆和687.2万辆,同比均翻倍增长。2022年1月,国务院印发的《“十四五”节能减排综合工作方案》提出,到2025年,新能源新车销售量达到汽车新车销售总量的20%左右。据统计,2022年,中国汽车产销量分别为2702.1
<正>Q我一直有个特别想知道又没法张口的问题,男人是否在乎女人私处的外观?我是偶然一次看到自己的私处,觉得实在太丑了,不仅不对称,颜色也不是我想象得那样粉嫩,这让我特别自卑。交过一个男朋友,每次亲热的时候我都坚决不让他看我那里,后来因为一些事情分手。我看到一些电商平台介绍一些让私处颜色变浅的产品,当然,还有私立医