【摘 要】
:
大数据时代,数据信息的高效分类成为研究热点。作为分类研究的重点,集成学习利用某种结合策略综合多个同质或异质的基分类器解决分类问题,具有很好的泛化性能。但集成学习存在一些问题,比如:特征子空间信息量不足,基分类器差异性不明显,以及决策集成过程中忽略了基分类器预测结果之间的关系等。F-粗糙集是第一个动态粗糙集模型,它从整体和局部考虑决策子系统簇,可以选择出每个决策子系统中差异化的信息属性。但F-粗糙集
论文部分内容阅读
大数据时代,数据信息的高效分类成为研究热点。作为分类研究的重点,集成学习利用某种结合策略综合多个同质或异质的基分类器解决分类问题,具有很好的泛化性能。但集成学习存在一些问题,比如:特征子空间信息量不足,基分类器差异性不明显,以及决策集成过程中忽略了基分类器预测结果之间的关系等。F-粗糙集是第一个动态粗糙集模型,它从整体和局部考虑决策子系统簇,可以选择出每个决策子系统中差异化的信息属性。但F-粗糙集为集成学习特征子空间提供的信息量并不一定最优,不同模型得到的属性约简往往不同,因此,探讨粗糙集模型的本质为基分类器的差异性研究提供了一种新的思路。针对上述问题,本文结合粗糙集和集成学习的优势,提出基于模糊条件熵矩阵的随机森林改进算法和基于F-模糊决策粗糙集的多分类器集成算法,从粒计算视角探讨各种粗糙集模型的本质。具体研究内容如下:首先,提出基于模糊条件熵矩阵的随机森林改进算法(简称FIRF)。利用随机森林进行样本子集选取,作为F-粗糙集的决策子系统簇;利用模糊等价关系构建模糊条件熵;建立模糊条件熵矩阵,选取决策子系统簇的信息属性集;再利用随机子空间的优化算法(RSIT)优化随机森林特征子空间,获得信息量较多的差异化特征子空间;使用Blending投票法代替多数投票机制,优化决策集成。综合以上步骤称为FIRF算法,并通过UCI数据集验证算法的有效性。其次,提出基于F-模糊决策粗糙集的多分类器集成算法(简称FFDRM)。结合模糊决策粗糙集和F-粗糙集的优势,建立F-模糊决策粗糙集模型;利用属性重要度设计基于F-模糊决策属性重要度的并行约简算法(FDPRAS),用于处理动态变化的数值型数据;再利用属性重要度矩阵设计基于F-模糊决策属性重要度矩阵的约简算法(FDMAS),为集成学习特征子空间选取差异化的信息属性;使用Stacked Generalization对不同的基分类器进行集成,避免次级学习模型陷入过拟合问题,并提出FFDRM算法。实验结果表明,与近年来的集成算法相比,该算法有较为明显的优势。最后,从粒计算的视角分析各种粗糙集模型是否能够统一。从传统的集合论和离散数学出发,探索信息粒的基本含义,在信息系统中定义信息粒基和最小信息粒基等概念,提出了理想信息系统假设,探讨了信息粒基的表示能力及它们之间的关系,得出了“任何粗糙集模型都可以转化为Pawlak粗糙集”的有趣结论。本文主要创新点如下:(1)提出了FRIF算法。该算法可以一定程度上解决F-粗糙集决策子系统簇的划分问题和随机森林算法的特征子空间信息量不足问题。(2)提出了FFDRM算法。提出F-模糊决策粗糙集模型,根据模型的动态优势设计FDMAS约简算法构造差异化的基分类器,并优化集成学习过程中的集成决策方式,该算法具有很好的鲁棒性。(3)证明各种粗糙集模型能够统一于Pawlak粗糙集。定义信息粒、信息粒向量和信息粒基等概念,提出理想信息系统假设,证明“任何粗糙集模型都可以转化为Pawlak粗糙集”等有趣结论。
其他文献
介绍雷磊教授治疗早发性卵巢功能不全(POI)的经验。雷教授认为,肾气亏虚是POI主要病机,治疗上多以补肾调经为主,兼顾疏肝解郁、健脾养血、调理脏腑气机。其临床擅用四二五合汤辨证加减,配合中药外敷增强药效,内外兼治,并重视精神因素,倡导健康生活方式,从而调节肾-天癸-冲任-胞宫生殖轴的平衡,促进排卵,建立规律的月经周期,改善卵巢功能,其效颇佳。附验案1则,以资佐证。
目的 基于主题模型分析法探究国医大师夏桂成教授(简称“夏师”)早发性卵巢功能不全(premature ovarian insufficiency, POI)的诊治规律。方法 基于夏师诊治的POI门诊病历数据库,建立“POI—临床表征—处方”模型,运用主题模型分析方法进行数据挖掘。结果 POI分布于主题1和3。主题1临床表征分布概率从高到低依次为急躁易怒、脉细弦、口干、锦丝状带下量少、盗汗等,处方分
二维纳米片材料以其原子级厚度的独特片层结构作为功能薄膜的构筑单元,通过有序堆积和自组装在薄膜中构建规则的通道。基于二维纳米片状材料的膜材料具有优异的分离性能,能够突破trade-off效应,被认为是“下一代膜材料”。MFI型沸石分子筛膜具有优良的孔道结构,被广泛应用于分离领域,在异构体分离(如正/异丁烷、邻/对二甲苯的分离等)、二氧化碳/氢气分离、乙醇/水分离中展现了良好的性能。本文以二维MFI沸
抗生素是一类天然或半合成抗菌药物,具有抗菌作用强、价廉易得等优势,广泛用于细菌感染性疾病的预防和治疗。随着抗生素生产量与使用量的增加,大量残留抗生素通过制药厂废水、生活污水或畜禽粪便等途径进入到环境中,不仅污染生态环境,而且还会通过食物链方式进入到食品中,给人类健康造成极大危害。食品和环境样品中抗生素残留水平较低,且基质干扰效应大,给后续的分析检测带来了一定的困难。因此,发展简便可靠的样品前处理技
本研究旨在根据近5年(2016-2020年)大气污染物(PM2.5、O3、SO2、NO2和CO)的污染观测数据,探究金华城区大气污染物的污染特征。本研究于2020年12月在浙江师范大学金华校区17号楼楼顶(北纬29°8’27",东经119°38’15",海拔40米)进行了PM2.5样本冬季采集,于2021年7月进行PM2.5夏季样本采集。CO、SO2、NO2和O3的污染物数据来源于中国环境监测站的
象山方言属吴语太湖片(又称北部吴语)甬江小片,本文以象山方言状态词为研究对象,在分析语料的基础上,探讨了象山方言状态词语法上的特点。本文分为六个部分。绪论首先梳理了现代汉语状态词及甬江片吴语状态词的研究成果概况;其次介绍了象山的地理概况和历史沿革、方言研究成果概况;从次说明了象山方言状态词的研究意义;再者说明了文章的语料来源及体例;最后描写了象山方言的音系。第一章考察了象山方言复合式状态词。分析了
多金属氧酸盐(简称多酸)因其独特的物理化学性质具有广阔的应用前景,如多酸对诸多反应的催化,已经实现了工业化生产。但多酸在其它方面的应用,如功能组装、传感、生物医药等,还有巨大的空间待挖掘和研究。本论文基于钼灵活的配位方式、氧化还原电位高、容易被还原等特性,选取钼酸盐为研究对象,探究新型同多钼酸盐杂化材料的合成、结构及新奇功能。已通过溶液自组装法合成了11例同多钼酸盐杂化材料,根据所得化合物的结构特
目前,餐厅的计价方式主要分为人工计价和自动计价,人工计价的方式存在效率低、出错率高等问题,而自动计价的方式可以很好地解决这些问题。自动计价的方式又可分为两种,分别是基于餐盘识别技术和基于菜品识别技术的自动计价。其中基于菜品识别技术的自动计价方式不仅可提高结账速率和正确率,后续还可运用于记录并分析顾客的饮食偏好、食品相关知识的科普等。但这两种方式在实际落地的过程中,都存在依赖于大量数据集的问题,如一
计算机技术被誉为20世纪三大科学革命之一,随着技术的进步,电子计算机在人类社会的方方面面都发挥着重要作用,但是随着社会的发展,人类每天产生的数据越来越多,这使得使用传统电子计算机计算所花费的时间也越来越多,人们不得不寻找全新的替代方式,而DNA计算机就是人类在计算领域的一次有力探索。DNA计算是以生物分子DNA作为计算介质,以生化反应作为计算工具的一种全新的计算模式。DNA编码问题是DNA计算中的
金属有机骨架材料(MOFs,Metal-Organic Frameworks)是以单一金属离子或多核金属离子簇为节点和有机配体为连接子通过配位键形成的一种新型配位化合物。MOFs在工业和学术界有着广为人知的应用前景,这除了与它具有可调的结构和功能有关外,还因为其与客体分子之间有着各种亲和力,例如氢键、范德华力和π-π相互作用力等。通过选择合适的金属离子和有机配体,便可得到理想的功能MOFs。虽然看