【摘 要】
:
在大数据时代,想要从庞杂的数据集中获取到可用信息是极具挑战的一项任务,这导致数据挖掘领域成为科学家们关注的重点领域之一。对于数据发掘算法来说,获得可用数据集往往是算法的第一步,当数据集维度变高且存在大量冗余无用特征时,就会使得数据分析变得极其困难,后续的算法性能也会受到极大影响,所以进行数据预处理是十分必要的。特征选择是数据预处理中一个重要的方法,该方法在大量特征中选取相关和非冗余特征,且使处理后
论文部分内容阅读
在大数据时代,想要从庞杂的数据集中获取到可用信息是极具挑战的一项任务,这导致数据挖掘领域成为科学家们关注的重点领域之一。对于数据发掘算法来说,获得可用数据集往往是算法的第一步,当数据集维度变高且存在大量冗余无用特征时,就会使得数据分析变得极其困难,后续的算法性能也会受到极大影响,所以进行数据预处理是十分必要的。特征选择是数据预处理中一个重要的方法,该方法在大量特征中选取相关和非冗余特征,且使处理后的数据集在最大程度上不影响分类准确率,以此来达到降低维度、提升后续分类算法准确性的目的。当搜索空间变得很大时,特征选择就可视为一种最优化问题。事实上,在具有N个特征的数据集中,选择最优特征子集的方案就存在2种,所以当特征数N过大时,穷举搜索的方法是不可行的。为了解决这个问题,人们引入了元启发式算法来解决特征选择问题,取得了良好的效果。乌鸦搜索算法(Crow search algorithm,简称CSA)是最近根据乌鸦群体的生活习性所提出的算法,它是基于种群的一种元启发式算法,因为它简单和易实现的特质引起了广大学者的关注,但跟其它元启发式算法相同,具有收敛速度慢,容易陷入局部最优的缺点,严重影响算法的分类准确率以及收敛速度。所以本文首先将CSA进行离散化,形成BCSA(Binary crow search algorithm,简称BCSA)算法,然后对BCSA进行了改进,提出了一种新的特征选择算法BICSA(Binary improved crow search algorithm,简称BICSA),最后通过实验来展示BICSA在解决特征选择问题上的卓越性能。BCSA可以分为初始化和更新两个阶段,本文针对这两个阶段应用了三种算子来改进算法,提升算法的准确率,加快收敛速度。在初始阶段,使用混沌方法(chaotic map)代替了原始算法中的随机生成种群,之所以选择这种方法,是因为混沌映射具有随机性、遍历性和动态行为等特性,这些特性可以生成一个具有良好分布的可行解空间,从而避免随机生成种群的缺点。随后,使用反向学习方法(Opposition-Based Learning,简称OBL)来计算混沌种群的相反种群,相对算法初期随机生成种群来说,相反种群的生成往往能使得算法能够更大概率找到最优解。所以,OBL的添加使得初始种群可以从多个方向来接近最优解,加大了算法找到最优解的可能性。最后根据适应度函数值,在混沌种群和相反种群中选取适应度值高的解,这两个方法的添加使得算法能够在初始化阶段得到质量更好的初始种群,从而加快了算法的收敛速度;在更新阶段,引入了差分进化算法(Differential evolution,简称DE),通过使用BCSA与DE的混合算法来提升算法性能。首先使用BCSA对搜索空间进行搜索,然后用DE对生成的解进行变异、交叉以及选择来得到更加优秀的全局解,DE算子的添加扩大了生成解的范围,使得算法可以在搜索空间进行更全面的搜索,在某种程度上减少了算法陷入局部的概率,使得算法更加容易的找到最优解。这三种算子使得改进后算法具备更快的收敛速度,且更有可能获取全局最优解。为了展示BICSA特征选择算法的性能,本文在16个数据集上与近几年提出的特征选择算法进行比较与分析,比较结果证明了改进算法BICSA拥有着更高的分类准确率和较高的维度压缩能力。
其他文献
从耕地保护现状出发,结合广西农业产业发展实际情况,对广西耕地保护存在问题进行了分析和探讨。
为了获得最佳的液压支架立柱油缸结构参数,提高仿真计算的精确性,该研究利用SolidWorks三维软件的仿真计算模块,通过有限元法确定力学特性状态,研究了液压支架的液压支撑立柱油缸中心角α和焊缝间隙的合理数值。根据分析结果,依据最小误差和最大性能计算的原则,确定了缸体和焊缝的中心角及其合理值。研究成果为液压支架的结构设计提供了依据。
目的探讨Hood联合无血管夹(Clipless)技术对机器人辅助前列腺癌根治术(RARP)后患者尿控及勃起功能恢复的影响。方法回顾性分析2020年6月至2021年6月接受Hood联合Clipless技术RARP患者的临床资料,共纳入37例术前国际勃起功能指数(IIEF-5)评分>21分的患者。患者年龄平均58.9岁(45~66岁),术前初诊平均t PSA13.24ng/ml(2.7~23.0ng/
介绍了液压支架立柱活塞设计的技术方案,给出了直径360mm的齿轮支架液压腿的应力-应变状态的比较有限元模拟结果。结果表明,在该活塞方案下,当活塞腔内工作流体的压力为62MPa时,径向密封间隙的变化比串联设计小20倍。
对液压支架在压架过程中立柱外缸出现裂纹的情况进行了原因分析,采用金相显微镜、扫描电镜进行检测并寻找裂纹源,对裂纹的宏观形态和断口的微观形貌进行分析。结果表明:该液压支架在压架过程中外缸产生的开裂属于完全断裂、脆性断裂和疲劳断裂,随着压架次数的升高,母材应力循环次数不断增加,在达到69 000次时产生低周大应力疲劳断裂。
以ZF20000/26/48放顶煤液压支架立柱控制回路为研究对象,通过AMESim软件搭建液压支架立柱控制回路仿真模型,研究了静载与动载2种工况下立柱的速度位移响应规律以及立柱底缸与中缸的压力响应规律,对比了静载与动载工况下的动态特性。结果表明:载荷发生突变是立柱回路产生冲击的主要因素,立柱底缸与中缸压力值与载荷大小呈正相关,冲击载荷是造成中缸爆缸的主要原因。这对支架稳定控制和立柱结构强度设计提供
近年来,互联网的飞速发展,致使网络上产生了大量的文本数据,而如何有效地利用这些数据中蕴含的知识成为了一个挑战。知识抽取可以将网络中来源不同的文本数据进行提取,形成结构化的数据存储在知识图谱中。知识图谱以图的形式,表现出客观世界中的实体以及其之间的关系,以便人们可以高效地利用。关系抽取作为知识抽取的子任务,可以抽取实体和实体的关系,提炼出文本中的三元组信息。远监督关系抽取的提出实现了关系抽取数据集的
随着我国经济快速发展,大量能源消耗使得煤炭开采转向深部开采常态化。为保证深部煤炭资源开采安全高效需要有效控制巷道围岩的长期稳定性,其关键是明确围岩巷道岩体的蠕变破裂特性。开采煤炭产生的工程扰动是诱发岩体蠕变损伤破裂导致大规模岩体工程失稳和工程地质灾害的主要原因之一,深部开采产生的强扰动进一步提高了工程灾害频度和量级,究其原因是岩体在扰动状态下发生蠕变,岩体内部在扰动作用下迅速产生细微裂隙,裂隙快速
抚顺西露天矿区边坡构造复杂,南帮顺倾边坡受弱层影响,在地震作用下易诱发滑坡灾害。为了研究南帮顺倾含弱层边坡在地震作用下的动力响应和易损性变化规律,采用理论分析和数值模拟相结合的方法对边坡动力响应和易损性进行研究,利用有限差分软件FLAC3D对边坡进行非线性时程分析,获得边坡不同位置和不同岩层的动力响应变化规律,改变动载幅值研究地震动强度对边坡动力响应的影响;采用Newmark滑块法计算顺倾层状边坡
心外膜脂肪组织(epicardial adipose tissue, EAT)位于心肌和脏层心包之间,具有代谢、产热、独特的转录、分泌谱和可测量性等特点,与多种心血管相关疾病存在密切的关系,其可能是潜在的心血管疾病治疗靶点,近年来得到大量的研究。影像学是检测和评估EAT最主要的手段,其中心脏磁共振(cardiac magnetic resonance, CMR)成像具有高空间分辨率、无辐射、良好组