【摘 要】
:
随着大数据技术的快速发展,数据维度呈指数增长,这些数据往往会增加存储负担,因此对这些数据进行预处理将变得更加迫切。特征选择主要通过恰当的搜索策略剔除不相关或冗余特征。算法训练和分类的时间会随着维数的增加而增加,从机器学习角度来看,特征选择能够降低计算复杂度,减少计算时间。Fisher Score作为数据降维的一种重要的预处理方法,已经被广泛用于特征选择过程中。传统的特征选择方法往往存在着仅凭经验来
论文部分内容阅读
随着大数据技术的快速发展,数据维度呈指数增长,这些数据往往会增加存储负担,因此对这些数据进行预处理将变得更加迫切。特征选择主要通过恰当的搜索策略剔除不相关或冗余特征。算法训练和分类的时间会随着维数的增加而增加,从机器学习角度来看,特征选择能够降低计算复杂度,减少计算时间。Fisher Score作为数据降维的一种重要的预处理方法,已经被广泛用于特征选择过程中。传统的特征选择方法往往存在着仅凭经验来手动确定参数、未考虑数据中类不平衡分布以及度量特征不确定方法过于单一等问题。粒计算理论在大规模不确定性数据、复杂高维数据和非平衡数据的特征选择上发挥着非常重要的作用。为了解决这些问题,运用机器学习模型及算法对复杂、高维、非平衡数据进行预处理,基于粒计算理论研究自适应邻域粒和自适应加权K近邻模型,进而设计基于Fisher Score和自适应邻域的特征选择方法,通过对比实验验证了所提算法的有效性。本文的主要研究内容包括两个方面:(1)为了解决传统邻域粗糙集模型中构造的邻域不能自适应数据分布、邻域粗糙集模型中没有结合实际情况仅凭经验指定邻域半径、以及度量特征重要度过于单一等问题,提出了一种基于Fisher Score和自适应邻域粗糙集的特征选择方法。首先,在邻域决策系统中,定义了样本的变异系数,基于此设计了特征的Fisher Score计算公式,构建了新的Fisher Score降维算法;其次,将决策类下特征变异系数引入邻域粗糙集模型中,定义了自适应邻域粒,解决邻域粒存在的误分类问题,由此构造下、上近似集及其自适应邻域粗糙集模型,结合自适应邻域模型中的依赖度、邻域知识粒度和平均邻域熵,提出了结合信息论观点和代数观点的混合度量;然后,指定邻域半径取值区间,结合约简子集平均相关度、分类精度和约简率计算自适应邻域半径函数,选出最优邻域半径,提出一种基于Fisher Score和自适应邻域粗糙集的启发式特征选择算法;最后,将该算法应用于14个公共数据集的特征选择研究,实验结果与分析验证了该算法的有效性。(2)为了解决传统特征选择算法未考虑数据中类不平衡分布,以及特征选择过程中往往需要手动确定参数等问题,提出了一种基于Fisher Score和自适应加权K近邻的非平衡数据特征选择方法。首先,定义样本间的相似性度量计算样本簇间相似性,构建了新的层次聚类算法,通过混合采样模型建立平衡决策系统,使用基于变异系数改进的Fisher Score算法进行初步降维;其次,根据改进的对称不确定性计算特征间相似性,自适应选择每个特征的K近邻,定义了特征间权重,提出了自适应加权K近邻,结合每个特征的自适应加权K近邻,计算每个特征的自适应加权K近邻密度进行特征聚类;然后,将改进的对称不确定性和特征的加权平均冗余度相结合,提出了基于对称不确定性的最大相关最小冗余策略,进而设计了一种结合Fisher Score降维的非平衡数据特征选择算法;最后,对29个不平衡数据集的实验结果分析表明,所设计的算法能够有效地提高数据的分类性能。
其他文献
随着社会的发展,国内外出现了越来越多的民办的社工组织,作为新的社会主体的组成部分,在促进社会的全面发展中有着非常重要的作用。民办社工组织可以很好的解决亟需社会关注的群体的问题,是对政府和其他市场主体职能空缺的补充,为社会的和谐稳定提供了重要的支撑。民办社工组织虽然本质上公益的,但因为是非政府性质的,因此也需要创造一定的收益来支持各种服务的正常运行,为员工发放工资奖励等,组织的运行和管理是需要自负盈
在高端机械制造、智能制造等工业领域,关键零配件具有价值大、需求量少、缺货损失大、可再制造等特点。如何实现关键零部件及时供应和减少管理成本为企业的供应链调度管理能力提出了挑战。近年来,机器学习技术带来了全新的解决方案,相较于传统方法,基于仓库业务搭建的数学模型能够构建数据中的潜在联系,立足于多维度的价值评判标准,提供更准确、稳健的库存管理方案。目前库存优化工作仍存在以下挑战:1)在库存优化模型中实现
在日常生活中许多复杂系统都可以抽象为网络或者图,即由节点和边组成的数据结构,例如社交网络、生物网络、电子商务网络等。随着对网络性质的深入研究,人们发现许多实际网络都具有一个共同特点,即整个网络由若干个内部节点连接紧密外部节点连接稀疏的团体组成,这些团体一般被称为社区。社区发现是网络分析中的一项重要任务,主要目的是发掘网络中的社区,它有助于洞察网络的组成结构。良好的社区检测算法可以发现网络中真实的社
建筑业、制造业等传统工业与互联网技术的融合,构成了工业互联网这一新发展理念。国家接连出台相应政策和措施鼓励支持工业互联网的发展。LZ网络科技有限公司正是在这样的时代背景下成立,旗下LZ APP是一款以建筑业全要素、全流程数字协同管理为核心,集合金融、物流、通信等资源的资源共享平台。运营至今,LZ APP已取得不错成绩,但也遇到了困难和挑战。本文旨在对LZ APP的营销策略进行深入探析。为此,首先回
随着大型车辆制造企业高质量发展,企业出售的车辆基数和售后维保订单数量逐渐增多,后市场服务成为企业增加资产收益的利润源泉,受到企业高层管理人员的重视。但由于企业售后配件种类多、规模大、配件库存管理混乱等因素,导致企业运营效率降低,同时加大了企业管理开支和资金占用。为了解决这一问题,企业需要制定合理的安全库存优化策略优化库存配置,降低库存占用,加快配件周转。然而高端核心制造企业产品具有高精尖的特性,配
高考新政策的实行,标志着我国高考制度进入了新的阶段。新高考模式在志愿设置、填报规则和志愿录取等方面都发生了较大变化。在考试科目上,取消了文理分科的方式,采取“3+3”选考的形式;在高考志愿填报方面,由采用“院校+专业”志愿模式转变为“专业+院校”模式。志愿填报方式的转变不仅增加了对考生选科的要求,而且提升了考生的志愿填报数量。这些变化在扩宽学生选择权的同时,也增加了志愿填报的复杂度。大量的志愿信息
无人机由于其成本低、机动灵活、应用方便等特点,已经为不同领域的研究提供了支持。在农业领域,利用无人机航拍获得的农田场景图像具有分辨率高、细节特征多的特点,相比卫星遥感图像而言,其能更加清楚的反应农田地表情况。利用深度学习的方法对无人机农田场景图像进行精准的语义分割,能实现图像的有效解读,可以为作物监测、科学灌溉等方面的研究提供重要支持。本文针对无人机农田场景图像的背景复杂、特点,对现有的经典语义分
精准营销是新型营销模式的一种,通过科学的信息技术与方法,对目标市场进行针对性定位,针对目标受众进行信息传播过程中,提高信息的针对性、衡量性与有效性,从而能够激发目标受众的购买意愿,对目标消费群体的购买行为进行激发,由此使营销目标得到实现。企业在精准营销下的营销成本降低,并且借助于量化的营销过程与可衡量的营销效果,能够明显提高企业的投资回报率。当今社会步入大数据时代,企业面临的市场竞争日益激烈,精准
蛋白质是生物体中一切生命活动的重要载体。DNA结合蛋白可参与调控生物体的遗传、变异和细胞转录等过程,且与许多疾病的治疗息息相关。泛素化作为蛋白质翻译后修饰的过程之一,能使蛋白质的结构更复杂,功能更完善,调节更精细,作用更专一。但由于蛋白质的结构非常复杂,许多蛋白质的功能尚不清楚。因此,采用计算方法研究蛋白质结合位点对了解蛋白质的功能具有重要意义。传统的生物实验方法虽然可以精确识别蛋白质结合位点,但
触土部件作为农业机械中的重要部件,65 Mn钢作为触土部件常用材料,其耐磨性与能耗是现阶段农业机械化的关键。本研究提出一种基于涂层强化和表面仿生织构结合农用钢耐磨减粘技术方法,并研究其磨损与粘附机理,期望为农用机械触土部件提供切实可行的耐磨减粘优化方案。在65 Mn钢基体表面采用等离子堆焊技术制备不同WC比例的Ni基涂层,并优选耐磨涂层;在优选涂层表面使用激光技术加工不同尺寸微孔织构,以研究微孔织