【摘 要】
:
伴随技术的发展,实际生活中的数据维度逐渐变高,数据量急剧增加,并且数据分类的应用场景也越来越广。因此,如何有效删减冗余特征实现数据降维,提高分类精度成为了当前的研究热点之一。朴素贝叶斯算法要求数据集特征相互独立,因此在复杂数据集中分类效果不理想。从特征选择与朴素贝叶斯算法结合的角度对特征选择算法进行优化,以提升朴素贝叶斯分类器在复杂数据集中的分类性能是一个可研究方向。针对特征选择中filter模型
论文部分内容阅读
伴随技术的发展,实际生活中的数据维度逐渐变高,数据量急剧增加,并且数据分类的应用场景也越来越广。因此,如何有效删减冗余特征实现数据降维,提高分类精度成为了当前的研究热点之一。朴素贝叶斯算法要求数据集特征相互独立,因此在复杂数据集中分类效果不理想。从特征选择与朴素贝叶斯算法结合的角度对特征选择算法进行优化,以提升朴素贝叶斯分类器在复杂数据集中的分类性能是一个可研究方向。针对特征选择中filter模型和wrapper模型各自的优缺点和朴素贝叶斯假设的限制,提出了一种混合模型算法——基于信息增益和遗传算法的朴素贝叶斯优化算法。算法分为两个部分,首先使用基于filter模型的信息增益方法进行特征初筛,选择出精简后的特征子集;然后把遗传算法的适应度函数和朴素贝叶斯分类器的分类精度结合,通过遗传算法的全局搜索能力选出最优特征子集,并在该特征子集基础上构建优化的贝叶斯分类器,为解决遗传算法过早收敛问题,使用了一种自适应交叉率和变异率计算方法,以及最优个体保留策略。后续实验中,选择不同数据集,将提出的算法与多种算法进行对比,分析算法的分类性能与特征选择效果,算法的稳定性与收敛性以及算法中相似度阈值与算法性能的关系。实验表明,提出的优化算法特征选择效果明显,且与朴素贝叶斯分类算法等相比分类精度提升明显。算法使用的离散化处理方法较为简单,对于分类性能有一定影响,后续可以继续优化。算法中信息增益阈值根据经验选取,后续可研究自适应阈值方法。
其他文献
当今世界正面临着化石资源短缺、电力需求飞速增长的能源体系供需不平衡危机,以及全球变暖、臭氧层破坏等生态环境问题。具有节能减排和环境友好特点的可再生能源开始成为促进世界能源经济转型发展的核心,微电网作为一种新兴的发电技术,能够凭借系统本身的控制及能量管理达成功率平衡、系统运行优化等目标。为了充分挖掘微电网的优势,促进可再生能源使用占比的提升,对微电网优化调度展开研究具有十分重要理论和实践意义。本文针
随着智能技术的发展,工业机器人在现代制造业中的应用范围越来越广泛,已成为不可或缺的制造装备之一。然而在实际操作过程中,机械臂会受到一些客观条件的约束,如避开障碍物、高效平稳运行等,因此需要对机械臂的运动轨迹进行规划。机械臂轨迹规划作为机器人控制系统研究的关键环节,轨迹规划的结果将直接影响机械臂运动质量的好坏。本文以XB7h六自由度机械臂为研究对象,通过将理论研究与实验验证相结合的方式,提出一种基于
在本文中,我们提出并分析了二维空间中时间相关的Ginzburg-Landau(TDGL)方程数值解的稳定化的半隐式欧拉规范不变格式。所提出的方法使用了交错网格中具有规范不变性质的有限差分逼近,以及时间上稳定的半隐式欧拉离散格式。所提出的完全离散格式在每个时间步长为两个解耦且线性的方程,因此在计算上具有高效能。此外,我们证明了所提出的方法无条件地满足点向有界性,以及能量稳定性。在零电势规范下提出的格
近些年来,种群生态学的研究已经成为生物数学学科的一个重要的分支。关于种群,大多数学者都是通过微分方程来研究,确定性微分方程是最初的研究对象,而随着确定性微分方程不能确切描述种群的实际情况,因此越来越多的学者开始借助于随机微分方程来讨论,并且取得了丰硕的成果,具有深刻的理论意义和现实意义。随机微分代数方程是对于随机微分方程的进一步延伸,但是,迄今为止,关于随机微分代数方程在种群生态系统中的研究还不是
2012年,以证监会放开证券公司通道类资产管理业务为标志,国内金融机构迎来长达5年的“泛资管”时代。银行、证券、信托、保险、基金混业经营发展,各金融机构资产管理业务快速扩张。截止2018年末,我国资产管理业务规模达到了124万亿元。虽然资产管理业务目前在我国规模日趋壮大,但是对于资产管理业务究竟是什么,目前业界仅从资产管理业务的外延出发,形成了:银行理财、券商资管、保险资管、公募基金、私募基金、基
负荷预测是制订电力系统规划的重要基础,其预测精度与电力系统安全稳定运行密切相关。支持向量机(SVM)是针对负荷预测问题的主流方法,但由于气候、用电习惯等诸多因素影响导致电力负荷情况变得复杂且难以分析,从而使得SVM核函数的选取变得困难,甚至在复杂的电力系统下对任何单一核函数SVM都不适用。本文提出将Stacking集成学习方法应用于负荷预测,为电力系统规划和运行提供可靠的参考。本文总结了SVM、轻
宽度尺寸精度是热轧带钢产品质量的重要指标,宽度控制的精度主要取决于宽展模型。本文以某厂全连续粗轧项目为背景,对全连续粗轧过程中的宽度控制模型进行分析研究,使用刚塑性有限元方法对全连续粗轧过程的强迫宽展进行模拟分析,优化宽度控制数学模型,具体分析包括:(1)强宽轧制不同于平辊轧制,采用分区法计算轧件宽度,将轧件沿宽度方向分为五个区,传动侧和操作侧的两个对称孔型轧制的坯料定为Ⅰ区;孔型轧辊内径槽顶区轧
薄膜广泛地应用于液晶屏、摄影镜头、反射镜等工业产品和生活用品中。薄膜的厚度是影响薄膜性能的最重要的指标之一,国内现有的膜厚测量仪(例如椭偏仪、反射测厚仪等)局限于单点测量,无法满足生产车间对薄膜产品大面积扫描检测的需求。线成像测量能够同时获得一条测量线上数百个空间维通道的数据,因此在进行大面积扫描检测时,线成像测量的效率高于单点测量。本文对基于线成像光谱分析的膜厚轮廓测量进行了研究,将膜厚测量方法
目的:设计一种用于前交叉韧带再生的多区域支架,旨在取代传统的ACL重建移植物。本实验设计的支架满足以下几个关键的设计标准,支架由成分不同的至少两个区域组成,以便重现天然韧带的内在异质性。支架能够匹配天然韧带组织的力学性能,满足重建后关节稳定的力学需求。支架是可生物降解的,以便在植入后逐渐被再生的组织所取代。支架对间充质干细胞的形态和分化产生接触引导作用。方法:设计新型的双相静电纺丝策略,制备两端为
经济的高速发展,带来了资源的过度消耗及环境的日益恶化,这种变化成为影响经济和金融结构性变化的重要因素。随着我国经济增长方式从粗放型向集约型转变,我国政府开始考虑经济发展对生态环境的潜在影响,在此背景下,绿色金融在我国兴起。本文梳理了当前绿色金融助力实体经济发展所面临的主要困境,并有针对性地提出了相关的对策建议。