【摘 要】
:
随着大数据时代的到来,新的应用不断涌现,数据展现出高维度、非线性的复杂属性,如何有效进行特征提取和特征选择变得很有必要,这项工作已成为机器学习、数据挖掘和模式识别等领域的研究热点。传统的数据处理方法在应对这些高维度数据时往往是无效的,无法挖掘出数据中隐藏的有用信息。因此,挖掘大数据中隐藏的有用信息成为大数据时代面临的难题之一。特征选择是大数据挖掘中的基础工作,分类器的设计是整个模型训练的重难点。特
论文部分内容阅读
随着大数据时代的到来,新的应用不断涌现,数据展现出高维度、非线性的复杂属性,如何有效进行特征提取和特征选择变得很有必要,这项工作已成为机器学习、数据挖掘和模式识别等领域的研究热点。传统的数据处理方法在应对这些高维度数据时往往是无效的,无法挖掘出数据中隐藏的有用信息。因此,挖掘大数据中隐藏的有用信息成为大数据时代面临的难题之一。特征选择是大数据挖掘中的基础工作,分类器的设计是整个模型训练的重难点。特征选择通过使用某种搜索策略在特征空间中搜寻利于模型训练的最佳特征子集,而分类则是使用搜寻到的最佳特征子集去训练鲁棒的分类器,再用训练好的分类器去对未知的数据集进行精准预测。在机器学习领域,分类模型众多,本文选取占主导地位的两种模型,即贝叶斯理论模型和支持向量机进行分析研究。在朴素贝叶斯理论中存在这样一个假定:相对于给定的类,各个实例之间是相互独立的。根据数据属性之间的独立性,可以将每个属性分别单独估计,使得其适用于多属性的分类问题。支持向量机的惩罚参数C和RBF核参数σ是影响分类性能的关键参数,所以对这两个参数进行优化能够有效提高支持向量机的分类性能。上述工作主要采用智能优化算法来解决特征选择和分类器参数优化问题。本文首先对粒子群算法进行改进,再将改进后的粒子群算法用于对朴素贝叶斯、支持向量机两种分类器的优化问题研究。在对朴素贝叶斯分类器进行优化的过程中,使用改进后的粒子群算法从整个属性空间中选择一个最优属性子集,并且通过被选择出的最优属性子集构建朴素贝叶斯分类器。在对支持向量机分类优化的过程中,通过把惩罚参数C和核参数σ融入到个体二进制编码中,实验过程中使用改进的粒子群算法寻找最优的参数组合以便更好地对支持向量机分类器进行训练。本论文的具体贡献包括:1、针对传统粒子群算法早熟收敛及参数依赖专业经验给定等固有缺点,采用多种群、加速系数自适应调控两种优化策略相结合的方式对传统粒子群算法进行改进,提出一种动态调控惯性权重的多种群粒子群优化算法(Multi-Colony’s Particle Swarm Optimization for Dynamically Controlling Inertial Weights,MPSO_DCIW)。2、由于朴素贝叶斯假定的存在导致朴素贝叶斯分类器在实际应用中并不适用。采用群体智能算法对数据进行最优特征子集选择,然后使用选择出的最优特征子集去构建朴素贝叶斯分类器,这有效避免朴素贝叶斯假定的局限性。本文提出了一种基于改进粒子群算法的朴素贝叶斯分类器优化方案,并与多种常用的机器学习算法(SVM、KNN等)进行性能对比。3、由于支持向量机的惩罚参数C和RBF核参数σ直接影响到分类性能,本文针对支持向量机存在的这一缺陷提出了一种基于改进粒子群算法的支持向量机参数优化方案。
其他文献
微生物从头合成生物素主要经历两个阶段,第一阶段为庚二酸单酰Co A/ACP(pimeloyl-Co A/ACP)的催化合成。第二阶段是生物素双杂环的催化合成。相对于第一阶段,第二阶段在不同微生物之间相对保守主要由BioF、BioA、BioD和BioB依次催化合成。庚二酸单酰Co A/ACP主要有三条途径合成:BioC-BioH途径、BioI-BioW合成途径以及BioZ途径。目前为止,BioC-B
医疗联合体(以下简称“医联体”)是中国新一轮医药卫生体制改革目标“构建整合型医疗服务体系”的实现形式之一。医联体的目标是整合区域医疗资源、促进优质医疗资源下沉、推动形成分级诊疗模式,从而构建整合型医疗服务体系。目前,探究医联体运行效果的成果数量有限,且学者们对医联体的运行效果褒贬不一,有待补充相关研究。首先,通过查阅医联体政策文件整理出医联体的目标体系,并且把这些目标作为医联体运行效果评价体系的一
互联网和大数据等技术的快速发展促使各行各业越来越重视数据的利用价值,技术人员通过使用数据挖掘等相关技术对已有数据进行加工利用,已经为企业带来了良好的经济效益。近年来,工商行政管理部门在履行职能的过程中积累了大量的数据。对这些数据中和企业信用状况相关的数据进行分析,不仅有助于工商行政管理部门对注册企业的管理,还能加深对市场主体信用整体情况的理解,提升企业信用等级分类预测方法的科学性,优化诚信企业机制
在突发公共卫生事件的应对中,政府的风险沟通实践可以发挥较大作用,是危机应对的核心环节之一。但就目前我国各地突发公共卫生事件应对实践来看,政府风险沟通的失误还十分常见,与此同时,沟通任务较为艰巨的广州却可在首次应对“德尔塔”疫情的过程中顺利进行风险沟通且未发生次生危机,其中有效的实践经验和学理逻辑亟需总结与归纳。基于此,本文以风险沟通功能与共同体理论为指导形成分析框架,并通过文献法和访谈法等方法收集
本文梳理了2016年6月至2021年6月期间在老挝Setthathirat医院进行宫颈癌筛查和治疗的180例病例数据,并以此为基础对老挝宫颈癌患者的生存率及影响因素等进行了分析。首先,基于样本数据,运用Kaplan-Meier模型对宫颈癌患者的中位生存期、5年生存概率等进行了统计分析。然后,运用Log-Rank检验方法对不同情况下患者的生存率是否存在显著差异进行了检验,同时使用Cox比例风险函数得
本文利用变分方法、非光滑泛函的临界点理论、Nehari流形等方法,研究了 一类具有奇异和临界增长的Schr?dinger-Poisson系统多重正解的存在性.一方面,考虑了如下具有奇异项的对数Schr?dinger-Poisson系统#12其中Ω ? R3是光滑有界区域,0<γ<1,4<p<6,λ>0是一个参数.利用变分方法和非光滑泛函的临界点理论,证明了系统(0.1)解的存在性和多重性.另一方面
随着网络的普及,微博和微信等社交软件成为人们信息传播和交流的主要平台,谣言的传播也随之变得更加迅速,谣言的传播对社会秩序、人们的心理和生活都有很大的影响.关于复杂网络上谣言传播动力学的研究一直是一个非常热门的课题,主要针对谣言在网络上的传播行为和各种影响谣言传播的因素进行研究,但是还需要考虑谣言传播对社会带来的直接损失,因此对谣言传播模型的最优控制问题的研究是非常必要的.为了解决谣言在网络中的传播
分数阶偏微分方程有着极好的应用背景且在解决实际问题上起着至关重要的作用,对其解的研究能很好地帮助人们解释存在客观规律的自然现象.本文主要利用改进的辅助方程法、扩展的辅助方程映射法、F-展开法和广义指数有理函数法对具有时间分数阶方程的精确行波解进行研究,具体以下列方程为例:1.(1+1)维具时间分数阶Klein-Gordon方程:其中β,γ是任意非零常数.2.(1+1)维具时间分数阶BBM-Burg
为解决某高初速榴弹发射器浮动发射过程中遇瞎火后自动机无法自动复位的问题,设计了一种利用火药燃气能量的瞎火自动复位装置,从数学建模、数值计算和动力学仿真研究来验证了该装置实现自动机自动复位的可行性。首先基于武器气体动力学理论,建立了该瞎火自动复位装置的气体动力学模型;随后通过数值计算方法,分析了该装置的导气孔位置、导气孔直径和集气室容积3个关键结构参数对集气室内气体压力和弹丸初速的影响;最后对武器系
回归诊断是数据分析的重要内容,在回归诊断的众多研究中,影响点的探测一直是研究的重点、热点。本文主要研究基于两类局部影响分析方法在线性模型中修正岭型估计的影响点探测问题。针对基于似然距离方法下修正岭型估计的局部影响分析。首先,建立修正岭型回归模型的扩大模型,获得了扩大模型的似然函数和极大似然估计量。其次,分别对扩大模型的方差、响应变量和解释变量进行扰动,并基于Cook似然距离方法和Tsai、Bill