【摘 要】
:
随着信息技术的快速发展,我们的日常生活中产生了大量数据,而从海量的数据中提取有效信息是数据挖掘的重要任务。分类是数据挖掘中一种较常见的问题。而分类算法是一种有监督学习,即通过训练已知类别的样本获得分类模型,进而可以获得待测样本的类别。在日常生活中,我们会遇到很多分类问题,比如垃圾邮件的检测,信用评估,癌症患者的判定等。贝叶斯分类算法简单高效且应用于多个领域,是解决此类问题的常用算法。而朴素贝叶斯分
论文部分内容阅读
随着信息技术的快速发展,我们的日常生活中产生了大量数据,而从海量的数据中提取有效信息是数据挖掘的重要任务。分类是数据挖掘中一种较常见的问题。而分类算法是一种有监督学习,即通过训练已知类别的样本获得分类模型,进而可以获得待测样本的类别。在日常生活中,我们会遇到很多分类问题,比如垃圾邮件的检测,信用评估,癌症患者的判定等。贝叶斯分类算法简单高效且应用于多个领域,是解决此类问题的常用算法。而朴素贝叶斯分类(Naive Bayesian Classification,NBC)又是一种经典的贝叶斯分类算法,拥有较高的计算效率和简单的算法结构。但是NBC算法关于数据属性之间相互独立的假设,限制了NBC的使用范围,且在实际应用中很难满足这一假设,在该条件假设的基础上,研究者们从特征属性的选择,算法结构的扩展,数据属性加权,贝叶斯与其他方法相结合四个方面对模型进行了扩展,并取得了良好的效果。稀疏贝叶斯学习(Sparse Bayesian Learning,SBL)是将稀疏与NBC算法结合起来的一种改进算法。SBL利用参数的知识和贝叶斯理论求出先验概率和后验概率,最终结合二者的值求出未知参数。该算法可以利用较少的样本获得较准确的估计,但是在某些数据集上特征变量的信息提取不充分会影响算法的分类准确率。基于Kmeans++聚类的朴素贝叶斯集成方法(Naive Bayesian Bagging Based on K-means++,NBKM)也是对NBC算法的一种改进,它将NBC算法与集成算法,聚类算法结合起来并通过提高基分类器的差异性来提高组合分类器的泛化能力,但是初始聚类点的选择在很大程度上影响了模型效果的稳定性。基于以上背景,本文主要研究如下:1.针对特征变量的信息提取不充分的问题,在稀疏贝叶斯学习(SBL)算法的基础上,提出了基于主成分的稀疏贝叶斯算法(Principal Component Analysis-Sparse Bayesian Learning,PCA-SBL),在理论上解决原始特征之间的不相互独立的问题。主要在两方面的数据集上进行数值仿真:一方面,构建基于主成分的稀疏贝叶斯信用评估模型,在德国信用数据集和澳大利亚数据集上进行实验,对比PCA-SBL算法与SBL算法,前者在分类准确率,召回率,F1得分方面均优于后者,且与其他机器学习算法相比,PCA-SBL算法也有一定的优势;另一方面,选取了UCI数据集中10个领域不同,特征数多少不一的数据集进行实验,实验结果表明:与传统的机器学习算法相比,PCA-SBL算法的平均分类准确率比NBC算法高5.53%,比SBL算法高1.5%;2.针对NBKM算法模型在数据集上应用稳定性较差的问题,根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类的贝叶斯集成分类算法(Naive Bayesian Bagging Based on K-medoids,NBKME)。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,NBKME算法的平均准确率比NBC算法高3.47%。由此可见:改进的贝叶斯分类算法具有更高的泛化能力。本文提出的基于主成分的稀疏贝叶斯算法(PCA-SBL)和基于K-medoids聚类的贝叶斯集成分类算法(NBKME),与之前提出的贝叶斯分类相关的改进算法相比有更高的泛化性能和效率。
其他文献
由于环境问题日益严重,化石燃料短缺,以及现代生活对可持续发展和环境友好性的高要求,环保储能已成为具有全球竞争力的新兴产业。储能升级已被认为是经济和社会发展的重要组成部分,开发更先进的储能设备势在必行。作为一种清洁和可再生的储能技术,先进的电化学储能在我们的日常生活中得到了广泛的应用,如便携式电子设备、智能电网、混合动力汽车和电动汽车,它们的日益普及使锂离子电池在过去几十年里受到了极大的关注。然而,
随着工业化和城市化进程的加快,空气污染问题越来越突出,对人类的身心健康及日常生活构成了严重的威胁,因此空气质量预测对指导人们生活及环境监管部门制定大气管控措施具有极其重要的现实意义。现有的空气质量预测系统通常基于大气数值模式这种数学工具执行预测,通过数值方法模拟空气污染物在大气中的输送、扩散、清除和气溶胶化学等一系列物理化学过程,这类模式称为空气质量数值模式。然而各区域空气质量数值模式采用的源排放
白光发光二极管(White light emitting diode,WLED),因具有低能耗、高光效以及长寿命等优点,成为全世界研究的重点领域。碳点(Carbon Dots,CDs)由于具有光谱稳定性高、生物安全性高等优点,成为近年来发光材料研究的热点。其中,CDs基荧光粉越来越引起人们的兴趣。为此本文研究了四种CDs/聚合物基质基荧光粉,具体内容如下:(1)分别以邻苯二胺(o-phenylen
随着人类生活水平的进步和科学技术的发展,近年来,食品安全问题受到了越来越多的关注。苏丹Ⅰ和苏丹Ⅳ作为致癌物被严禁用于加入到食用制品中,但仍有不良商家为了追求利益进行非法添加;盐酸四环素(TC)被广泛用于畜牧业,动物源性食品中若产生残留即会对人体产生危害。因此,需要建立一种灵敏度高、简单便捷的检测方法。与其他方法相比,碳点作为一种荧光传感器,由于其独特的光学性能,已被广泛用于各类物质的测定和监测中。
近年来食品安全事件频出,反映出了食品行业缺乏有效监管以及检测手段的不成熟。比如,管理部门忽视了对食品生产加工等环节的监督,或者是检测设备、技术效率低下,导致不能及时发现问题产品而使其流入市场。传统的检测技术存在低效、费时、破坏性强等缺陷,而光谱技术正好克服了传统检测技术在这些方面的不足。作为一种基于光学特性的检测技术,光谱检测效率高、耗时短、易于实现自动化,适用于工业生产过程中的在线检测,同时作为
相较于有机荧光染料污染性强和半导体量子点价格昂贵的缺点,碳点(Carbon Dots,CDs)集诸多优点于一身,例如易于制备,可调发光波长,以及良好的光稳定性和生物相容性。因此,它们在传感、防伪、生物成像和光电器件等方面已展示出许多潜在的应用。目前主要存在的问题有:CDs的发光机理不明确,发射波长短,寿命短。基于此,本文合成了蓝、绿和红多三原色荧光CDs,并探究了CDs的发光机理;一步法合成白光C
1,8-萘酰亚胺是一种应用较早、用途广泛的化合物中间体,具有易修饰、较大刚性平面的结构优势和光化学性质稳定、荧光量子产率较高以及斯托克斯位移大的性能优势。这些优势使得1,8-萘酰亚胺衍生物被大量合成出来,应用于许多领域,如:有机材料的开发、药物的研究、荧光染料的合成以及荧光分子探针的合成等。基于对1,8-萘酰亚胺潜力的继续发掘,本论文以4-溴-1,8-萘二甲酸酐为起始原料,探索合成1,8-萘酰亚胺
城市生活垃圾分类试点政策实施四年以来,监督和奖惩制度已在多地实施运用,但仍存在约束失灵、效果有限等问题。通过建立博弈理论模型提出假设,并选择北京市六个主城区居民作为研究对象,运用双门槛Logit回归、调节效应回归等方法进行实证检验,研究发现:监督和奖惩制度均能有效促进居民垃圾分类,且奖惩制度组合促进作用更强。进一步分析发现,监督力度对居民参与垃圾分类的边际促进作用递减,且是奖惩制度的负向调节变量,
协方差矩阵作为许多金融模型的输入值,在资产配置与风险管理中扮演着十分重要的角色。然而,随着信息技术的飞速发展,高维数据频繁地出现在金融与经济领域,致使传统协方差矩阵估计方法面临严峻挑战。高维协方差矩阵估计遇到的挑战可以从横截面和时间序列两个视角进行探讨。从横截面角度来说,主要的难点在于高维度性与非正态性。当资产数量大于时间序列长度时,传统的估计方法会受到维数灾难与噪声大等问题的影响。从时间序列角度
在这个经济快速发展的背后,离不开化石能源的贡献,随之带来的是全球能源危机、气候极端变化等严重问题。为了寻求解决的途径,各国均大力倡导开发可再生能源,包括风能、太阳能、潮汐能、生物质能等。生物质能被认为对缓解化石能源枯竭、改善气候变化等其它问题具有重要的潜力,其中木质纤维素生物质较其他生物质而言,它的替代表现更加优异。以刺槐树枝(RP)为原料,在N2氛围中制备了刺槐炭(RPC),通过热解温度与响应面