【摘 要】
:
随着大数据时代的发展,在各个应用场景中,数据的维度越来越高。语义越来越丰富。特征选择作为机器学习和数据挖掘领域中重要的数据预处理步骤,它能挑选有代表性的特征子集,通过提出冗余的,带噪声的特征。标记分布学习,作为一个新的学习范式,同样存在维度灾难问题。多标记学习中,每个实例与多个标记相关联,每个标记的重要程度是相同的。标记分布学习中每个实例也与多个标记相关联,但每个标记的重要度不一定是相同的。目前,
论文部分内容阅读
随着大数据时代的发展,在各个应用场景中,数据的维度越来越高。语义越来越丰富。特征选择作为机器学习和数据挖掘领域中重要的数据预处理步骤,它能挑选有代表性的特征子集,通过提出冗余的,带噪声的特征。标记分布学习,作为一个新的学习范式,同样存在维度灾难问题。多标记学习中,每个实例与多个标记相关联,每个标记的重要程度是相同的。标记分布学习中每个实例也与多个标记相关联,但每个标记的重要度不一定是相同的。目前,针对标记分布学习中存在的“维度灾难”问题,有待进一步研究。此外,利用标记增强可以将多标记数据增强成标记分布数据,从而增强数据的监督信息。因此,本文围绕标记增强和标记分布特征选择算法展开研究,并且将标记增强和标记分布特征选择用于植物叶片种类识别中,本文的研究如下所示。首先,本文针对标记分布数据提出了一个新的标记分布特征选择算法。该算法利用了稀疏学习,特征相似性度量和标记相关性度量。稀疏学习是使用l2,1范数,可以使得求解的参数趋近行稀疏。然后基于粒计算思想的特征相似性度量,通过在每个样本的邻域粒度中度量特征相似性,使得相似性高的特征在参数矩阵中对应的向量更加相似。最后利用皮尔逊相关系数度量标记相关性,欧式距离度量标记相关程度。最后在十二个公共数据集和六个评价指标上与五个主流的算法比较,验证了算法的有效性。在现实生活中,标记分布数据标注非常困难,大多数为多标记数据,因此可以利用标记增强算法对多标记数据进行增强,从而得到标记分布数据。在现实中,每个标记的重要程度可能是不同的,但在已有的多标记特征选择算法中大多认为标记的重要程度是相同的,因此利用标记增强算法将多标记数据转换成标记分布数据,以此来增加数据的监督信息。最后,在增强的标记分布数据上,利用标记之间的相关性进行特征选择。最后将挑选的特征子集,输入到多标记分类器中进行分类,以此,来提升分类的性能。本文设计的算法在十五个多标记数据上进行验证,在六个评价指标上与六个主流的特征选择算法比较中表现了有效性。最后,将本文提出的基于标记增强算法的特征选择算法应用于植物叶片种类识别中。该模型主要分为四个步骤:数据处理,标记增强,特征选择和分类。叶片数据是多类数据,通过数据处理将多类数据处理成多标记数据。然后通过深度森林改造的标记增强框架将多标记数据转换成标记分布数据,使得数据的监督信息得到增强,然后再进行特征选择,选取重要程度高的特征。最后在多个分类器上进行分类,验证基于标记增强的特征选择是否有助于分类器分类精度的提升。实验证明,在大多数情况下本文提出的模型在叶片种类识别中表现出了有效性。
其他文献
我国是世界蔬菜生产和消费第一大国,目前蔬菜生产已经成为我国种植业中仅次于粮食的第二大农作物,然而蔬菜生产过程中病虫害不仅影响蔬菜外观,还影响其长势、产量及质量。目前,蔬菜病虫害防控仍大多采用化学农药,施药技术落后,在蔬菜行距、株距较大的情况下使用连续喷雾,喷头无法对靶施药,且施药次数较多,出现大量药液无效沉积且流失到空气土壤,农药利用率低且浪费严重,造成环境污染、叶面农药残留超标。针对以上问题,本
作为世界上最大的生猪生产和消费国,我国在十四五养殖业规划中提出猪肉自给率保持在95%左右的产品保障目标,我国的生猪养殖模式已转向大规模机械化发展。目前母猪发情检测是由人工驱赶公猪,需要多人协作才能完成,不仅查情效率低,同时也增加疾病传染的风险。本文设计的公猪查情遥控电动小车是提高查情效率、降低疾病传染风险的关键性设施,同时也是促使我国生猪养殖模式转向智能化的重要条件,本设计对于发展我国生猪养殖业具
我国是柑橘出产大国,柑橘分选的速度与精确度直接影响到我国柑橘在国际市场上的竞争力。目前我国柑橘分选主要依靠人工完成,该方法不仅消耗了大量劳动力资源而且分级精度不高、分级效率低。现如今国内虽已经有一些水果无损检测分级生产线,但这些生产线大多体型大、价格贵,且具有检测内部或理化品质的设备大多依靠近红外、高光谱技术,使之更加昂贵与难以维护。南丰蜜桔是南方特色优势水果,鉴于我国主要的南丰蜜桔种植多以个体农
为了解决雨雾天收割水稻时,水稻由于表层呈现高湿状态导致收割机输送机构和脱粒清选装置堵塞,潮湿稻草夹带谷粒从而引起额外的浪费损失的问题,提高联合收割机的热效率及利用率,减少稻谷的霉变损失,提出了利用收割机余热在割台以及水稻输送器处两部位采用热风干燥水稻实现水稻机收的方案,并针对在联合收割机割台进行热风干燥水稻做出了一系列研究:(1)基于水稻传热传质理论及内燃机余热回收的计算,进行了收割机余热在机干燥
农产品在种植过程中存在农药使用不合理及滥用行为,导致农产品中存在严重农药残留问题。经典化学检测方法灵敏度高,但前处理复杂、成本高,需要专业人员操作。电化学检测技术具有检测速度快、灵敏度高,且易于集成化和小型化等优点,广泛用于质量安全快速检测。本文探讨农产品中农药残留电化学快速检测方法,结合循环伏安法(CV)和差分脉冲伏安法(DPV),开发一套基于智能手机的便携式电化学检测系统。主要研究内容如下:(
在我国经济体系中,农业占据至关重要的地位,但农作物病害是制约“农业增效、粮食增产、农民增收”的原因之一,现可见的病害种类有1400种以上之多,若病害爆发则会导致社会经济的非健康发展。目前,豆类在农作物中的占比增大,其中豆科作物不仅需要面对环境的考验,还需要面临大量病害类别造成的产量锐减问题,同时,随着病害种类的增多,对于病害类别标注需要耗费大量的人力、物力等资源。目前为止,种植豆科作物的人员主要还
农机的环境感知技术是农机智能化研究的首要环节。而在面向水稻插秧机的无人驾驶智能农机系统中,通过机器视觉有效区分水田场景下的作业区域与田垄区域,可为后续的作业路径规划提供基础。本文以耕整后水田为研究对象,基于深度学习技术结合有监督训练实现水田图像的田垄语义分割。本文的研究内容如下:1)水田田垄数据集构建以江西农业大学试验田、新建县珂里村农场和袁州区甘竹农场为研究区域,基于2ZGQ-80D型洋马插秧机
传统微型旋耕机耕作过程依赖于农机操作手主观化、经验化的操作,耕作效果的好坏取决于农机操作手自身水平的高低。同时传统微型旋耕机耕作过程通常无法实现最佳的耕作效果,其根本的原因在于农机操作手无法详细、准确的获取微型旋耕机耕作过程中耕作要素的动态变化,无法对耕作效果进行准确的判断,面对不同的耕作环境无法及时、有效的给出正确的耕作策略。随着新一代信息技术与农业生产领域的深度融合与创新发展,农业生产技术水平
面制食品是世界各国人民日常消费的主要食物类型之一,面制食品制作过程添加钾明矾、铵明矾以及其他含铝食品添加剂,以改变品质或口感,但添加过量导致面制食品铝超标,对人体健康造成威胁。因此,加强面制食品中铝含量检测具有重要意义。目前常用于食品中铝元素的分光光度法等化学检测方法具有较高的分析精度,但检测时间长、成本高、预处理复杂、难以实现现场检测。因此,开发一种绿色、灵敏、可靠、快速的分析技术符合现代食品检
磺胺类药物(Sulfonamides,SAs)是人工合成的,带有对氨基苯磺酰胺结构的抗菌药物,它能用于预防和治疗大多数革兰氏阳性菌,以及许多革兰氏阴性菌所引起的疾病。因其抗菌谱广、价格优惠而且性质稳定而广泛使用于养殖业中。超剂量用药、休药期用药都会使SAs在畜禽体内蓄积,在食品、农副产品和环境中的残留,最终沿着食物链进入人体,危害人们健康。与其他传统检测SAs的方法相比,电化学传感方法成本低、灵敏