【摘 要】
:
随着大数据时代的来临,海量高维数据的多标签分类已经成为了一个新的研究热点。目前已有多标签分类的大部分算法都是假设数据之间独立分布的,没有考虑到数据之间的相互关系。
论文部分内容阅读
随着大数据时代的来临,海量高维数据的多标签分类已经成为了一个新的研究热点。目前已有多标签分类的大部分算法都是假设数据之间独立分布的,没有考虑到数据之间的相互关系。然而在现实生活中数据之间必然存在或多或少的显性或隐性的关系。并且有标签的数据获取代价昂贵,这对多标签分类算法带来了新的挑战。针对以上的问题,本文采用了一种基于关联度的半监督多标签分类方法。其基本思想是首先针对多标签数据进行降维,减少数据冗余,然后通过半监督标签传递的方式为无标签数据赋予标签,得到数据属性和标签之间的外关联度,利用Kulc关联度计算标签之间的内关联度,最后结合内外关联度构建分类模型及其算法实现,基于公共数据集,进行实验验证,结果表明本文所提方法合理可行,提高了多标签分类的性能。具体研究内容如下:1.对多标签分类的概念和部分经典的多标签算法进行了综述,总结了这些多标签分类方法的主要思想以及它们的优缺点。2.在大数据环境下,针对数据维度灾难,本文采用主成分分析法和线性判别分析法对数据进行降维,减少数据冗余,通过实验证明,两种降维方法均可有效的提升多标签分类的性能,且由于LDA降维方法可以运用标签信息,使得在低维空间中投影的数据同类分布密集,类别之间分布稀疏,更利于后续的多标签分类。3.针对标签之间的相互关系,提出了利用Kulc关联度计算标签之间的相互关系。引入大量无标签数据,利用半监督学习思想,构建连通图,通过标签传递的方式构建软标签矩阵,进而得到数据属性和标签之间的外关联度,同时由于为大量无标签数据赋予标签,进一步提升标签内关联度的准确性。将内外关联度融入到多标签分类算法中,形成一个既考虑数据和标签之间的相互关系又考虑标签之间相互关系的算法(简称RSML)。4.通过实验对比分析,对比两种降维方法对本文算法RSML的性能提升程度,得到最优算法LDRSML,然后将算法LDRSML和常见的多标签分类算法在常用的数据集上进行对比实验,对比的实验结果表明本文算法LDRSML提高了分类性能。
其他文献
随着量子相干性在诸多领域扮演着重要的角色,对量子相干性的量化也变得非常有必要.2014年Baumgratz,Cramer和Plenio等人提出了度量量子相干性应满足的一组基本性质后,相干性
由于无法直接接触产品,网购消费者往往依据各种外部线索进行价值判断和购买决策。就电子产品和家用电器等耐用品而言,型号数码和价格是重要的外部线索。研究通过两个实验探讨
随着世界各国对生态问题的重视以及环保法规的日益严苛,绿色环保和高效型添加剂成为润滑领域的研究热点。碳纳米材料由于原料来源广、绿色低毒以及独特的润滑性能等受到了广
聚羟基丁酸酯(PHB)是微生物在碳源充足、其它营养物质如O、P、N、S等不足时产生的一种以颗粒形式存在的细胞内聚合物,PHB可以用作新型的可降解塑料和水产养殖控制剂。Halomon
工业从出现至今几百年来一直保持着快速发展的趋势,而随着工业的发展,地球水环境受到的伤害日益严重。重金属、抗生素、有机染料等污染物随着各行各业污水的排放进入到了生态
激进环保主义者认为,一般的呼吁、引导、抗议等行为并不能对其反对工业开发造成的生态破坏的主张造成足够的影响,于是他们便开始采用暴力行动,试图以财产,甚至生命的切肤之痛
自改革开放以来,我国经济持续快速的增长,工业化信息化进程加快,并且经济体质改革取得重大进展,但库存积压、产能过剩和消费购买力不足等问题也在逐渐显现。“中国制造”向“
针对国内人均林木资源占有率低、木料综合利用率不高等现状,国家大力提倡木材加工企业应用智能化和自动化的木材优选加工设备,以切实提高实木板材出材的数量和品质。但是,国内大多数的木材加工企业因自身技术条件不过硬,或因研发的设备成本高昂,仍采用人工划线识别并加工的方法,这种情况必然导致实木板材的优选加工存在自动化程度低、人力成本花销大、缺陷识别主观性强且不精确、自动检测和锯切加工不智能等问题。为了解决这些
本研究首先构建潮霉素B、博莱霉素双抗敲除质粒,采用电击转化法导入根癌农杆菌AGL1,研究不同条件对根癌农杆菌介导转化黑曲霉效率的影响,最终确定最优转化条件为:诱导根癌农
木聚糖是一类异质多糖,主链是由β-1,4-糖苷键连接木糖单元而形成,其结构复杂,降解过程需要多种糖苷水解酶共同完成;其中,β-木糖苷酶和α-L-阿拉伯糖苷酶对木聚糖的完全降解