【摘 要】
:
在大数据时代的背景下,收集到的数据在语义和形式上日趋丰富。作为机器学习领域广泛讨论的问题,标记多义性问题近年来受到了越来越多的关注。多标记学习是当前解决标记多义性问题的主流范式。在该范式中,每个实例可同时属于多个标记,且同一实例所关联的标记具有相同的重要性。很显然,多标记学习仍然无法回答“不同标记对同一个实例的描述程度如何?”的问题,这也局限了它在处理标记多义性问题上的广度。因此,标记分布学习作为
论文部分内容阅读
在大数据时代的背景下,收集到的数据在语义和形式上日趋丰富。作为机器学习领域广泛讨论的问题,标记多义性问题近年来受到了越来越多的关注。多标记学习是当前解决标记多义性问题的主流范式。在该范式中,每个实例可同时属于多个标记,且同一实例所关联的标记具有相同的重要性。很显然,多标记学习仍然无法回答“不同标记对同一个实例的描述程度如何?”的问题,这也局限了它在处理标记多义性问题上的广度。因此,标记分布学习作为多标记学习的延伸,在处理标记多义性方面发挥着越来越重要的作用。然而,现实世界中,标记分布数据的标注信息可能是不完备的,而现有的完备方法不能直接用于处理这些数据。此外,随着数据收集和保存技术的发展,各行各业的数据都趋于高维化,过高的维度给数据分类带来了新的挑战。受此启发,本文从粒计算角度出发,围绕标记分布学习中“标记不完备”和“维度灾难”两个问题展开研究。主要研究工作如下:1.针对标记分布数据中部分样本的标记完全缺失的情况,基于局部粗糙集的思想,提出了一种新的标记分布局部粗糙集模型。该模型利用邻域关系分别对特征空间和标记空间进行粒化,同时考虑了特征之间的相关性和标记之间的相关性,并且通过构造新的近似集来考虑特征和标记之间的相关性。基于标记分布局部粗糙集模型,设计了一种新的启发式特征选择算法以选择相对较优的特征子集。通过一系列的对比实验和统计检验分析,验证了提出的算法的有效性。2.针对标记分布数据中部分样本的标记部分缺失的情况,引用邻域容差关系直接处理不完备数据而无需恢复丢失的标记,避免了噪声信息的干扰,同时考虑了特征之间的相关性和标记之间的相关性。受邻域判别指数的启发,构建了邻域容差判别指数用于评估特征子集的判别能力,并基于此设计了一种新的不完备标记分布特征选择算法。该算法无需离散化即可直接用于处理标记分布数据,减少了离散化过程中的信息损失。多个标记分布数据集上的实验结果表明,所提出的算法是可行且有效的。
其他文献
城市公园是城市绿地系统的重要组成部分,也是城市居民休憩娱乐、加强交流和丰富生活的主要场所。而景观设施作为城市公园中的重要组成部分,是连接人与公园环境的主要载体。随着我国城市公园迅速发展,公园中景观设施安全问题也逐渐凸显,如游览者踩到长满青苔的积水地面导致摔伤、设施破损失修造成游人物理伤害、无障碍设施的缺失给残障人士带来伤害等问题屡见不鲜。因此,如何保证市民在城市公园中避免因景观设施造成安全问题,值
捞月型悬崖式树木盆景(简称“捞月型盆景”)作为悬崖式盆景的一种新颖别致的造型形式,是模仿自然界或悬崖峭壁上生长的一种树木形态,其树干超出盆外且弯曲下垂的姿态,既表现出蜿蜒曲折的形式美,又体现出下跌回旋的动势美。捞月型盆景是对传统盆景形式的破格创新,造型动感强且灵活多变,是树木盆景中别具风韵的形式。目前,捞月型盆景的相关理论及创作技法等还处于初步探索阶段。本课题研究,不仅可为捞月型盆景的创作提供指导
我国具有独特的农垦历史文化,由于人民的生活水准越来越高,旅游业的形式正在逐渐改变。休闲农业是一种新的模式和亮点,以农业为基础,集农业和旅游业于一体的新型农业产业。通过开发具有地域特色的田园景观和生态环境,满足更多游客的参与观光体验需求,提高农业生产的效率、促进乡村的繁荣发展和农民的收入增长。实现第一、第三产业的结合。通过农业景观资源的开发和农业生产状况的分析,促进乡村经济发展,发展集亲近自然、农垦
随着信息技术的迅猛发展,数据量随之飞速增长,为了挖掘出数据中有价值的信息,数据挖掘受到了广泛关注,而随着数据量增加的同时,特征的维度也在不断增大,引发了维度灾难问题,特征选择是有效的解决维度灾难问题的手段之一,现有的特征选择方法大多只针对静态数据,而许多实际应用中数据往往呈现动态性与复杂性等特点,而动态场景下现有的在线流特征选择方法大部分仅能处理单一类型数据。此外,现实生活中广泛存在实例多义性的问
森林是地球之肺,对维护和改善生态环境起着决定性作用,同时也是人类生存与发展重要的物质基础。论文以江西省金溪县为研究区,基于2009-2019年3期森林资源二类调查数据,分析其森林资源结构及质量的动态变化,采用层次分析法分别构建了商品林和生态公益林质量评价指标体系并进行了评价,在此基础上提出了相应的对策与建议,为研究区森林资源可持续发展提供参考依据。主要结果与结论如下:(1)2019年金溪县林地面积
乡村人居林建设是改善村庄生态环境的重要举措,也是新农村建设的重要组成部分。而植物是人居林构建的基础,因村民需求不一,所以对于绿化树种的需求也存在差异。目前关于不同村庄类型的乡村人居林树种结构差异及村民对绿化树种的需求还缺少比较系统的研究,阻碍了科学开展乡村人居林建设的步伐。本研究以江西省91个村庄为例,通过实地调查结合树种组成及村民需求意愿分析,比较不同建设类型村庄的人居林结构特征差异,并结合树种
心律失常是心血管疾病中常见的病症之一,诊断心律失常往往需要通过心电图检查。然而对心电图的目视检查不仅耗时,而且可能导致误诊,影响疾病的预防及治疗。因此,需要通过自动分析技术来辅助医生进行心律失常的诊断,从而提高诊断效率和准确性。目前,实现心律失常自动分类的方法主要有基于传统机器学习方法和基于深度学习方法。传统机器学习方法分类器的性能很大程度上取决于手工提取特征的质量,模型泛化能力弱。基于深度学习的
图像语义分割就是对图像中每个像素点进行类别预测,通过使用不同颜色对不同类别进行划分,同时还保留了各个像素点在图像中的位置信息,是图像理解的核心任务之一。Deeplab v3+是目前性能较好的全监督编码-解码模型结构,其复杂的编码过程能够有效提取图像的高级语义特征,但在特征图上采样过程中仅融合一个尺度的编码特征,这种解码方式会导致多尺度上下文细节信息的丢失,使得最终的分割结果较为粗糙。全监督语义分割
人口老龄化问题是我国当前面临的一项日渐严峻的社会关注问题。我国社会的老龄化趋势,引发了国家对老年人群健康问题的持续关注。体力活动已成为老年人促进健康的重要方式,而社区公园作为最接近老年人生活的活动载体,其活动空间优化研究存在不足。因此,如何优化社区公园老年人体力活动空间,从而促进老年人身心健康,成为了当前社会普遍关注的话题。本文采用理论与实践相结合的研究方式,对社区公园老年人体力活动空间优化设计展
近年来,随着虚拟试衣、智慧交通等技术的不断发展,对人体图像数据的需求量也日益剧增,人体图像生成模型成为了重要研究课题。然而,面对背景复杂、图像分布不均匀、细节纹理要求高的情况下,如何生成图像清晰、各方面符合人类感知的真实人体图像仍然是一个具有挑战性的问题。相比于传统的生成模型,生成对抗网络已经在近几年被证实在图像生成等一些主流任务中,其生成能力、模型泛化能力等方面都更有优势。因此,为了提高人体图像