基于模糊邻域粗糙集的多标记特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:speed5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展与进步,信息呈现爆发式增长,这些数据信息在生活中普遍具有复杂多样和语义丰富的特点,使得传统的单标记已无法满足当代社会对信息完整度的追求,多标记应运而生,多标记中同一个对象可被同时描述为多个类别。与单标记学习一样,多标记学习也面临“维数灾难”的挑战,所需处理的数据中存在大量冗余和不相关的信息,这将严重影响多标记分类模型的泛化能力。本文针对多标记学习中存在的维数灾难问题,使用特征选择方法对多标记数据进行预处理,并扩展了模糊邻域粗糙集理论,从模糊相似度及邻域粒化的思想出发研究多标记模糊邻域决策系统中的不确定性度量方法,结合不同评价角度,基于模糊邻域粗糙集模型提出了两种多标记特征选择算法,并通过理论分析与实验对比,验证了所提算法的性能。主要的研究内容包括:(1)针对基于经典粗糙集的特征选择算法中,大多数仅从单个角度分析属性重要性,且忽略了上近似对属性重要度的影响的问题,本文从代数观和信息论两个角度对属性进行评价,提出了一种基于模糊邻域条件熵的多标记模糊邻域粗糙集特征选择算法。首先,定义了基于模糊邻域粗糙集模型的模糊邻域近似精度以及模糊决策;其次,根据信息论中信息熵的概念在模糊邻域粗糙集模型中提出了模糊邻域条件熵的概念,并与代数观点下的模糊邻域近似精度融合为一种新的混合度量方法,根据所提的混合度量计算每个属性的重要度,筛选出最优特征子集;最后,在10个多标记数据集上与相关的多标记特征选择算法进行实验对比,实验结果表明了所提算法在多标记模糊邻域决策系统上的有效性。(2)针对以往基于邻域关系的多标记特征选择算法中,大多依据专家经验设置邻域参数,且半径未随着数据结构的不同而改变,以及一些多标记特征选择算法未综合考虑特征和标记两个空间上样本之间相似度的问题,本文提出了一种基于双空间模糊邻域相似关系的多标记特征选择算法。首先,提出一种计算自适应邻域半径的公式,并在模糊邻域相似矩阵中得出样本在特征空间下的相似度;其次,在标记空间下得出样本的相似度;然后,将特征和标记空间下的样本相似度相结合来计算特征的重要度;最后,在13个多标记数据集上与相关多标记特征选择算法进行实验对比,实验结果表明所提算法具有一定的有效性并表现出较出色的分类性能。
其他文献
公司在分配公平和程序公平方面存在的问题,会影响员工的心理所有权和职业承诺,甚至诱发员工越轨行为、产生离职倾向。在公司的KPI考核、薪资发放、岗位变动等环节中,一旦某一环节出现不公平现象,会直接影响员工工作满意度。R保险W分公司是集团人寿保险公司所属二级分公司,主营寿险产品。本文对R保险W分公司缺乏有效激励策略的原因进行了研究,发现如何提高激励方式的公平性是R保险W分公司可持续发展路上亟待解决的重要
学位
随着农业现代化的快速推进,国家愈加重视农业经营体制的改革,而农业经营方式是农业经营体制的核心。为构建起现代农业可持续发展的长效运行机制,需要积极探索适合我国国情的农业经营方式。在当前制度环境下,对农业经营方式变革动力机制的分析,有助于厘清不同发展阶段农业经营方式变革的学理逻辑,从实践经验出发提出契合当前农业经营所需的可行路径,有着一定的理论和实践价值。本文通过对安徽省F县农业经营方式的两次变迁历程
学位
随着消费金融在我国快速的发展,客户的逾期率和消费金融公司的不良贷款率稳步上升,催收作为贷后风险控制不可或缺的一环,在降低客户逾期率和不良贷款率方面发挥着越来越重要的作用。在银保监会对于消费金融公司催收的监管力度愈发严格,同时受媒体“暴力催收”的舆论影响,以及催收行业对于从业人员个人能力的高要求的背景下,外访催收人员工作压力也愈发严重。本文研究的目的是希望通过对J消费金融公司外访催收人员工作压力的研
学位
近年来信息技术蓬勃发展,随之而来的是数据量暴增。在日常生产生活中,越来越多的数据被获取并存储。然而一些数据对于分类任务来说是不相关或冗余的,且这些冗余数据对做出正确的决策会产生影响。因此,如何有效地处理冗余数据已然迫在眉睫。虽然特征选择方法已被广泛应用,但大多数的特征选择算法仅考虑决策下近似所包含的分类信息,忽略了决策分歧的样本所提供的分类信息,从而可能导致部分信息的丢失。本研究以模糊邻域粗糙集模
学位
纵观我国的国有天然气公司,可以发现人力资源管理在这些公司都发挥着重要的作用,而在该体系中,绩效管理更是其中尤为重要的内容,可以帮助天然气公司创造更多效益,实现发展目标。尤其是改革减员增效对国有企业的发展很重要,X公司面临国企改革的环境,必须要不断提升自己的发展动力,其重要的手段就是应用强制分布法对绩效管理体系进行优化,然而在实施过程中遇到一系列问题,如何更好地应用强制分布法,起到激励员工的积极作用
学位
随着现代社会的快速发展,亟需解决的优化问题呈现出复杂化和多样化的发展趋势。机械工程设计问题是重要的优化问题之一,该问题的主要目标是在满足一定约束条件的情况下,寻找机械工程产品的一组最优参数值。传统的优化方法在解决这类问题时常面临陷入局部最优的困境,不能找到最优解,许多研究者开始采用元启发式算法(Meta-heuristic algorithms,MAs)来解决机械工程设计问题。单个MA都有自己的优
学位
随着科学和技术的进步,亟需解决的优化问题越来越多,且其复杂性大幅增加,用传统基于数学的优化方法,如梯度下降、牛顿法等,几乎不可能解决这些复杂问题。因此,越来越多的智能优化算法(Intelligent Optimization Algorithms,IOAs)被提出。为了更好地解决复杂优化问题,提出了分组结构的IOA。本文主要讨论分组结构的IOAs,如同步热传递搜索算法(Simultaneous H
学位
在互联网时代信息爆炸及地勘单位改革的背景下,媒体格局深刻变化,舆论生态更加复杂,地勘单位青年职工思想状态的波动变化更加活跃,也令地勘单位青年职工思想政治工作面对着更多的新挑战。文章简要分析了当前地勘单位青年职工思想特点,并对地勘单位青年职工思想政治工作面临的问题及其实施策略进行了论述。
期刊
随着自媒体平台的出现和高速发展,人们越来越多地关注自媒体平台上的新闻信息,观看电视节目已不再是人们茶余饭后休闲的首选,湖北电视台《新闻360》节目更是面临着前所未有的挑战。本研究以传播分众化理论与拉斯韦尔5W理论为理论基础,以湖北电视台《新闻360》节目作为研究案例,运用调查研究的方法对自媒体发展环境下湖北电视台《新闻360》节目面临的困境及原因进行深入分析,并根据分析结果提出相应的对策建议。通过
学位
数据挖掘的快速发展使其在医疗保健、金融服务、安防领域等方面得到了广泛应用,k-means聚类算法是数据挖掘中经典且常用的算法之一,具有简单易于实现、可高效处理海量数据等特点。但用户进行k-means聚类时可能会泄露自己的敏感信息,隐私保护k-means聚类可以在保护数据隐私的同时进行k-means聚类。然而,现有的差分隐私保护k-means聚类方案存在迭代效率低、服务器返回错误聚类结果的问题。此外
学位