【摘 要】
:
随着信息技术的飞速发展,数据信息的高维化给数据挖掘和机器学习等领域带来了新的机遇和挑战。为了从海量的信息中提取出有益于学习任务的知识,研究人员提出了数据降维技术。
论文部分内容阅读
随着信息技术的飞速发展,数据信息的高维化给数据挖掘和机器学习等领域带来了新的机遇和挑战。为了从海量的信息中提取出有益于学习任务的知识,研究人员提出了数据降维技术。该技术可以将高维数据映射到低维的数据空间,避免了“维度灾难”的问题,缓解了数据量大不利于学习的现状。Relief是一种有效的有监督过滤式特征选择算法。该算法通过计算样本与其同类近邻和异类近邻的距离差来估计每个特征的权重。权重越大,则表示相应的特征对类别的判别能力越强。目前,Relief算法已经被推广到半监督领域,但是已有的基于Relief的半监督算法不能处理多分类问题。为此,本文深入研究基于-Relief的半监督特征选择算法,并为多分类问题提供解决方案。主要的工作总结如下:提出了面向多类的Relief半监督特征选择算法,即MSLIR。鉴于已有的Relief半监督方法不适合于多分类问题,本文为多分类问题设计了无标签数据间隔向量的计算方案,从而提出了 MSLIR算法。通过给无标签样本定义临时标签,并计算在该临时标签下的间隔向量以及间隔向量与权重向量的内积,取内积最大时的间隔向量作为无标签样本最终的间隔向量。利用有标签与无标签的间隔向量来优化目标函数,得出特征权重。实验结果验证了所提方法在多分类数据集上的有效性。提出了基于最近邻的Relief半监督特征选择方法,即MSLIR-NN。鉴于MSLIR具有复杂度较高以及无标签数据标签预测率不高的问题,本文提出了 MSLIR-NN算法。根据有标签样本的标签信息,使用最近邻分类器来预测无标签数据的标签,然后计算无标签数据的间隔向量。综合有标签与无标签的间隔向量来优化目标函数,从而获得特征权重。实验结果证实了该算法能够改善无标签数据的预测准确率。提出了基于局部保持的Relief半监督特征选择算法,即LPLIR。针对已有基于Relief的半监督特征选择方法不具有保持数据局部结构的能力,本文通过加入拉普拉斯正则项,提出了 LPLIR算法。该算法能够保证在原始特征空间的数据和在加权特征空间的数据具有相同的局部结构。大量的实验结果证实了该算法优于现有的半监督特征选择方法。
其他文献
与有线的固定环境相比,移动环境中的无线网络连接更加脆弱,移动主机可靠性更差,为提高移动计算系统的容错性能,研究并提出一个移动计算环境下支持移动节点迁移的故障检测算法。在基于互测比较和概率诊断的区内故障感知算法基础上,针对移动节点自由迁移导致的区内故障感知算法中移动主机(MH)漏检或故障恢复不彻底问题,引入条件检查和故障信息发布机制,提出支持移动节点迁移的移动计算环境下的故障检测算法。仿真实验表明:
我国经济发展已然进入中高速常态区间,从经济去杠杆到金融去杠杆,2017年5月7日中国保监会发布监管公文,里面提到保险业也要“去杠杆”。保险业的迅猛发展对于国民经济的发展起着不可或缺的推动作用。本文的研究目的是围绕“去杠杆”,在分析寿险业杠杆率现状的基础上,通过定量分析影响我国寿险业杠杆率的因素,综合已有文献研究成果,以寿险业为研究对象,从宏观、中观、微观因素三大方面选取反映杠杆率影响因素的10个指
标签防碰撞技术是射频识别(RFID)系统中提高识别效率的关键技术。在对基本二进制搜索算法及其各种改进算法进行分析的基础上,提出一种基于后退式二进制搜索算法的改进算法IRBS。该算法引入标签状态计数器Rn来记录标签的状态。首先判定标签的反馈信息碰撞位,然后把最高冲突位作为标签分组的依据,联合利用前、后向搜索方法来减少标签的搜索范围。仿真结果表明,该算法能减少阅读器和标签之间的通信量,有效地提高标签的
从我国现状出发,分析包装工程高等教育的发展趋势,解析当前林产工业对包装技术的需求并提出依靠学校特点建设特色包装工程专业。通过在多门课程中增加林产工业的知识点构建了基
随着越来越多的孤独症学生进入培智学校接受义务教育,培智学校的课程开发与实施面临更高的要求和挑战。目前,各地培智学校日益关注孤独症学生的课程开发与实施问题,但整体状况并不明确。为了解学校面向孤独症学生的课程开发与实施状况,本研究通过自编《培智学校面向孤独症学生的课程开发与实施现状调查问卷》,对全国24个省的55所培智学校参与孤独症学生教育教学的教师进行了调查。调查结果发现:(1)在课程目标涉及的能力
20世纪90年代全球化写作语境赋予了阿来浓厚的民族意识与锐利的先锋意识,使他对本民族生活的书写、历史的整体反思和人类命运的观照有机地融为一体。本文试从傻子的形象、诗
编写SQL语句是测试数据库管理系统的一个重要部分。自动生成SQL语句可以有效减少测试人员的工作量,而目前没有直接生成SQL语句的自动化工具。通过模拟产生式的直接推导过程,根据SQL文法,给出生成符合该文法的SQL语句,用作测试用例的方法;研究从表示文法的BNF文件生成SQL测试用例集合的自动化过程。这个过程包括几个阶段:将SQL文法的每一个非终结符转换成一个对应的解析函数,所有解析函数的集合构成规