【摘 要】
:
数据分类,作为数据处理等相关领域重要的研究课题,可应用到医学数据、图像、网页数据、文本数据等诸多领域。在对目标数据进行分类的过程中,根据信息源的种类,目标可分为:有标记(la
论文部分内容阅读
数据分类,作为数据处理等相关领域重要的研究课题,可应用到医学数据、图像、网页数据、文本数据等诸多领域。在对目标数据进行分类的过程中,根据信息源的种类,目标可分为:有标记(labeled)信息和无标记(unlabeled)信息。而实际应用中,两种信息并存的情况更多,且对数据的标记代价是昂贵的,需要耗费大量的人力物力,而未标记样又是大量存在且廉价,在这样的情况如何更好的达到分类的效果,于是半监督学习(Semi-Supervised Learning)应运而生,并成为当前机器学习等领域的研究热点。本文对于协同训练算法和集成学习进行了深入研究,基于协同训练提出了更有效的协同训练算法,并做了半监督与集成结合算法的研究,逐步深入的探讨了自己的理解和方法,通过对UCI及文本数据和极化SAR数据分类进行研究得到了验证。首先,本文着重讨论了半监督学习思想中的一种热点算法:协同训练算法(Co-Training)。并将其与支撑矢量机(SVM)学习方法结合对UCI数据和文本、极化SAR数据进行分类。为了更好的满足协同的条件,我们引入了PCA(PrincipalComponent Analysis)技术来更严格的满足协同的条件。且在添加高置信度样本时,引入了更精确的置信度度量并与PAC(Probably Approximately Correct)理论估计误差下限相结合,更加精确的添加高置信度样本,且更有效的提高了算法的效率。通过对UCI数据和文本、极化SAR数据进行分类实验的测试,实验结果表明,该方法相比传统协同训练算法具有较好的分类精度。其次,对基于SVM分类器半监督学习与集成学习的结合进行研究,有效的结合了半监督与集成学习,基于集成策略构造了协同算法,较好的提高了协同算法的性能。在协同的迭代过程中,通过差异性选择集成的策略来选择对于相应分类器更有效的高置信度样本,更有效的提高了相应分类器的性能,从而较好的提高最终分类性能。本文通过对UCI数据和极化SAR数据的分类进行了实验,实验结果表明,该方法相比传统协同训练算法具有较好的分类精度。
其他文献
干涉合成孔径雷达(Interferometric Synthetic Aperture Radar,InSAR)是雷达成像技术的新发展,是在合成孔径雷达(SAR)基础上,通过相位干涉,得到成像目标的距离、方位和高程三维
本论文主要涉及两部分内容:第一部分是水稻和太行花中MADS-box基因的相关研究,第二部分是水稻中SAGE技术的生物信息学分析。MADS-box基因家族在花发育过程中起着重要的作用。水稻是单子叶植物的模式植物,其基因组序列的公布为在基因组水平上鉴定MADS-box基因提供了条件。根据已发表的水稻MADS-box基因序列,利用关键词搜索、HMMER分析、同源比较、系统进化树分析等手段,对GeneBa
严重急性呼吸综合症(severeacuterespiratorysyndrome,SARS)又称传染性非典型肺炎(infectiousatypicalpneumonia),它可以通过家庭和医护人员感染,是一种新出现的传染病。回顾性
一、溯源rn管风琴的祖先可以追溯到古希腊时期牧羊人吹奏的乐器双笛(Double flute),它由两支不同音调的管子组成,后来被由几根到二十几根音管按音高顺序排列的排笛(Panflute)
一、疍家“水上民歌”rn疍家“水上民歌”亦称“咸水歌”,她是流传于岭南一带的一朵独具地域特色的艺术奇葩,具有悠久的历史.rn从历史成因看,由于中国古代封建社会的朝代频繁
室内歌剧《奔月》是2013年“中国室内歌剧创作推动计划”入选作品之一,剧本是将鲁迅先生《故事新编》[1]中的第二篇《奔月》加以简化,将后羿和嫦娥的经典爱情故事与现代因素
进入二十一世纪后,随着中国经济的高速发展和改革开放新思潮的到来,中国人民对四个多世纪以来始终标志着世界现代文明前进的舞台综合艺术种类——歌剧的眷顾和热爱愈加强烈,
应尚能(1902-1973)浙江宁波人,著名男中音歌唱家,中国最早一批留美归国的人才,他歌曲演唱技巧卓越,受到当时声乐演唱艺术学科专家的高度评价[1].戴嘉枋先生评价他时曾说过:“
身处变革时代,不去求变,就会被变。伴随着传统企业转型升级的不断推进和互联网的逐渐渗透,以平台经济为核心的模式在货运物流业得以迅速发展,即将在国内祭出新业态—“无车承
一、传统音乐向流行音乐的发展过程rn音乐是基于人类最基本的发声能力,诞生于初具规模的文化系统需求之下.在最开始出现的时候,音乐是具有地域性的,例如美国西部的牛仔歌曲、