半监督协同训练算法中样本去噪的研究

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:xjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同传统机器学习方法相比,半监督学习的优势在于能同时利用稀少的有标记样本和海量的无标记样本训练模型,继承了有监督学习和无监督学习的优势又规避了两者的不足,提高模型的泛化性和准确率。协同训练作为半监督学习中的重要研究方向,其主要思想是基于两个充分冗余视图训练出两个分类器,通过分类器之间的协同作用迭代实现对无标记样本的分类。由于协同训练具备多视图互补性的特点,同时在少量有标记样本和大量无标记样本上有较好性能和鲁棒性,因此得到了广泛的研究和应用。然而,噪声问题仍然是影响协同训练算法性能提升的关键。在协同训练算法中,噪声的产生来源于多个方面。例如:初始训练集中存在的噪声样本,这部分样本会导致模型初期出现较大的误差,并且随着训练过程的推进错误会累积加大形成恶性循环;在进行视图分割时未考虑数据中存在的噪声特征,这会引入大量噪声,同时在高维数据上算法会产生较大的时间和内存开销;在不存在两个充分冗余视图的数据上,需有效地进行视图分割以确保训练得到两个能独立完备的分类器,更好地发挥协同作用,进而有效避免在分类过程中因分类器性能差异过大,由性能较弱的分类器引入噪声的问题;对两个视图分类器标记不一致样本的处理也是减少迭代过程中噪声的关键。本文针对半监督协同训练中样本去噪问题进行研究,研究工作主要包括以下内容:(1)针对协同训练中视图分割不充分冗余和两视图分类器标记不一致引入大量噪声的问题,提出一种结合信息增益率和K-means聚类的协同训练算法。首先根据有标记样本计算出数据中每一个特征的信息增益率,将信息增益率高的特征平均划分到两个视图,能避免了过拟合问题的产生,同时在一定程度解决了视图分割不充分冗余的问题。然后,在每次分类过程中应用K-means聚类找到标记不一致样本所在簇,根据同一簇中样本相似度最高原则修正样本标记。(2)提出一种基于加权主成分分析和改进密度峰值聚类的协同训练算法。该方法首先在传统主成分分析基础上引入特征权值系数来表示各特征重要程度,将低权值特征判定为产生干扰信息的噪声特征并删除,随后在视图分割将关键特征均衡划分到两个视图,从而更好地实现两个分类器的协同作用。最后,利用改进后的密度峰值聚类决定标记不一致样本的类别,有效降低误标记样本形成噪声的概率。(3)针对协同训练中噪声给出更灵活和系统的处理机制,提出了一种自适应数据密度剪辑的协同训练算法。首先,基于数据密度创建了一种新的噪声滤波器,其对于边界噪声和离群样本有较好的识别效果。然后,为每个未标记样本设置监测量,用于检测标记的可信度,在迭代初期尽可能确保样本被正确标记从而减少引入的大量噪声。最后,基于PAC理论和无标记样本监测量提出一种自适应剪辑策略,并将其集成到协同训练框架中处理噪声。在每次训练过程中,该方法能根据噪声的规模和状态实时启动噪声处理机制,同时确保噪声处理过程中分类错误率降低和标记样本的数量增加。通过在12个UCI数据集上的实验结果证明了该算法的有效性。
其他文献
近年随着中国科技公司遭遇不公平的打压,在一些领域面临被卡脖子的困境,而相关产业链却又成长缓慢。本土的产业链集成者开始在国内通过横纵向投资与多种形式的资源和市场的整合,扶持基础领域,实现优势互补,抢占供应链渠道,以降低供应链“断链”的风险,逐步赢取基于整个产业链上的竞争优势。这就意味着,单个企业在某一环节上的核心竞争力必须要结合其在整个产业价值链上的视野来加以新的定位,企业间竞争的焦点已从单个企业层
2020年我国正式启动公募REITs试点工作。在此之前,我国市场上发行的都是类REITs产品,为公募REITs的推出积累了宝贵的经验。在我国住房制度实行“租购并举”的改革下,租赁住房领域REITs将有较大的发展空间。REITs作为一种融资工具,可以通过资产证券化实现企业存量资产的利用,推动房地产企业向轻资产运营模式转型。实务中企业在考虑选择何种方式融资时,融资成本是他们考虑的重要因素。当前针对RE
随着国家经济的发展,人们对精神生活的需求日益增大,国家日益重视文化产业的发展。影视行业作为文化产业的一部分,越来越与普通百姓日常消遣生活密不可分。影视行业自2014年以来迅猛发展,各种并购、上市的活动不断出现,虽然在2019年行业整改与2020年疫情中短暂放慢了脚步,但是根据2021年第一季度可以看到,影视行业恢复并且出现业绩飙升的状况。然而,近几年,影视企业出现业绩承诺不达标或者精准达标的现象较
农业一直以来是我国国民经济的重要组成部分,是支撑国民经济建设与发展的基础产业,其发展的好坏关系到民生的发展。当前,科技革命与产业变革迅猛,为农业转型升级注入了强劲驱动力。自2004年起,每年的“中央一号文件”都会聚焦三农问题,提出与农业发展相关的指导意见。农业上市公司作为农业行业的“领头羊”,对我国农业经济的稳定发展具有引领作用。由于农业行业天然的弱质性特点以及经营管理模式落后,在国家政策大力的支
1993年12月29日发布的《公司法》首次对上市公司退市的标准和退市的决定权作出规定,之后的二十几年,我国的上市公司退市制度经历数次了改革,最终形成了一套比较完善的多元化的退市制度体系。但是由于我国上市公司“壳资源”的稀缺性,导致我国资本市场存在“只进不出”的现象,严重阻碍了资本市场的健康发展。而随着全面注册制的到来,资本市场出口端已经开放,退市制度新一轮的改革也提上日程。2020年12月31日沪
基于聚集诱导发光原理的荧光纳米材料具有光学性质稳定、量子产率高等特点,迄今为止,已经在细胞成像、环境检测、化学传感、生物传感、食品检测、疾病诊断等方面有了广泛的应用。本文主要研究了鲁米诺荧光纳米材料(luminol-Tb荧光纳米材料、luminol-Al荧光纳米材料)的合成以及其对尿酸、碱性磷酸酶和谷胱甘肽的检测,具体内容包括以下三个方面:1.利用鲁米诺(luminol)与铽离子(Tb3+)之间的
新潮能源在转型前是一家主营业务为房地产、兼营建筑与电子元件生产的上市公司。面对房地产政策调控、建筑业竞争激烈和电子元件业的市场饱和,在其业务模式下,很难创造新的盈利增长点。以至于新潮能源转型前连年亏损,盈不补亏。业绩的扭亏压力持续增大,如果不再寻求突破,很可能面临破产重整或退市等风险。因此新潮能源在2014年经历股东选举换届后,将战略定位由房地产公司转为石油及天然气的勘探、开采及销售为核心业务的能
十一届三中全会后,国内房地产开始初步发展,逐渐成为国家经济发展的重要支柱行业。近年来由于国家政策的限制,房价有所回稳,房地产公司为了提高自身竞争力、降低成本,在纳税筹划方面更加关注。本文选取的案例L项目,是一个比较典型的例子,纳税筹划的效果比较显著,其中也有值得借鉴的方法。L项目是典型的综合性开发项目,包括销售和持有物业,本文以该案例为分析对象,通过理论与实践相结合的方法展开分析。本文首先介绍了房
2014年10月,证监会发布了第二次修订的《上市公司收购管理方法》和《上市公司重大资产重组管理方法》,放宽了企业重组并购的限制,以此扶持上市公司通过重组并购以谋求高质量、全面的发展。2015年以来,我国并购市场相对活跃,上市公司利用商誉操纵利润的案例也在增加,其主要有两种表现形式。其一,购买方通过提高并购成本,从而提高股价,增加企业价值,并随之夸大了并购商誉总额;其二,《企业会计准则第8号-资产减
随着混合所有制改革进入深水区,混合所有制改革开始出现“国进民退”、“国退民进”、“国民共进”、“逆向混改”等新涵义。2014年国务院进一步明确了混合所有制改革的意义,提出应支持国有资本与非国有资本的双向融合,才能使市场健康发展。2020年国务院国务院国资委党委书记、主任郝鹏撰文也指出要鼓励国有资本与非国有资本“双向投资”,既鼓励国有资本投资、运营公司投资民营企业,也鼓励民营企业参与国企的混合所有制