基于样本和标记建模的弱监督分类方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:busyouweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
监督式分类技术基于强监督假设,通过学习大量的、具有单一且明确的真值标记的样本来训练分类模型。尽管现有的监督式分类技术已经取得了巨大的成功,但由于数据标注过程需要耗费大量的人力和物力,且受外部环境、问题特性以及标注者自身的原因等多方面因素的制约,很多数据获取到的往往是少量的、不准确的标记。此外,真实世界中的对象普遍具有多义性,即每个样本可以同时拥有多个标记。在多义性场景下,指数规模的输出空间使得学习系统需要更加充裕的监督信息。传统的监督式分类框架在不足够的监督(即不足够的有标记样本)、不准确的监督(即不准确的标记信息)及多义的监督(即每个样本可以同时拥有多个标记)的弱监督场景下难以取得较好的效果。因此,研究弱监督场景下的分类算法具有极大的现实意义。本文围绕上述三种弱监督场景,通过分析现有的弱监督方法的不足,分别基于半监学习技术、多标记主动学习技术与偏多标记学习技术展开研究,完成的主要工作如下:1、基于半监督学习技术解决不足够的监督的问题:由于真实世界中的样本并不总是均匀分布的,两个靠近决策边界的、拥有不同标记的样本可能会相距很近,因此很容易被错误分类。针对这一问题,我们提出一种基于聚类调整相似度的半监督分类方法SSC-CAS。该方法首先利用聚类算法探索所有未标记样本与有标记样本的结构信息,然后根据样本所属的聚类簇之间的相似度调整样本之间的相似度,使得处于决策边界处且处于不同聚类结构的样本间的相似度减小。最后,SSC-CAS在这个新构造的图上执行基于图的半监督分类。实验结果证明了这种构图方式的有效性,且SSC-CAS获得了较相关对比方法更好的分类表现。此外,大部分现有的半监督分类方法都同等对待每个样本。事实上,越靠近决策边界的样本应该获得更多的关注。基于上述情况,我们提出一种新的基于样本加权的半监督分类方法WS3C。该方法首先基于多次聚类结果衡量样本的难聚类程度与样本间的相似度。越靠近决策边界的样本越难聚类,应拥有更大的权重。然后,WS3C利用样本的难聚类程度对样本进行加权并结合样本间的相似度构建了一个流形正则化框架来预测未标记样本的标记。实验分析证明了这种样本加权方式的有效性,且WS3C具有较相关对比方法更好的分类表现。2、基于多标记主动学习解决多义的监督下不足够的监督的问题:在多义的监督场景下,样本的标注过程更加困难且代价昂贵。一个样本是否与一个标记相关取决于该样本是否包含与该标记相关的特征信息。然而,当前的主动学习方法查询一个样本标记对的相关性时,要求标注者详细审查完整个样本。事实上,对于一个相关的样本标记对,标注者可以更容易地仅通过审查待标注样本的关键的子样本来审查所查询的样本标记对的相关性,减少标注代价。基于上述情况,本文提出了基于子样本标记对查询的多标记主动学习方法CMAL。该方法首先利用不确定性、标记相关性以及标记空间稀疏性选择出最有价值的样本标记对,然后基于所选择的样本标记对迭代地选择出最可能相关的子样本标记对给专家标注。实验结果表明,在同样的成本条件下,CMAL能够获得较相关对比方法更好的分类表现。3、基于偏多标记学习解决多义的监督下不准确的监督的问题:在多义的监督的场景下,样本的标注过程更加困难,因此更容易出现噪声标记。显然,噪声标记的存在会影响分类器的分类表现。然而,当前的多标记学习方法假设已获取的标记是无噪的,研究多义的监督下不准确的监督的工作还很少。基于上述情况,本文提出一种基于矩阵分解的多标记噪声标记识别方法MF-INL。该方法首先利用矩阵分解技术分解原始的包含噪声标记的样本标记关联矩阵为两个低维的矩阵,同时保持样本在低维空间的结构信息与标记在低维空间的相关性。然后,MF-INL利用分解的两个矩阵重构样本标记关联矩阵。在该重构的关联矩阵中,关联值更低的样本标记关联更可能是噪声关联,即该标记更可能为该样本的噪声标记。实验结果证明了MF-INL识别噪声标记的有效性。为进一步提高噪声标记识别的表现与同时实现噪声标记场景下的分类器训练,本文提出一种特征诱导的偏多标记学习方法fPML。该方法通过将样本特征与标记映射到同一个低维的语义空间学习原始样本标记关联矩阵的低秩逼近,估计样本标记关联置信度,进一步识别噪声标记。特别地,fPML在识别噪声标记的同时,利用估计的样本标记关联置信度训练一个投影矩阵,将样本特征映射到标记空间,实现对未标记样本的标记预测。实验结果表明fPML较对比方法能够更有效地识别噪声标记,且在未标记样本标记预测上也获得了较对比方法更好的表现。
其他文献
在当前信息技术水平高速提升的时代背景下,社保档案的管理方式也在飞速升级,将数字化技术应用于社保档案管理,有助于提升社保档案管理的智能化与信息化,提升管理人员工作效率
<正>俗话说:"良好的开端是成功的一半。"课堂教学也是如此,导入新课是小学数学课堂必不可少的环节。新颖别致的新课导入艺术既能吸引学生的注意力,又能创设生动的乐学环境,激
会议
高职院校是"1+X"试点工作的主要执行者。试点工作的深度推进首先需要相关院校改革现有的课程体系内容,对标企业职业资格标准,提升课程资源的教育培训标准。因而首先整理论述
广州地铁八号线A2型车进口闸瓦在使用过程中多次出现背板断裂、裂纹情况,针对此问题,从闸瓦与闸瓦托匹配情况、闸瓦尺寸、背板材质分析、背板应力分析4个方面对断裂、裂纹产
新疆准东煤储量丰富,对缓解我国化石能源短缺意义重大。但是煤中碱金属含量过高制约了准东煤的利用,研究准东煤中碱金属对结渣和燃烧的影响对加快推进准东煤的广泛应用具有一
7月底至8月初,来自中国美术家协会油画艺术委员会的十余名国内知名油画家齐聚威海,进行了为期10天的“寻源问道 印象威海”写生创作活动。他们一致认为,威海得天独厚的山海风光
报纸
近年来,我国非营利组织发展迅速,在消除贫困、发展教育、保护环境、抗灾救灾等方面发挥了日益重要的作用,已成为建设社会主义和谐社会不可或缺的一支重要力量。但是,我国非营利组
教学过程具有一定的系统性、预设性与可变性,为促进课堂教学的整体优化,教师首先应该从"导入"这一环节开始进行优化。"良好的开端是成功的一半",有效的导入决定着学生能否积
市政工程是城市的重要组成部分,对城市社会生活、经济发展起着至关重要的作用,做好市政工程建设十分必要。市政工程与其他建筑工程有所不同,其施工环境、条件等更为复杂,具有
<正>美国银行家协会杂志最近一期发表署名文章《此时此地:社区银行的大好时光》。文章指出,尽管当前美国经济衰退,监管严厉,利率长期低迷,但是将近6000家社区银行盈利不错,资