面向不完备数据的分类方法若干问题研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:coosi_cui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题,如垃圾邮件检测、疾病自动诊断、信用卡诈骗识别等,是机器学习领域的核心基础问题。现有分类方法通常设计一个参数化模型(如深度神经网络)建模数据中特征到标签的映射关系,并使用相应的标注数据训练模型以学习该映射关系。为保证模型的分类性能,这类监督学习方法要求数据的信息是充分、准确、明确的。然而,随着互联网的发展和社交媒体应用的普及,数据规模虽呈现指数式增长,但很大一部分数据是不完备的,其不完备性主要表现为特征层面的稀疏、缺失、损坏等,和监督信息层面的不完全、不准确、不明确等。不完备数据的复杂性和多样性为其分类带来了诸多严峻挑战,如何基于这些不完备数据学习分类模型是当前机器学习领域研究的热点之一。本文围绕数据中稀疏特征、不完全监督信息及不明确监督信息三种典型的不完备信息,研究不完备数据分类中三个热点问题:短文本分类、半监督学习和偏标记学习,出了多种高准确率的不完备数据分类方法。具体工作内容如下:1.短文本数据是一类典型的包含稀疏特征的不完备数据。主流的基于词袋模型的短文本分类方法,因词项稀疏和忽视单词语义知识,存在文本相似度失调问题。为解决该问题,本文基于词移距离(Word Mover’s Distance,WMD)和词嵌入技术,出了两种改进的短文本分类和建模方法:(1)出了基于正则化WMD(Regularized WMD)和假设间隔的短文本重心分类方法RWMD-CC,并分析了其泛化误差上界和时间复杂度。RWMD-CC使用度量文本语义距离的RWMD,以解决短文本中相似度失调问题;并基于RWMD和假设间隔为每个类别学习一个语义重心,将测试时间复杂度降到了线性于类别数量。实验结果表明,RWMD-CC有效升了短文本分类效果,且测试耗时显著低于现有基于WMD的方法。(2)出了语义指导的Wasserstein学习模型SAWL,并分析了其重构误差的泛化上界。为在主题建模过程中引入单词语义关系,SAWL使用基于词嵌入向量的正则化Wasserstein距离损失结合NMF(Non-negative Matrix Factorization)思想建模文本;同时融入了词项PPMI(Positive Pointwise Mutual Information)矩阵分解学习词嵌入向量,以炼语料库特有语义知识。SAWL同时适用于短文本和传统的长文本数据。实验结果表明,SAWL有效高了主题建模的主题质量和分类效果,及学习的词嵌入向量的质量。2.半监督学习主要研究如何从包含不完全监督信息的不完备数据中学习分类模型。本文关注两种重要的半监督学习问题:半监督文本分类,及正样本和无标注样本(Positive and Unlabeled,PU)学习,并针对其伪标注样本置信度较低问题,出了两种改进方法:(1)出了基于平衡深度表示分布的半监督文本分类方法S~2TC-BDD。深度自训练方法是一种主流的半监督文本分类方法,然而因半监督文本分类场景下各类别表示分布方差差异过大引发的间隔偏差问题,这类方法中无标注文本预测伪标签的精确度通常较低。为解决该问题,S~2TC-BDD设计了一组高斯线性变换,并将其融入角度间隔损失中,用于约束各类别深度表示分布是平衡的。实验结果表明,S~2TC-BDD有效升了半监督场景下文本分类效果,且当标注文本非常稀少时其性能升更加显著。(2)出了基于启发式mixup技术的PU学习方法P~3Mix。在早期实验中发现,PU学习存在分类决策面偏离现象——分类决策面通常偏离真实决策面且偏向于正类一侧,其根源在于两个决策面间的边缘伪负样本的不正确监督信息对模型训练的负面影响。P~3Mix为边缘伪负样本设计了一种启发式mixup伙伴样本选择策略,以改进其中不正确的监督信息。出的启发式mixup技术是易于实现的,并且可以同时实现数据增强和监督信息校正。实验结果表明,P~3Mix的分类效果一致地优于对比的PU学习方法。3.偏标记学习的目标是从一类包含不明确监督信息的不完备数据——偏标记数据中学习分类模型。消歧方法是现今主流的偏标记学习方法之一,但它们近似的标签置信度的精确度较低。为解决该问题,本文出了两种改进的消歧偏标记学习方法:(1)出了基于全局和局部一致性的消歧偏标记学习方法PANGOLIN。为更加有效地约束标签置信度以高其近似精确度,PANGOLIN结合标签原型和流形约束设计了一种特征空间全局一致性约束,并进一步融合了基于偏标记样本不相似关系的标签空间局部一致性。实验结果表明,PANGOLIN的分类效果显著优于对比的偏标记学习方法。(2)出了基于候选样本鉴别的偏标记学习方法A~2L~2CID。受生成对抗网络启发,A~2L~2CID设计了一种样本为轴的消歧策略:将每个偏标记样本划分为一组候选样本,利用判别器识别伪候选样本,并在分类器的训练中不使用这些识别出的伪候选样本。基于Triple-GAN框架和出的互补学习策略,A~2L~2CID协同地训练判别器和分类器,使其在训练过程中可以相互促进。理论分析证明A~2L~2CID存在全局最优均衡点。实验结果表明,A~2L~2CID有效升了分类效果,且在类别较多的数据集上其效果升更加显著。
其他文献
5G/B5G无线网络不同场景中新业务骈兴错出,需要通信系统提供定制化的可靠性保障。时延约束下的可靠性,即网络时延低于业务时延阈值的概率,是衡量网络性能的重要指标,可指导网络控制,直接影响用户体验。统计型时延可靠性保障是5G/B5G网络走向成熟必须直面的问题。合理的带宽分配是可靠性保障的充要条件。受毫秒级时延的约束,实现业务严苛的可靠性保障需要网络的大带宽供应。精确的带宽需求评估和抽象决定了资源的高
近年来,随着科学技术的发展,农业进入了4.0时代,国家也出台了一系列文件来促进农业向智能化、精准化方向快速前进。但农业数据采集成本高、决策模型不足、智能化程度低等原因,造成了农业生产过程中土地产出率、资源利用率和劳动生产率较低等问题。本研究针对玉米精准施肥决策中土壤采样成本高、土壤氮磷钾含量获取难、模型长期预测精度降低的问题和玉米施药决策中没有玉米病害发生程度识别模型的问题,构建了基于改进BP神经
碳基共晶材料是指由两个或两个以上碳基分子构成的共晶材料,这类材料不仅可以继承单组分的优异物理化学性质,还可以因为分子间相互作用而产生新的性质,因此受到人们的广泛关注。作为一种重要的热力学参量,高压可以有效改变分子间相互作用,使共晶材料产生新的结构和性质,为创造新型功能材料开辟一条新的途径。目前,在碳基共晶材料的高压研究方面已经取得了一系列重要进展,具有新奇结构/性质的新物质已被设计合成出来,如从富
近年来,以“双碳”目标为代表的节能减排政策为新能源工程机械产业带来了新的机遇和挑战,工程机械领域电动化趋势发展强劲。装载机是工程机械的重要机型,作业范围广阔、市场保有量大。电动装载机避免了传统燃油装载机使用过程中的碳排放和尾气污染问题,从战略发展,技术储备和供应市场等多方面看,电动装载机关键技术的研究具有重要理论意义和工程应用价值。装载机作业过程中环境恶劣、路面复杂、铲掘和装载前后负载变化大、前后
汽车产品在市场竞争中核心技术要素主要包含可靠性、稳态工况下的性能、瞬态工况下的动态性能,以及批量生产过程中的上述性能的产品一致性、使用一段时间后上述性能的衰减。经过几十年发展,我国已经完全掌握了可靠性和稳态性能的开发技术,自主汽车品牌的相关性能指标已经达到了国际一流水平。我国自主品牌汽车急需提升产品的动态性能及其量产一致性和性能持久性。目前,产品瞬态工况的动态性能只能通过实车场地试验主观评价进行开
传统半导体材料为光电领域的发展做出了卓越贡献,但随着后摩尔时代的到来,对光电信息等系统提出了更高的需求,光电子器件也朝着小体积、大带宽、低功耗、集成化、智能化等方向发展,促使科研人员不断探寻新材料、新结构、新机理。近年来,新型光电材料如钙钛矿、过渡金属硫化物、超结构材料等在光电领域展现出巨大的应用潜力,并不断刷新各类光电器件的性能指标,但是针对这些新材料物理特性背后的作用机理尚未充分挖掘,尤其是对
利用传统深海探测技术进行海底多金属硫化物勘查不仅难度大且成本高,这导致已发现的热液区与采集到的与热液成矿相关数据较少。为缩小勘探范围从而提高找矿效率,在实地勘探前,我们需要一种既适用于小样本,又能使特征变量充分体现找矿信息的成矿定量预测方法。如今一些传统的统计学方法已应用于海底多金属硫化物成矿预测,但这些方法无法满足上述要求。机器学习算法具有可以同时将二分类、多分类和连续数据作为特征变量的优势,而
随着自动驾驶和网联技术的不断发展,未来很长一段时间内会出现智能网联车辆(Connected Autonomous Vehicle,CAV)、自动驾驶车辆(Automated Vehicle,AV)和人工驾驶车辆(Human-driven Vehicle,HDV)混合行驶的情况。为研究混行交通流中不同类型车辆的跟驰行为,混行车辆跟驰建模成为了微观交通流仿真研究的热点问题之一。然而,目前大部分研究不能
随着经济社会高速发展,社会矛盾运动获得了两种新特质,即“跨界与互联”、“风险与突发”,这两种新特质推动着行政管理实践中管理模式与行政情景的扩展,并进一步促使“跨部门协同”作为一种卓具成效的应急管理机制被广泛适用于各领域的应急实践之中。尤其在突发事件频发的当下,应急管理领域的跨部门协同(后文简称“应急协同”)几乎每天都在上演,并不断在更深的治理层次、更广的治理领域以及更完整的治理过程中完成自身的机能
推荐系统是为了解决“信息过载”问题而产生的一种有效工具,随着推荐系统被广泛应用于新闻、音乐、社交平台和电子商务等领域以满足用户的个性化需求,以个性化推荐技术为代表的推荐算法受到了越来越多的关注。其中,协同过滤算法是应用最广泛的个性化推荐算法,由于传统的协同过滤算法只考虑用户的历史反馈数据进行推荐,面临着稀疏性和冷启动等问题。因此,越来越多的研究开始利用更多类型的数据构建混合式推荐算法,例如社交网络