【摘 要】
:
数据量和数据维度的增加产生了许多大规模的数据集,数据噪声的存在,给处理这些数据的算法带来了精度和效率上的挑战。另一方面,数据中大量特征往往是相互关联的,非负矩阵分解(Non-negative Matrix Factorization,NMF)为处理大规模数据提供了一种新的途径,可以对原始数据进行特征提取,提高学习算法的准确率。值得注意的是,样本间几何空间结构和部分已知标签信息的加入会给模型带来强化
论文部分内容阅读
数据量和数据维度的增加产生了许多大规模的数据集,数据噪声的存在,给处理这些数据的算法带来了精度和效率上的挑战。另一方面,数据中大量特征往往是相互关联的,非负矩阵分解(Non-negative Matrix Factorization,NMF)为处理大规模数据提供了一种新的途径,可以对原始数据进行特征提取,提高学习算法的准确率。值得注意的是,样本间几何空间结构和部分已知标签信息的加入会给模型带来强化作用。
由于对大量数据进行样本标签的标记难度很大且成本极高,弱监督学习成为大数据时代广泛受到关注的学习方式。标签比例学习(Learning from label proportions,LLP)作为弱监督学习的一种方式出现,可以有效解决上述问题。标签比例学习的思想是将数据集分包,通过标签样本在包中所占比例,训练学习样本层面的分类器。
本文在非负矩阵分解的框架下,加入图的正则化和部分已知标签样本的约束信息,解决标签比例学习问题,我们称该问题为半监督比例矩阵分解(Semi-supervised Proportion Matrix Factorization,SPMF)。该算法利用非负矩阵分解技术,能够将部分已知标签样本信息约束结合包中标签比例信息约束解决分类问题。我们通过大量的实验验证了该算法相较已有LLP方法的优越性,并在汽车贷款客户违约数据集中对该算法做了实证研究。
其他文献
“垃圾围城”现已成为了世界的话题,每个国家和地区对垃圾处理的方式也有差异。在垃圾泛滥已经成为世界公认难题的情况下,当前的研究重点己经不在于如何安全地控制和销毁垃圾上,而是在于如何采取积极的态度和有力措施,正确对待垃圾这类“第二资源”。人口规模的扩大、城市经济的增长、科技的发展、产业的结构优化、居民的消费水平提高,消费结构的变化等因素都是导致垃圾增长的相关因素,而垃圾的迅速增长也推动着城市对生活垃圾
当今世界,数字贸易迅速发展,WTO已经把制定数字贸易规则框架提上日程,美国想以此为契机将美式数字贸易规则从双边贸易协定扩展至多边适用。本文将数字贸易规则“美式模板”的形成过程区分为三个主要阶段:TPP之前美国主导的双边RTA(美-韩、美-澳、美-新等)中的数字贸易规则称作“美式模板”第1.0版,TPP代表第2.0版,USMCA代表第2.5版。 为了研究亚洲国家对于数字贸易规则美式模板的接受程度,
服务贸易与通信业务的融合发展进入了新时期,各国都在引入外资活力以促进全球互联互通等增值业务在本国的发展壮大。而针对以电信基础设施为载体的增值电信服务,如何设计和调整外资准入限制措施使外资既不打破本国电信生态环境又能带来真正的经济与技术增值则是许多国家面临的实际问题。一些发达国家早在GATS签署时就对外资基本放开了增值电信服务的市场准入,但由于贸易保护主义的兴起这些国家也对经营增值电信服务的外资电信
全球数字贸易产业已经进入了飞速发展的阶段。从最基本的角度来看,数字贸易是通过跨越国境的数据传输来支撑的。数据是一种生产手段,是一种可以交易的资产,也是服务贸易的手段。在数据流动问题上,出于维护本国网络空间安全的考虑,俄罗斯制定了世界上最为严密的数据流动限制性政策。 通过参考大量的文献以及ECIPE数据库资料,本文在对俄罗斯实施的数据流动限制措施类别和相关立法进行梳理的基础上,归纳出俄罗斯数据政策
自迈克尔·波特教授在1985年提出“价值链”这一概念以来,全球化的迅猛发展逐步推进了价值链体系在国际间的分工与协作。全球价值链的诞生与延伸伴随着世界经济深入发展的全过程。价值链分工模式打造了全新的世界贸易格局,自然也对传统意义上的贸易政策和规则提出新的要求。在新的背景下,为了应对更高水平贸易规则的挑战,各经济体间积极签署自由贸易协定(FTA),寻求融入全球价值链的新途径。自由贸易协定在数量上不断增
近年来,全球部分海洋被过度开发,渔业资源面临衰竭,而WTO各成员的渔业补贴无疑加速了渔业资源的恶化过程。有鉴于此,2001年多哈部长会议开启了渔业补贴新规则谈判,会上要求各成员澄清和改善渔业补贴规则,并考虑这一议题对发展中国家的影响,这成为持续近20年的渔业补贴谈判的开端。之后,WTO成员就渔业补贴问题进行了多次谈判,但由于存在核心利益上的不一致,至今未达成有效的谈判协议文本。直到2015年,纽约
数字贸易近年来发展迅速,已经成为国际贸易领域中一种非常重要的贸易形式。基于2000-2014年世界投入产出数据库(WIOD)、WTO的RTA数据库和CEPII数据库等数据,在测算数字贸易和规制融合指标的基础上,本文实证考察了规制融合对数字贸易的影响。结果表明,规制融合会促进数字贸易的开展。规制融合降低了数字贸易的交易成本并提高了数字内容行业的可贸易性。进一步发现,规制融合对不同数字贸易行业产生的影
作为中国“互联网+医疗”主要组成部分,在线医疗社区平台向人们提供了一个能够搜寻健康信息、交流疾病相关治疗经验和寻求情感支持的重要在线场所,其中在线医疗健康咨询服务是最为主要的服务方式之一。但是作为考核和保证服务质量的关键环节,服务质量评价目前存在评价率低、恶意差评等问题,这使得医生线上名誉和利益难以得到保障,患者也无法寻找到合适的医生进行咨询服务,严重阻碍了医患线上信任、医疗信息交互和在线医疗健康
由于数据量的快速增长以及人工标记样本成本增加,大大限制了监督学习的应用。在客户流失预测领域,目前研究者多采用监督学习方法进行客户流失预测,需要大量的带标签样本进行训练,但标记样本的过程耗时且耗力影响了模型在实际场景中的应用。本文利用标签比例学习方法探索解决移动客户流失问题,通过样本分包的标签比例信息来训练模型,无需使用单个样本的标签信息,同时解决该方法在移动客户流失预测过程中的两个问题。一方面,实
家庭健康服务路径规划与预约调度问题(HHCRSP)是近年来备受关注的一个领域,简单来说HHCRSP是指设计一套供护理服务者在客户家中执行健康护理服务的路径规划和预约调度方案,总体目标是降低总成本并确保服务质量。 目前不同学者针对HHCRSP问题提出了多种数学模型和求解方法,前人研究基本采用概率论或者模糊理论来处理,而HHCRSP问题中存在很多不确定因素,如变动的服务时间窗(在服务过程中存在着延长