论文部分内容阅读
随着信息革命的来临,信息技术高速发展,机器学习作为一种知识学习手段被越来越多的应用在社会各个领域。如何从海量纷杂的信息中提取有效信息在数据挖掘、数据校正、数据预测等领域上有着重要的意义。但随着研究与应用的深入,传统的机器学习出现了各种局限性,影响到了系统识别率和识别速度,其中比较重要的一条即传统机器学习在面对跨领域和多领域学习时自适应性较差,这是因为传统的机器学习方法大都假设训练数据与测试数据分布相同,而现实世界这种假设往往是不成立的。由此带来了一系列问题如:训练数据和模型易过期、分类器的偏向性、分类器的抗噪性差、分类模型泛化能力差、标记样本成本高等问题,而这些问题的存在降低了机器学习的分类精度及效率。跨领域学习不严格要求训练数据和测试数据满足相同分布,跨领域学习在不同数据分布条件下进行知识传递和学习,利用任务之间的联系和过去的学习经验加速对于新任务的学习,最大程度的减小了不同领域数据分布差异带来的影响。目前跨领域学习受到了很多关注,也取得了一系列成果。但对当前跨领域学习成果仔细观察和研究后发现跨领域学习还存在许多急待解决和完善的问题这其中包括:如何解决因源领域与目标领域的数据分布差异性而带来的识别率降低,如何提高跨领域学习的自适应性,如何解决数据的干扰和数据的隐私保护,如何在多源数据和多任务数据结构下完成跨领域学习,如何解决域间分布的不平衡性,如何完成大样本多领域的快速学习等问题。针对以上问题本课题进行了如下相关研究:1、从提高跨领域学习的自适应性出发,提出了一种“基于最小包含球的领域自适应算法”(MEB-DA),以及对应的大样本快速算法“基于中心约束型最小包含球的领域自适应算法”(CCMEB-DA)。该算法将不同领域的球心位置、球半径信息作为约束条件,在此条件下求出目标域的最小包含球球心并与源域球心位置比较以判定不同领域之间的相似度。通过计算各数据组的最小包含球球心可对不同领域数据进行整体校正、入侵检测和相似度识别,算法有着较好的运行效率和自适应性。对不同领域的样本组能够进行整体快速识别。作为验证我们将其应用在了WIFI数据的室内定位与人脸识别检测上,并取得了较好的效果。2、从最大化减小领域数据分布差异性出发提出了一种“基于概率估计的最小包含球领域迁移算法”(MEBTL),和满足大样本运算的“中心约束迁移算法”(CCMEBTL)。新算法在求解目标域球心位置时,尽可能多的利用到源域数据完成知识传递,通过计算出源领域、目标领域相对于最小包含球球心的概率估计比,并以该概率估计比作为不同领域分布距离的度量值来衡量源领域与目标领域数据分布间的差异度,判断出源领域与目标领域数据分布的差异度,从而发现不同领域之间的内部联系,在不同领域之间完成大样本的迁移学习。3、从大样本数据、抗干扰性和数据的隐私保护出发将SVM理论、CCMEB理论(改进了CVM的最小包含球算法)与概率密度差理论相结合提出了一种全新的基于数据分类的领域自适应算法(CCMEB-SVMDA)。支持向量机(SVM)主要思想是针对两类分类问题,在高维空间寻找一个最优分类超平面,以保证最小的分类错误率。CCMEB理论是一种改进了CVM的最小包含球算法,在大样本数据集处理上有着较快的速度。CCMEB-SVMDA算法将满足不同数据分布的近似领域进行整体比较,通过计算领域间的相似度快速判断领域数据的分类属性。该算法有较强的抗扰动性,通过提高源领域与目标领域的相似度能消除有害样本对分类器的误导提高分类精度。4、为了克服传统单源域跨领域分类算法所存在的指导偏向性,从多源域出发结合“逻辑回归模型”与“一致性方法”提出了一种“多源跨领域分类算法”(MSCC),该算法通过构建多个源域分类器综合指导目标域的数据分类。在MSCC的基础上结合最新的对偶坐标下降法CDdual,提出了一种大样本快速算法MSCC-CDdual,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性。5、为了克服跨领域分类学习中的域间不平衡性,从多任务学习角度出发提出了一种“多任务域分类算法”(MTC-LR),算法依据“LR模型”与“后验概率最大法则”构建多任务训练域分类器并综合指导各个任务域的数据分类,以此解决源领域数据的分布不平衡性以及稀有任务域过学习和欠学习等相关问题。为了充分高效利用大样本的任务域数据,满足大样本的快速运算,在结合CDdual算法的基础上,提出了MTC-LR的快速算法(MTC-LR-CDdual)。该算法有着较高的识别率、快速的识别速度、抗干扰性和抗不平衡性和鲁棒性。