有监督智能聚类与分类技术及其应用研究

来源 :江南大学 | 被引量 : 1次 | 上传用户：guodong0810

【摘要】

：

近几十年来,机器学习技术在聚类、分类、回归等多个知识工程领域取得了重大进展。其中,聚类技术以及分类技术是目前机器学习中的两个重要的研究课题,且被广泛应用于文本分类

【作者】

：

杭文龙

【出处】

：

江南大学

【发表日期】

：

2017年01期

【关键词】

：

非充分数据中心引力优化近邻传播因子图迁移学习半监督学习负迁移分类误差一致性准则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几十年来,机器学习技术在聚类、分类、回归等多个知识工程领域取得了重大进展。其中,聚类技术以及分类技术是目前机器学习中的两个重要的研究课题,且被广泛应用于文本分类、语义分析、图像识别等实际应用场景中。然而,随着多媒体技术的迅猛发展,越来越多的新兴应用场景近年来被相继发掘出来。相对于传统的应用场景,对新兴应用场景分析的过程中往往存在着如下问题:在生产过程中,数据的保密性较高或者高代价产业致使低产量等,导致收集到的数据样本或已标注数据样本十分有限,这造成了可以使用的数据不足的场景经常出现。经典的聚类技术和分类技术在处理此类问题时,通常面临如下挑战:由于可以使用的数据不足,这使得经典的聚类技术以及分类技术在对此类数据进行处理或学习建模时得到的模型往往泛化性能较差。因此,本文主要针对新兴应用场景中存在的非充分数据或已标注数据不足的问题,对经典的聚类技术以及分类技术进行研究并改进,以期得到能够解决上述问题的智能有监督聚类和智能分类方法。为了解决经典的分类技术以及聚类技术在处理上述新兴应用场景中所面临的问题,本文主要从聚类和分类两个方面对传统机器学习方法进行改进,以期得到更加智能的聚类方法和分类方法。具体如下:(1)第一部分为第2至第3章节,主演探讨了有监督智能聚类技术及其应用。首先,针对目前绝大多数聚类算法不仅需要事先设置一些需要用户指定的参数(如聚类个数)而且不能有效处理大规模数据的问题,提出一种基于中心引力优化(Central Force Optimization,CFO)的聚类算法。该算法通过基于CFO的引力运动学的角度来研究聚类问题。区别于CFO全局同步的局限性,提出一种新的模拟局部同步想象的重力同步聚类算法(Gravitational Kinematics based Synchronizd Clustering,G-Sync)。并引入戴维森堡丁指数(Davies-Bouldin Index,DBI)实现G-Sync算法的完全自动聚类。其后进一步将快速核密度估计方法(Fast Kernel Density Estimation,FastKDE)引入到G-Sync算法中,进而提出了一种具备处理大规模数据能力的大规模重力同步聚类算法(Scalable G-Sync,S-G-Sync)。其次,在第3章节,针对应用场景中数据匮乏导致的近邻传播(Affinity Propagation,AP)算法聚类性能下降的问题,引入迁移学习机制来改善其在该场景下的聚类性能。在源域和目标域分布相似的场景中,提出了迁移近邻传播聚类(Transfer Affinity Propagation,TAP)算法。TAP算法在改进AP算法中的消息传递机制的基础上综合考虑了源域和目标域数据的统计特性以及几何特征,达到利用源域辅助目标域学习的目的,并保证了迁移的有效性。通过TAP的因子图可以发现TAP同样以类似AP的消息传递机制完成聚类,并在聚类过程中利用源域数据进行高效的知识迁移,从而在目标域数据匮乏的场景下达到了较好的聚类结果。(2)第二部分为第4至第5章节,主要探讨了有监督智能分类技术及其应用。在第4章节,首先回顾了传统的半监督学习方法通过利用大量的未标注样本和少量已标注样本来进行模型构建的策略。在利用未标注数据样本时,传统的半监督学习方法通常是基于各种假设(如聚类假设、流型假设)等。然而,在假设不成立时,往往会导致传统半监督学习方法的分类性能下降。为了提高已标注数据样本不足情况下半监督学习性能,避免传统的半监督学习基于各种假设导致的分类性能下降的问题,提出了一种利用已标注数据样本和未标注数据样本之间的可靠隐特征信息来提高模型泛化能力的方法。所提方法通过引入正交投影矩阵将已标注数据样本和未标注数据样本同时投影到一个共享隐空间,并利用原始特征,隐特征和0向量组成新的增维特征。所提方法考虑了已标注数据样本和未标注数据样本之间的关联性,使得分类器的泛化性能得到显著提升。其次,在第5章节,针对数据样本不足(数据匮乏)情况下得到的分类模型泛化性能不高的问题,提出一种基于分类误差一致性准则(Classification-error-based Consensus Regularization,CCR)的选择性迁移分类学习方法(CSTL)。传统的迁移学习方法通过利用事先准备好的源域数据来辅助目标域的学习。然而,在真实场景中,并非所有收集到的源域数据都和目标域相关,如若利用这些不相关的源域数据来辅助目标域的学习则会导致负迁移学习。针对此问题,通过保持源域分类误差与目标域分类误差一致,提出了一种CCR准则。在CCR准则的基础上,提出了一种选择性迁移分类学习方法。CSTL可以通过快速留一法迅速有效地筛选出与目标域相关的源域数据及其权重,有效避免了负迁移学习的发生。大量的实验表明,CSTL是一种有效的选择性迁移学习方法。

其他文献

RP－HPLC法测定牛蒡子中木脂素的含量

用ＲＰ－ＨＰＬＣ法分离并测定了牛蒡子中５种２，３－二苄基丁内酯型木脂素——牛蒡甙（Ⅰ）、牛蒡酚Ａ（Ⅱ）、牛蒡酚Ｆ（Ⅲ）、牛蒡甙元（Ⅳ）、牛蒡素Ｂ（Ⅴ）。以安定为内标，分析柱Ｃ１８，甲醇－水－乙腈－四氢呋喃（５７：４９：１１：１）为流动相，梯度流速，１．０～１．５ｍ１／ｍｉｎ。检测

期刊

牛蒡子木脂素反相高效液相色谱法

自由版式与栅格系统在企业型录设计中的应用

面对国内外企业信息化竞争的现状,根据国内外企业型录设计中运用自由版式与栅格系统的实践,以及国内企业型录设计的需要,分析了自由版式与栅格系统在企业型录设计中的对立统

期刊

自由版式栅格系统企业型录应用

宁钢高炉振动筛的改造研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

焦炭振动筛高炉EVA

褪黑素浸种对宁粳8号水稻机插植伤修复效应研究

水稻机插育秧是水稻生产的核心环节,但目前小苗移栽和机械栽插植伤较重,影响水稻生根立苗,减缓栽后缓苗返青,进而影响水稻的生产。褪黑素是广泛存在于高等植物中的抗氧化效应

期刊

水稻宁粳8号褪黑素浸种植伤修复形态指标产量构成

基于稀疏表示的图像超分辨率复原研究

随着科技的发展,人们对信息的需求与日俱增,图像成为人类传递信息的最重要的载体之一。然而,由于成像设备自身固有的物理局限性和不可预知的外部环境等不利因素的影响,获得的

学位

超分辨率稀疏表示非局部自相似超拉普拉斯结构相似度

短期强化饮水联合水化在预防冠脉介入术后造影剂肾损伤方面的临床应用和护理

目的:探讨短期强化饮水联合水化在预防冠状动脉介入术后造影剂肾病(CIN)方面的临床应用和护理价值。方法:前瞻性纳入2016年1月至2018年5月40例经皮冠状动脉介入治疗(PCI)患者

期刊

经皮冠状动脉介入治疗造影剂肾损伤

土木工程项目的质量控制与加强施工管理

中国经济的迅猛发展促进了建筑行业技术的不断发展，同时作为现代建筑工程重要组成部分的土木工程，也存在着一些令人堪忧的状况，那就是质量控制和施工管理所带来的问题，如何才能有

期刊

土木工程质量控制施工管理

2009—2016年天津市登记为丢失的新涂阳肺结核病例特征分析

期刊

肺结核登记新涂阳病例

基于稀疏外观模型学习的目标持续性跟踪算法研究

视频目标跟踪是机器视觉领域中的研究热点,已经被广泛地应用到各个领域。然而,由于跟踪场景复杂性和目标运动不确定性等因素,实现目标的持续性跟踪存在很多困难。为了解决这

学位

NMF子空间模型多任务学习Dirty模型不确定运动评估视频目标跟踪APG优化算法

有监督智能聚类与分类技术及其应用研究

其他学术论文