跨数据域迁移学习及相关问题的研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:taobaowang1312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的二十年中,数据挖掘和机器学习受到了越来越多的关注。这很大程度上是因为在互联网时代信息传播和积累的速度越来越快,人工处理数据越来越困难,智能化及自动化的数据处理能力成为迫切的需求。为此人们设计了很多学习算法,希望计算机能具有人类的学习能力,即只要训练一次,就可以自动处理数据。   尽管这种学习能力已经在很多成功的应用中得到了验证,但它建立在一个重要的假设基础上,即训练数据与目标数据的一致性。这意味着:根据训练数据得到的模型只适用于具有同样分布的目标数据。如果需要完成一个新的任务,即使是与原任务非常相近的任务,原来训练好的模型也可能会失效。但是如果重新提供训练数据必将付出很高的成本。因为两个任务之间存在的相似性,在新任务的训练过程中彻底丢弃原有的训练数据也是非常不合理的。考虑到数据来源的差异性和训练数据的时效性在实际应用中普遍存在,有必要寻找更有效的解决途径。   迁移学习的提出正是为了解决上面的问题。传统的学习过程实际上是实现了从人到机器的知识迁移。迁移学习则是研究从一个学习任务到另一个学习任务的知识迁移,以提高知识利用的效率。这样的知识迁移将在缺乏训练数据和训练数据时效较短的情况下大大降低学习的成本并提高学习的效率和自动化程度。本文从跨数据域迁移学习入手,研究无监督迁移学习技术,以及在数据流环境下的有监督迁移学习技术,在以下三个方面做出了创新性贡献:   1.在迁移学习中首次提出利用最大间隔方法在没有目标数据域的训练数据的情况下完成分类任务。提出了两种算法,以迭代优化技术为基础,分别在函数层以及参数层实现了辅助任务到目标任务的知识迁移。在多个公开的数据集中的实验表明,两种算法的分类准确率均优于现有的迁移学习算法。   2.在数据流分类任务中,针对概念漂移问题首次提出对概念漂移进行建模,来设计一种可以自动适应数据分布变化的动态分类器。作为一种新的分类框架,可用于logistic regression和SVM等诸多分类模型。在实验中表明,所提出的算法有效避免了传统滑动窗口方法导致的数据过拟合,实现了较高的分类准确率。   3.提出在具有多个节点的传感器网络中进行异常检测的新方法。利用主成分分析对数据空间进行变换,并根据能量阈值对数据空间进行划分,构建异常子空间,根据数据在异常子空间上的投影来检测异常数据点。基于数据点在异常子空间上的投影信息还可以进一步对异常来源进行定位,并度量异常的大小。在实验中所提出的方法展现了较强的异常检测能力。
其他文献
带参并发系统实际包含~族并发系统实例,其中以一个(或多个)参数表示每个系统实例的规模,比如实例系统中并发执行的进程个数或数据域的大小。带参模型检测的任务是验证对任意的参
浏览器是人们上网的一个重要工具。近年来,随着我国移动通讯业的发展,手机终端功能的增强,手机上网的人数一直不断地翻倍增长。但是,国内的手机浏览器产品与国外的产品相比存在着
本文设计并实现了基于日志文件的网络电视受众行为统计分析系统。该系统基于目前的主流的P2P网络电视系统的体系结构而设计,和网络电视系统采用日志文件作为数据接口,网络电视
实时集群系统有着广泛的应用,如数字控制系统、在线游戏、股票交易、传感器网络数据处理等。在这类应用中,通常有多个服务节点来响应外界大量的实时请求。由于实时系统和实时理
航拍以其价格低廉、操作灵活、高可靠性等特点,越来越广泛地被应用于社会生活诸多领域,如电网全景管理、石油天然气管道管理、铁路线路动态管理、军事侦察、地质勘探、城市规划
本文研究了Definitely模态下分布式计算的谓词检测问题,即判断在计算产生的格状态空间中,是否每条从最小元到最大元的路径都通过一个满足谓词的状态。本文的主要内容有以下四个
现代化信息技术的发展产生了大量的数字化知识成果,包括音频、视频和图片等。这些数字载体易于复制、更改和传播,同时也容易被攻击者和伪造者利用,从而对知识成果造成损害和负面
模型的配准是很多科研应用领域的基础问题。给定两个三维模型,配准算法对其中一个模型(源模型)作变换使得变换后的模型与另一个模型(目标模型)满足某种(如几何上或拓扑上)对应关系。
人脸识别技术由于其重要的应用价值和理论意义而受到越来越多的关注和应用。一个实用的人脸识别系统需要满足三个特性:精确性、稳定性和易用性,事实上它们也构成了人脸识别技术
随着各领域科学研究的开展,科技文献数据日益受到相关学者的关注。因为科技文献中隐藏着非常丰富的有价值的信息,对其进行深入挖掘具有重要意义。随着科技文献分析适用的方法