论文部分内容阅读
在过去的二十年中,数据挖掘和机器学习受到了越来越多的关注。这很大程度上是因为在互联网时代信息传播和积累的速度越来越快,人工处理数据越来越困难,智能化及自动化的数据处理能力成为迫切的需求。为此人们设计了很多学习算法,希望计算机能具有人类的学习能力,即只要训练一次,就可以自动处理数据。
尽管这种学习能力已经在很多成功的应用中得到了验证,但它建立在一个重要的假设基础上,即训练数据与目标数据的一致性。这意味着:根据训练数据得到的模型只适用于具有同样分布的目标数据。如果需要完成一个新的任务,即使是与原任务非常相近的任务,原来训练好的模型也可能会失效。但是如果重新提供训练数据必将付出很高的成本。因为两个任务之间存在的相似性,在新任务的训练过程中彻底丢弃原有的训练数据也是非常不合理的。考虑到数据来源的差异性和训练数据的时效性在实际应用中普遍存在,有必要寻找更有效的解决途径。
迁移学习的提出正是为了解决上面的问题。传统的学习过程实际上是实现了从人到机器的知识迁移。迁移学习则是研究从一个学习任务到另一个学习任务的知识迁移,以提高知识利用的效率。这样的知识迁移将在缺乏训练数据和训练数据时效较短的情况下大大降低学习的成本并提高学习的效率和自动化程度。本文从跨数据域迁移学习入手,研究无监督迁移学习技术,以及在数据流环境下的有监督迁移学习技术,在以下三个方面做出了创新性贡献:
1.在迁移学习中首次提出利用最大间隔方法在没有目标数据域的训练数据的情况下完成分类任务。提出了两种算法,以迭代优化技术为基础,分别在函数层以及参数层实现了辅助任务到目标任务的知识迁移。在多个公开的数据集中的实验表明,两种算法的分类准确率均优于现有的迁移学习算法。
2.在数据流分类任务中,针对概念漂移问题首次提出对概念漂移进行建模,来设计一种可以自动适应数据分布变化的动态分类器。作为一种新的分类框架,可用于logistic regression和SVM等诸多分类模型。在实验中表明,所提出的算法有效避免了传统滑动窗口方法导致的数据过拟合,实现了较高的分类准确率。
3.提出在具有多个节点的传感器网络中进行异常检测的新方法。利用主成分分析对数据空间进行变换,并根据能量阈值对数据空间进行划分,构建异常子空间,根据数据在异常子空间上的投影来检测异常数据点。基于数据点在异常子空间上的投影信息还可以进一步对异常来源进行定位,并度量异常的大小。在实验中所提出的方法展现了较强的异常检测能力。