论文部分内容阅读
信息技术的迅猛发展催生了大量的函数型数据,该类数据广泛存在于经济、金融、生物信息、医学、气象学、人体运动学、语音识别等众多领域,函数型数据分析已经成为数据挖掘领域中的一个研究热点.传统的数据挖掘方法将函数型数据视为离散、有限的观测序列,忽视了函数型数据的连续性和高维性,限制了函数型数据的知识发现.针对传统数据挖掘方法处理函数型数据的局限性,基于函数型数据的基表示,探索了函数型数据在分类、聚类及回归问题中建模的理论与方法,并通过具体案例验证了建模方法的有效性.主要工作和创新点概括如下:(1)在函数型数据的表示问题中,探究了函数主成分表示的建模原理.运用变分理论建立了由数据驱动的函数主成分基满足的模型,为求解函数主成分基提供了方法;证明了函数主成分表示是基于均方误差准则的最优标准正交表示,为函数型数据的主成分表示提供了理论依据.(2)在函数型数据的分类问题中,探究了不同基表示的分类性能差异.证明了在标准正交表示下函数型数据的L2距离等价于基系数向量的欧氏距离,为函数型数据两阶段分类方法奠定了理论基础;基于两阶段分类方法,从分类性能视角分别给出了适合傅里叶基、小波基以及函数主成分基表示的函数型数据类型;同时,通过实验比较了函数型数据在非正交表示和正交表示两种表示下的分类性能差异.(3)在函数型数据的聚类问题中,探究了函数k-means聚类算法的类中心表示.证明了一个度量多维函数样例间相似性的测度是距离,该距离的构造考虑了函数样例的导数信息,也为构建函数k-means聚类算法奠定了基础;基于指定距离给出了函数k-means聚类算法的类中心表示,证明了该中心能保证类内距离平方和最小;真实数据上的实验验证了该函数k-means聚类算法的有效性.(4)在函数型数据的回归问题中,探究了用于处理混合数据的部分函数线性模型的建模方法.为提高模型的预测精度,借用了函数系数在Sololev-Hilbert空间的基表示,将半参模型转化为参数模型;同时为增加模型的稳健性,在惩罚最小二乘法中引入了更为宽松的惩罚策略,运用该惩罚最小二乘法对模型进行学习.人造数据和真实数据均验证了该方法的有效性.本文针对传统数据挖掘方法处理函数型数据的局限性,基于函数型数据的基表示策略,提供了函数型数据建模的理论与方法,研究结果在函数型数据挖掘领域具有一定的理论价值和实践意义.