论文部分内容阅读
在以互联网为基础的新兴信息时代,数据计算、采集与存储处理等技术的日益普及与现代基础设施新型硬件的提升,在给人们提供更多个性化服务的同时,也带来了结构多样、维数高、相关性强的大规模超高维复杂数据集.数据的细致全面也意味着冗余信息增多.由于数据的维度(属性)随着数据量9)的增多呈指数级上升,当变量数太多时,很多传统模型的效果不佳甚至根本无法估计参数,尤其是当数据带有测量误差或有离群点等情况时,对数据的推断与分析难度也随之增加,为政策制定者和研究人员带来了巨大的挑战.超高维数据的处理一般基于稀疏性的假设,本文在测量误差的框架下,提出了给予稳定距离相关系数的超高维测量误差数据的特征筛选方法MEDCS以及高维数据的变量选择MEM非参数分位数核估计选择似然算法.前者针对超高维数据具有可加测量误差的情况,基于分布函数建立纠偏距离相关系数对数据进行边际筛选,并从理论证明,多个模拟实验和新浪微博文本的实例分析三个方面验证了MEDCS的确定性筛选性质和有限样本性质.不仅解决了带有可加测量误差的超高维数据纠偏的困难,同时还可以很好地解决协变量的部分特征具有离群点或重尾分布的问题.后者将测量误差框架与分位数非参数核回归相结合,通过给各变量添加“伪”高斯测量误差,从而得到具有一定测量误差分配的未知函数的预估非参数估计,再通过对分位数目标函数的优化,使相关系数最小的协变量得到的误差最大,最终达到变量选择与参数估计的目的.除了方法的提出,本文还利用Monte Carlo模拟和PUMA 560机械臂实例数据两个方面验证了MEM分位数核估计选择似然方法的有限样本性质,最后证明了该方法同样具有变量选择所需要的Oracle性质.