测量误差框架下的特征筛选与变量选择研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:xkfywwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在以互联网为基础的新兴信息时代,数据计算、采集与存储处理等技术的日益普及与现代基础设施新型硬件的提升,在给人们提供更多个性化服务的同时,也带来了结构多样、维数高、相关性强的大规模超高维复杂数据集.数据的细致全面也意味着冗余信息增多.由于数据的维度(属性)随着数据量9)的增多呈指数级上升,当变量数太多时,很多传统模型的效果不佳甚至根本无法估计参数,尤其是当数据带有测量误差或有离群点等情况时,对数据的推断与分析难度也随之增加,为政策制定者和研究人员带来了巨大的挑战.超高维数据的处理一般基于稀疏性的假设,本文在测量误差的框架下,提出了给予稳定距离相关系数的超高维测量误差数据的特征筛选方法MEDCS以及高维数据的变量选择MEM非参数分位数核估计选择似然算法.前者针对超高维数据具有可加测量误差的情况,基于分布函数建立纠偏距离相关系数对数据进行边际筛选,并从理论证明,多个模拟实验和新浪微博文本的实例分析三个方面验证了MEDCS的确定性筛选性质和有限样本性质.不仅解决了带有可加测量误差的超高维数据纠偏的困难,同时还可以很好地解决协变量的部分特征具有离群点或重尾分布的问题.后者将测量误差框架与分位数非参数核回归相结合,通过给各变量添加“伪”高斯测量误差,从而得到具有一定测量误差分配的未知函数的预估非参数估计,再通过对分位数目标函数的优化,使相关系数最小的协变量得到的误差最大,最终达到变量选择与参数估计的目的.除了方法的提出,本文还利用Monte Carlo模拟和PUMA 560机械臂实例数据两个方面验证了MEM分位数核估计选择似然方法的有限样本性质,最后证明了该方法同样具有变量选择所需要的Oracle性质.
其他文献
目的探讨心理干预对晚期肿瘤患者心理状态的影响。方法将86例晚期肿瘤患者随机分为干预组和对照组各43例,对照组给予常规护理,干预组在此基础上给予心理护理干预,观察两组患
由于抗生素的滥用,细菌耐药性已成为威胁人类健康和安全的重大问题。纳米银作为一种抗菌材料,因其抗菌性能好,抗菌谱较广,且不会导致细菌产生耐药性等特点而备受青睐。然而,
<正>高校贫困生诚信危机的发生并非偶然,它具有一定的社会历史原因和现实因素。笔者详细地梳理了高校贫困生诚信危机的种种表现,并进一步结合当前高校教育实际,提出相应的诚
传统抗菌方法引发的细菌耐药性问题越发严重,与之相关的感染性疾病极大地提高了医疗风险并加重了社会负担。相比而言,光动力治疗(Photodynamic therapy,PDT)作为一种不易引发细
在互联网经济与跨境电子商务成为各国企业和消费者不可或缺的部分,大规模的数字化不仅引起经济理论和国民经济结构根本性的变革,但同时也提高了社会各界对古典贸易理论、新贸
目的 了解高原地区糖尿病(DM)流行的风险因素.方法 对生活在海拔3700m的果洛地区1495名居民开展相关调查.DM和糖调节受损(IGR)的诊断依照WHO 1999年标准.结果 DM和IGR的患病
目的 :探讨对进行剖宫产的心力衰竭产妇实施循证护理的效果。方法 :选取近期在南京市浦口区中心医院进行剖宫产的86例并发心力衰竭的产妇,回顾性研究其接受护理的情况。使用随
目的探讨胃癌及癌前病变中STAT3蛋白表达与Hp感染的关系。方法在胃癌及癌前病变组织中应用免疫组化二部法检测STAT3蛋白,用快速尿素酶试验以及胃黏膜组织切片Giemsa染色法检
【正】在开展党的群众路线教育活动中,按照习近平总书记提出的"照镜子、正衣冠、洗洗澡、治治病"的总要求,以及"三严三实"的重要讲话。我们作为检察人应该认真学习习近平总书