复杂数据下半参数回归模型的方法和理论

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:gjsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
回归分析是研究变量之间相关关系的一个有力工具.通过回归分析,人们能够解释一些现象,并对未来的发展趋势做出预测,为决策者提供参考.许多生物医学、经济管理、工农业等领域的一些现象都可用回归模型来描述.为了更好地拟合数据,回归模型已由初期的参数回归模型发展到半参数回归模型.半参数回归模型既含有参数分量,又含有非参数分量,不但保留了参数回归模型易于解释的优点,而且还有广泛的适应性,同时避免了非参数回归模型的“维数灾祸”问题.半参数回归模型不仅有实际的应用背景,而且有广泛的应用前景和极大的应用价值.近几十年来,半参数回归模型得到众多统计学者的广泛关注,已成为统计界的热门研究课题之一.在一些现代试验和调查研究中,经常会出现高维数据、测量误差数据、删失数据、缺失数据和纵向数据等复杂数据.在进行统计分析时,如果忽略这些数据的内在结构将会降低统计推断的效率,甚至导致错误的结论.因此,对复杂数据的统计分析和建模显得尤为重要.目前,复杂数据下半参数回归模型的研究仍有许多开放的统计问题,故研究复杂数据下半参数回归模型的统计方法与理论具有重要的理论意义和实践价值.本文主要在高维数据、测量误差数据和缺失数据等复杂数据下,研究半参数回归模型的估计和检验问题.具体地讲,研究内容分为以下六个方面.(1)对超高维数据下稀疏部分线性变系数模型,主要研究同时变量选择和未知系数估计问题.首先,利用B样条基近似表示未知的非参数系数函数.在预先知道哪些变量重要,哪些变量不重要的先验信息情况下,理论上证明所得Oracle估计的收敛速度和渐近正态性.进一步,提出一种非凸惩罚最小二乘估计方法,并在适当的正则条件下证明所得估计的Oracle性质.此外,还讨论数值实现中的优化算法问题和数据自适应的调节参数选择问题,并通过Monte Carlo数值模拟和乳腺癌数据集的实例分析验证所提方法良好的有限样本性能和实用性(2)对半参数部分线性变系数模型,研究模型随机误差的方差估计问题.首先,利用局部常数化未知回归函数系数,将半参数回归模型转换为高维线性模型.进而构造基于最小二乘法的方差估计量,并证明所得估计量渐近服从正态分布.为了减少最小二乘法估计量的均方误差,本文还提出基于高维线性模型的一类惩罚估计量.最后,通过数值模拟验证提出的两种估计方法的有限样本性质.(3)对超高维数据下半参数变系数模型,利用B样条基逼近未知系数函数研究模型随机误差的方差估计问题.首先证明伪相关性在非参数回归模型下比线性模型下更加地严重,然后讨论一种二阶段自然的误差方差估计的渐近性质.进一步,基于确定性独立性筛选和交叉验证再拟合技术,提出一种精确的误差方差估计方法.并在一定的正则条件下,建立所提出估计量的相合性和渐近正态性.模拟研究表明所提出的方法具有较好的有限样本性质.(4)对高维数据下线性EV模型,主要考虑高维回归系数的置信区间构造问题.为了消除测量误差的影响以及惩罚估计的有偏性问题,提出了一种新颖的去偏校正估计量,并在温和的正则条件下,证明了所得估计量的渐近无偏性和渐近正态性.根据理论结果,可以构造回归系数渐近精确的置信区间以及进行假设检验.通过数值模拟研究了所提方法的有效性.(5)对于高维数据下部分线性变系数EV模型,考虑参数分量的变量选择问题.基于局部线性估计方法提出惩罚剖面偏差校正最小二乘估计方法,并在温和正则条件下证明解的渐近性质,包括估计量的收敛速度和渐近正态性.进一步证明在适当选择罚函数和惩罚参数的情况下所得估计量的Oracle性质.此外,还讨论调节参数的选取问题以及优化问题的算法问题.数值模拟研究验证所提变量选择方法较好的有限样本性能.(6)对缺失数据下部分非线性模型,主要考虑非参数分量的拟合优度检验问题.根据矩方法,提出两个检验统计量来研究所考虑的检验问题,理论上证明所提出检验统计量在原假设成立条件下和局部备择假设成立条件下的渐近分布.理论结果表明所提方法的检验p值可很容易地确定,可渐近精确地控制犯第一类错误的概率.同时,对于基于局部平滑的检验方法,所提方法能够以最优速度区分不同于原假设的局部备择假设.通过数值模拟和一个实际数据集的建模分析研究所提方法的有效性与实用性。
其他文献
SiO2f/SiO2复合材料凭借其质轻、低的介电常数、良好的透波性和机械性能成为航天关键部件-天线罩的优选材料。在天线罩制造和使用过程中,罩体复合材料需要通过一个金属连接环
在这个信息化时代下,各个领域都采用了信息系统,以此来进行信息化管理,其中也包括医院,进行信息化管理能够在很大程度上提高医院管理质量和水平,为医院带来更多的经济效益,同
石墨相氮化碳作为一种典型的非金属共轭聚合物,不仅具有廉价易得、稳定性高等特点,还具有优异的能带结构、光学性能和独特的化学结构以及化学结构、能带结构可调等优势。这一
研究背景:阿尔茨海默病(AD)是一种常见的神经退行性疾病,又被称为老年痴呆,有着极高的发病率和死亡率,对家庭和社会造成极大负担。然而临床上目前没有可以从根本上治疗或延缓
<正> 对于地理学,曾有不少地理学者下过定义,但是至今还没有一个定义为大家所公认。这是因为地理学所研究的是非常复杂的现象,其复杂程度远远超过其它学科,因此,不是简短的定
<正>南昌汉代海昏侯国遗址的发掘和保护工作,引起了社会各界的广泛关注,随着发掘工作的深入,墓主身份也确定下来,他就是第一代海昏侯刘贺。刘贺的一生充满传奇色彩,他是中国
【正】1909年,清朝统治者为顺应军制改革、培训新式陆军军官,在昆明创办了云南陆军讲武堂。辛亥革命后,改称云南陆军讲武学校。1918—1920年,
体态行为识别,即通过一定的手段获取人体行为的活动信息,令计算机对获取到的信息进行加工处理,使体态行为能够通过一系列特征值来进行表征,最后使计算机能够通过待识别体态行
重氮化合物是有机化学中最重要的化合物之一,其通常与过渡金属作用生成金属卡宾参与反应。大多数情况下,过渡金属催化重氮化合物生成高活性的金属卡宾物种,发生一系列金属卡
<正>在先秦时期,人们把江南以及岭南各地居住的人们称作"百越",西瓯(ōu)、骆越是"百越"的两大主要分支,主要分布在现在广西和越南北部一带,这里的人以壮族为主,还生活着布依