论文部分内容阅读
摘要:当今社会数据结构日趋负载,已经不在是简单地对数据进行加权求和求平均,而是需要考虑到数据的结构类型、数据本身特点以及内在联系,这样更加充分合理的运用数据,以得到一个能更加客观描述现状的结果。
关键词:分层线性模型 数据嵌套 城市公共文明
中图分类号:TJ610.6 文献标识码:A 文章编号:1009-914X(2013)32-599-01
一、嵌套数据结构引发的问题
在一些课题研究中经常会有连续监测或跟踪研究之类的项目,绝大多数项目研究人员在做这类项目的总结研究时,会采用普通的回归模型或描述性统计的方法来分析指标数据的发展情况,从数据挖掘的角度来说,这样做会有很多有价值的信息被丢失。
社会科学和行为科学研究中一个常见的现象是,数据结构呈分层嵌套的形式,即低一层的数据嵌套于高一层的结构之中。例如,在教育学的研究中,学生样本嵌套于不同班级之中,各个班级又嵌套于各个学校之中.在纵向跟踪研究中,多次观察的数据嵌套于每个样本之中,每个样本又嵌套于组别之中,等等。显然,低一层的数据是嵌套于高一层的数据之中的。Bryk和Raudenbush提供了另一种解决方法,即分层线性模型。
二、分层线性模型的概述
分层线性模型(HLM, hierarchical linear models)是对嵌套数据结构进行分层多元回归分析的方法。它有许多别名,包括多层线性模型、混合效应模型、随机效应模型、随机系数回归模型、协方差成分模型(等等。
我们知道,在经典的线性模型分析中,基本假定是线性关系、正态分布、方差齐性及独立观测。我们希望满足头两个假定,但对后两个假定进行修正,特别是对独立观测的假定进行修订。修订的基本思路是,同一组别成员间的相似性较高,同一组别成员同其他组别成员之间的相似性较低。因此,不同班级的学生之间可能相互独立,但同一班级的学生之间可能有许多共同特征。这些共同特征中,有些特征得不到实际测量,这意味着这些得不到测量的共同特征会消失在线性模型的误差项中,结果造成误差之间相关。这一思路可通过方差成分模型加以清晰表述。误差项可分为组别水平上的误差和个体水平上的误差。个体水平上的误差均保持独立,组别水平上的误差仅在各组之间保持独立,但在组内水平上有完全的相关。有些组别可能比其他组别的同质性更强,这种情况就意味着组别水平上的方差互不相同。
尽管在行为科学和社会科学研究中普遍存在这样的数据嵌套结构,但许多研究都未能在数据分析中充分地考虑这种数据嵌套结构带来的影响。主要原因或许是过去没有相应的统计技术解决这一数据嵌套结构问题。现在,统计软件HLM 已经使研究者可以相对容易地解决这一嵌套数据结构带来的各种研究问题。
在因果关系的统计分析中,传统的线性模型(Y= X+ )除X与Y之间的线性关系外,对反应变量Y还有3个假定:①正态性,即Y来自正态分布总体;②独立性,Y的不同观察值之间的相关系数为零;③方差齐性,各y值的方差相等都为 。
但在实际工作中,会经常遇到一些资料,它们并不能完全满足上述3个条件。,如同一个小班学生的学习成绩或某种习惯、同一儿童在不同时间的生长发育指标、同一病人在治疗不同阶段的某种检验指标的变化.不能满足条件②。如果对不满足上述3个条件的资料勉强配合传统的线性模型,就有扩大犯I类错误概率的风险,从而出现较多的拒绝无效假设、造成较多的假阳性错误。
三、分层线性模型的结构
具有固定效应的一般线性模型的结构为:
式中的Y表示反应变量的测量值向量, X为固定效应自变量的设计矩阵, 是与X对应的固定效应参数向量, 为剩余误差向量。 为在X条件下的Y的平均值向量,即Y|X= 。假定 为独立、等方差及均值为0的正态分布,即 ~N(0, )。用最小二乘法求参数 的估计值B。分层线性模型将一般线性模型扩展为:
式中Z为随机效应变量构造的设计矩阵。其构造方式与X相同。 为随机效应参数向量, 服从均值向量为0、方差协方差矩阵为G的正态分布。表示为 ~N(0,G)。 为随机误差向量,放宽了对 的限制条件,其元素不必为独立同分布,即对 没有Var( )= 及Coy( , )=0的假定。用符号表示随机误差向量 ~N(0,R),不要求 的方差协方差阵R的主对角元素为 、非主对角元素为0。同时假定Cov(G,R)=0,即G与R间无相关关系。这时Y的方差协方差阵变为:
Var(Y)= +R
Y的期望值为:
E(Y)=
當Z=0。R= I时,分层线形模型转变为一般线形模型。
四、城市公共文明测评的意义
公共文明指数,是描述市民文明素质发展状况、评价市民文明素质发展水平和群众性精神文明创建工作成效的重要工具。依据《全国文明城市测评体系》,中央文明办将对城市公共环境、公共秩序、人际交往、公益行动等最能反映城市公共文明水平的项目进行测评,同时,将道德模范评选表彰,以及社会志愿服务等中央文明委部署的重点工作纳入测评内容。测评采取实地考察、入户调查和材料审核三种方式进行。
城市公共文明建设,是衡量一个城市文明程度的重要标尺,是文明城市创建和精神文明建设的重要内容和基础工作,也是一个城市整体形象的重要体现。加强城市公共文明建设,营造整洁优美的城市环境,建设文明和谐的公共秩序,倡树互助友爱的人际关系,开展进步奉献的社会公益活动,是提高城市建设管理水平的需要,也是满足市民日益增长的物质文化生活需求的需要。
公共文明指数测评内容直接关系人民群众的切身利益。开展公共文明指数测评工作和创建文明城市,目的是为人民群众创造一个优美的城市环境和优良的生活环境,提高人的文明素质,提高人民群众的生活质量和生活品位,让人民群众享受到更丰富的文明创建成果。
五、将分层线性模型引入城市测评的意义
在统计城市文明指数测评的时候如够忽视数据的嵌套结构可能会产生3个问题(Bryk&Rauden.bush,1992;Burstein,1980;Cronbach,1976):第一、如果只进行个体水平上的数据分析,各组内部(如各区、县内部)的各个个体可能在许多方面具有同样的组别特征,对这些被试进行的测量可能不能满足独立观察的基本假设,得到的标准误会较小,导致I型错误扩大化。第二、如果只进行个体水平上的数据分析,还可能忽略不同层次数据在本层次上和在其他层次上的作用,因而不利于研究者提出具有潜在价值的研究假设。第三、如果只进行组别水平上的数据分析,则可能忽略个体水平上的重要变量(如区县经济发展状况)。
分层线性模型正是为了解决这三个问题而逐渐发展起来的统计分析技术,其基本思路是以明确区分数据层次(分析单位)为基础,在不同的数据层次(分析单位)上提出不同的研究假设,通过对个体水平的变量和组别水平的变量的综合分析,对个人行为和个人特征进行更准确的预测和更合理的解释。分层线性模型是先区分再综合的多元回归模型。
公共文明指数是描述市民文明素质发展状况、评价市民文明素质发展水平和群众性精神文明创建工作成效的重要工具,包括城市公共环境、公共秩序、人际交往、公益行动等项目内容。我国政府虽然在公共文明建设方面花费了大量的人力、物力和财力,但由于受传统思想的影响,对大部分的数据处理过于简洁,丢失了很多重要信息,甚至得出的结论与实际情况不相符合。分层线性模型则为研究者检验更为复杂的研究假设提供了一个更为有效的和更为灵活的分析方法。
参考文献
[1] 张雷,侯杰泰.多层线性模型应用[M].北京: 教育科学出版社.2005
关键词:分层线性模型 数据嵌套 城市公共文明
中图分类号:TJ610.6 文献标识码:A 文章编号:1009-914X(2013)32-599-01
一、嵌套数据结构引发的问题
在一些课题研究中经常会有连续监测或跟踪研究之类的项目,绝大多数项目研究人员在做这类项目的总结研究时,会采用普通的回归模型或描述性统计的方法来分析指标数据的发展情况,从数据挖掘的角度来说,这样做会有很多有价值的信息被丢失。
社会科学和行为科学研究中一个常见的现象是,数据结构呈分层嵌套的形式,即低一层的数据嵌套于高一层的结构之中。例如,在教育学的研究中,学生样本嵌套于不同班级之中,各个班级又嵌套于各个学校之中.在纵向跟踪研究中,多次观察的数据嵌套于每个样本之中,每个样本又嵌套于组别之中,等等。显然,低一层的数据是嵌套于高一层的数据之中的。Bryk和Raudenbush提供了另一种解决方法,即分层线性模型。
二、分层线性模型的概述
分层线性模型(HLM, hierarchical linear models)是对嵌套数据结构进行分层多元回归分析的方法。它有许多别名,包括多层线性模型、混合效应模型、随机效应模型、随机系数回归模型、协方差成分模型(等等。
我们知道,在经典的线性模型分析中,基本假定是线性关系、正态分布、方差齐性及独立观测。我们希望满足头两个假定,但对后两个假定进行修正,特别是对独立观测的假定进行修订。修订的基本思路是,同一组别成员间的相似性较高,同一组别成员同其他组别成员之间的相似性较低。因此,不同班级的学生之间可能相互独立,但同一班级的学生之间可能有许多共同特征。这些共同特征中,有些特征得不到实际测量,这意味着这些得不到测量的共同特征会消失在线性模型的误差项中,结果造成误差之间相关。这一思路可通过方差成分模型加以清晰表述。误差项可分为组别水平上的误差和个体水平上的误差。个体水平上的误差均保持独立,组别水平上的误差仅在各组之间保持独立,但在组内水平上有完全的相关。有些组别可能比其他组别的同质性更强,这种情况就意味着组别水平上的方差互不相同。
尽管在行为科学和社会科学研究中普遍存在这样的数据嵌套结构,但许多研究都未能在数据分析中充分地考虑这种数据嵌套结构带来的影响。主要原因或许是过去没有相应的统计技术解决这一数据嵌套结构问题。现在,统计软件HLM 已经使研究者可以相对容易地解决这一嵌套数据结构带来的各种研究问题。
在因果关系的统计分析中,传统的线性模型(Y= X+ )除X与Y之间的线性关系外,对反应变量Y还有3个假定:①正态性,即Y来自正态分布总体;②独立性,Y的不同观察值之间的相关系数为零;③方差齐性,各y值的方差相等都为 。
但在实际工作中,会经常遇到一些资料,它们并不能完全满足上述3个条件。,如同一个小班学生的学习成绩或某种习惯、同一儿童在不同时间的生长发育指标、同一病人在治疗不同阶段的某种检验指标的变化.不能满足条件②。如果对不满足上述3个条件的资料勉强配合传统的线性模型,就有扩大犯I类错误概率的风险,从而出现较多的拒绝无效假设、造成较多的假阳性错误。
三、分层线性模型的结构
具有固定效应的一般线性模型的结构为:
式中的Y表示反应变量的测量值向量, X为固定效应自变量的设计矩阵, 是与X对应的固定效应参数向量, 为剩余误差向量。 为在X条件下的Y的平均值向量,即Y|X= 。假定 为独立、等方差及均值为0的正态分布,即 ~N(0, )。用最小二乘法求参数 的估计值B。分层线性模型将一般线性模型扩展为:
式中Z为随机效应变量构造的设计矩阵。其构造方式与X相同。 为随机效应参数向量, 服从均值向量为0、方差协方差矩阵为G的正态分布。表示为 ~N(0,G)。 为随机误差向量,放宽了对 的限制条件,其元素不必为独立同分布,即对 没有Var( )= 及Coy( , )=0的假定。用符号表示随机误差向量 ~N(0,R),不要求 的方差协方差阵R的主对角元素为 、非主对角元素为0。同时假定Cov(G,R)=0,即G与R间无相关关系。这时Y的方差协方差阵变为:
Var(Y)= +R
Y的期望值为:
E(Y)=
當Z=0。R= I时,分层线形模型转变为一般线形模型。
四、城市公共文明测评的意义
公共文明指数,是描述市民文明素质发展状况、评价市民文明素质发展水平和群众性精神文明创建工作成效的重要工具。依据《全国文明城市测评体系》,中央文明办将对城市公共环境、公共秩序、人际交往、公益行动等最能反映城市公共文明水平的项目进行测评,同时,将道德模范评选表彰,以及社会志愿服务等中央文明委部署的重点工作纳入测评内容。测评采取实地考察、入户调查和材料审核三种方式进行。
城市公共文明建设,是衡量一个城市文明程度的重要标尺,是文明城市创建和精神文明建设的重要内容和基础工作,也是一个城市整体形象的重要体现。加强城市公共文明建设,营造整洁优美的城市环境,建设文明和谐的公共秩序,倡树互助友爱的人际关系,开展进步奉献的社会公益活动,是提高城市建设管理水平的需要,也是满足市民日益增长的物质文化生活需求的需要。
公共文明指数测评内容直接关系人民群众的切身利益。开展公共文明指数测评工作和创建文明城市,目的是为人民群众创造一个优美的城市环境和优良的生活环境,提高人的文明素质,提高人民群众的生活质量和生活品位,让人民群众享受到更丰富的文明创建成果。
五、将分层线性模型引入城市测评的意义
在统计城市文明指数测评的时候如够忽视数据的嵌套结构可能会产生3个问题(Bryk&Rauden.bush,1992;Burstein,1980;Cronbach,1976):第一、如果只进行个体水平上的数据分析,各组内部(如各区、县内部)的各个个体可能在许多方面具有同样的组别特征,对这些被试进行的测量可能不能满足独立观察的基本假设,得到的标准误会较小,导致I型错误扩大化。第二、如果只进行个体水平上的数据分析,还可能忽略不同层次数据在本层次上和在其他层次上的作用,因而不利于研究者提出具有潜在价值的研究假设。第三、如果只进行组别水平上的数据分析,则可能忽略个体水平上的重要变量(如区县经济发展状况)。
分层线性模型正是为了解决这三个问题而逐渐发展起来的统计分析技术,其基本思路是以明确区分数据层次(分析单位)为基础,在不同的数据层次(分析单位)上提出不同的研究假设,通过对个体水平的变量和组别水平的变量的综合分析,对个人行为和个人特征进行更准确的预测和更合理的解释。分层线性模型是先区分再综合的多元回归模型。
公共文明指数是描述市民文明素质发展状况、评价市民文明素质发展水平和群众性精神文明创建工作成效的重要工具,包括城市公共环境、公共秩序、人际交往、公益行动等项目内容。我国政府虽然在公共文明建设方面花费了大量的人力、物力和财力,但由于受传统思想的影响,对大部分的数据处理过于简洁,丢失了很多重要信息,甚至得出的结论与实际情况不相符合。分层线性模型则为研究者检验更为复杂的研究假设提供了一个更为有效的和更为灵活的分析方法。
参考文献
[1] 张雷,侯杰泰.多层线性模型应用[M].北京: 教育科学出版社.2005