论文部分内容阅读
定性数据的统计分析是当前的热点,也是难点问题。定性数据常以多分类有序变量的形式出现,尤其是在市场调查和社会科学研究所收集的数据中。多分类有序变量是指分类数大于等于3,且类别之间存在序次关系的响应变量。在对此类资料进行统计分析的过程中,我们发现,有序变量的“类间距”并不相等,也就是各类型之间的稀疏程度并不是均匀的。例如,人们对一个事物的评价从“很不喜欢”到“不喜欢”,再到“喜欢”、“很喜欢”,它们层级之间的差距通常是不同的,而一般的数据分析方法却将其作等距对待,这样的处理往往是粗糙而不精确的。有关有序变量间距差异的研究在国外的文献中略有提及但并不深入,且往往集中在对有序变量的赋值研究上,而国内更是鲜有人涉及。正是针对此等研究现状,本文尝试着从统计学的角度对该问题进行详细、系统地论证和分析,并在实际工作中加以运用。全文主要分成四个部分:第一部分:第一章。回顾了近半个多世纪来,国内外专家学者在有序变量领域所作的相关研究和成果。有序变量的统计分析理论在国外已发展地较为成熟,而国内则起步较晚,发展也较为落后,还没有形成国人自身的体系。第二部分:第二、三章。针对Likert类型尺度,提出了衡量间距差异的统计量和统计检验方法,在此基础上,改进了累积logistic回归模型,并结合实例加以论证(创新点一)。对于有序变量,若经过检验发现确实存在间距差异,则应引入虚拟工具变量对累积logistic模型加以修正,以提高模型的精确度。第三部分:第四章。针对程度等级变量,提出了用秩分析的方法对有序变量的间距差异进行了界定和量化(创新点二),并在此基础上,引入多元统计分析方法中的聚类分析,对量化后的资料进行了实证应用,取得了和前人相近的结论,提高了效率。第四部分:第五章。针对分组有序变量,以我国地区经济差距为例,在实证分析中介绍了该类型有序变量间距差异的界定和统计检验方法(创新点三),并运用计量建模分析对我国地区经济差距提出了自己的见解。