论文部分内容阅读
人口普查数据是典型的截面数据,如果在两次普查中,寻找到同一个人的记录,即可实现截面数据队列化,提取两次普查中同一群人的信息。分析比较这群人在两次普查中体现出的特征,相较于直接使用截面数据进行分析比较,不仅可以知道普查年间人口的变动特征,还能了解是哪一部分人发生了变动,其对总体变动的贡献分别是多少。本文探索使用“人口追踪比对法”来实现截面数据队列化。遵循家庭结构稳定性原则和空间临近性原则,将个人放回到家庭当中,用家庭成员之间的相互约束,通过个人的“性别”、“年龄”、“民族”、“受教育程度”等字段信息,比对两次普查数据,确定两次普查中“同一个家庭”中的“同一个人”记录,从截面数据中挖掘得到队列数据。相对于前人,本文的贡献主要在于以下几点:分类比对区域,先比对小地域单位,再比对大地域单位;以户规模为线索,遵循家庭结构稳定性和空间临近性原则;根据“受教育程度”字段变化,设置两个比对条件。本文共分为四个章节。第一章为绪论,简要阐述截面数据队列化的重要意义,以及在技术上实现截面数据队列化的可能。第二章介绍“人口追踪比对法”的具体技术路线。在对常住人口数据作预处理后,基于人口匹配的基本原则“家庭结构稳定性原则”和“空间临近性原则”逐步比对匹配数据。根据普查表提供的字段信息,以户规模变化为逻辑主线;以“性别”、“出生年月”和“民族”字段必须保持不变,“受教育程度”字段合理变化为基本匹配条件;当出现一对多、多对一和多对多重码现象时,使用地址码中的居委会信息辅助匹配,寻找出两次普查中“同一个人”的记录。第三章使用上海市黄浦区第五次人口普查数据和第六次人口普查数据进行比对。先以街道为小单位,再扩大至黄浦区为大单位,实现两次普查“同一个家庭”中“同一个人”的过程追踪。第四章总结“人口追踪比对法”,指出优点和不足。本文最终得到上海市黄浦区第五次人口普查和第六次人口普查的匹配结果为:27.85%“五普”家庭匹配率,44.95%的“六普”家庭匹配率。