论文部分内容阅读
为了掌握某种社会现象的变化规律而需要编制其指数时,常常会遇到几十个,甚至成百上千个变量。这众多变量虽各自均与该种社会现象密切相关,然而这些变量之间往往存在着不同程度的相关性。我们希望从这些变量中找出彼此间有较高独立性的变量组,剔除关联程度较高的变量。以这些彼此间有较高程度的变量组为基础编制的指数能较为客观的反应各种社会现象的变化规律。
过去筛选成千上万个变量是一项巨大的系统工程,人们不得不侧重于定性角度压缩变量,从而对经济与社会现象本质的认识大打折扣,延误了问题的解决。然而20世纪90年代,人们开始在数据库基础上建立数据仓库,应用机器学习和统计分析相结合的方法处理数据,这两者的结合便产生了数据挖掘(DataMining)技术。统计学是一门搜集、展示、分析及解释数据的方法论学科,即处理数据、发现规律、实证定理的科学,它与数据库和人工智能是数据挖掘技术的三大支柱,统计分析方法及其计算机算法是数据挖掘大部分核心功能得以实现的有力支撑。虽然统计学无疑是数据挖掘的方法库,但是如何发挥其数据挖掘的巨大作用,仍然需要统计学界的创新思维。
因为人类行为的特征往往是用定性变量来刻画的,所以反映人类行为的指标,大多是品质标志(非数值型变量)计数汇总后的频率描述,即使是数量标志(数值型变量),也通常是经分组定性后的频率描述。因此,需要运用非参数统计的卡方检验进行变量筛选。尽管卡方检验作为统计分析方法的重要内容之一,在检验样本拥有的两个变量的独立性方面发挥着重要作用,而且现有的统计软件,如SAS、SPSS、STATISTICA等也均有卡方检验的功能,这些似乎都已经给卡方检验在数据挖掘领域的应用奠定了基础。然而当面临几十个、几百个,甚至成千上万个变量时,变量两两之间独立性检验的计算工作量将以n(n-1)/2的速度增长,以上软件将花费数日、数月,甚至数年。虽然时间的延误使检验结果变得毫无意义,但是更为重要的是以怎样的标准决定变量的取舍。因此,.在海量数据面前如何让卡方检验这一传统的统计方法继续大放异彩已经成为一个不容忽视的研究课题。本文较为全面地研究了这一问题的解决方法,并编制了计算机程序,指出了具体的实现方案。
在上面已经提到的变量选择方案的基础上,本文以学习监狱管理理论和熟悉实务工作经验为出发点,以某监狱局问卷调查采集到的大量的监管安全事故数据信息为依托,运用统计学中的指数理论,以某监狱局为背景,研究了编制监狱局监管安全评估指数的理论和方法并实际试编了该监狱局的安全评估指数,并为进一步预警安全隐患,降低事故发生概率的研究提供了坚实的理论基础和研究途径。
本文主要内容包括:
1.监狱安全评估概述
综述了国内外监狱安全评估的分析现状;指出了我国世纪初监狱安全工作的建设目标;进行了监管安全评估体系的透视;分析了监管安全评估体系研究的任务和方法;介绍了监管安全评估体系研究的统计指数理论以及安全事故的问卷设计与调查整理的方法和结果。
2.变量筛选方法
分析了变量筛选问题的重要意义:指出了卡方检验筛选变量的思路;给出了卡方筛选设计的实证效果。
3.变量筛选方法的编程实现
介绍了程序设计思路;给出了卡方检验计算机实现程序;提出了挑选变量的标尺:变量独立性总和强度概念;指出了独立变量筛选临界点的确定方案。
4.监管安全事故因素评估指数理论准备
给出了事故总体的选择方案;指出了事故因素类型的划分方法:给出了监管安全事故因素指标的筛选步骤;指出了监管安全事故因素指数编制的方法。
5.监狱安全评估指数试编
进行了各分总体及其总体因素评估指数的试编;进行了因素评估指数系列产品试编;分析了指数曲线的走向和意义。