【摘 要】
:
随着大数据时代的到来,数据量正呈现着爆发式的增长。数据作为一种宝贵的无形资源,各行各业越来越重视数据的价值。但数据也有主次之分,在实际解决问题的过程中,由于庞大的数据量,很容易造成主要数据被次要数据掩盖的问题,以至于可能得出错误的结论。因此,在构建数据模型之前,需要先从所有数据中找出主要数据,变量选择就是解决这一问题的途径之一。潜在类别分析是一种探讨存在统计学关联的分类外显变量背后的潜在变量的统计
论文部分内容阅读
随着大数据时代的到来,数据量正呈现着爆发式的增长。数据作为一种宝贵的无形资源,各行各业越来越重视数据的价值。但数据也有主次之分,在实际解决问题的过程中,由于庞大的数据量,很容易造成主要数据被次要数据掩盖的问题,以至于可能得出错误的结论。因此,在构建数据模型之前,需要先从所有数据中找出主要数据,变量选择就是解决这一问题的途径之一。潜在类别分析是一种探讨存在统计学关联的分类外显变量背后的潜在变量的统计学技术,其广泛应用于社会统计领域。潜在类别模型处理的是类别变量,它对问卷类数据的分析处理具有独特的优势。在构建潜在类别模型之前,需要对变量进行变量选择。传统的变量选择方法是最优子集法,在数据维数较小的情况下具有良好的效果,但因为计算量大的问题而并不适合高维情况。目前比较前沿的变量选择方法多数是借助惩罚似然函数来实现变量选择的目的,但这类方法一般用于连续型数据中。本文利用卡方检验可以检验两个变量间的关联性这一用途,提出一种基于卡方检验的算法来计算变量的显著率,并通过对初始变量进行分块的方法来实现高效的变量选择。文中对模拟数据集进行验证分析,结果表明提出的变量选择方法能有效地解决潜在类别分析中的变量筛选问题。本文采用贝叶斯潜在类别模型对云南戒毒人员的问卷数据进行实证分析。实证分析中,采用本文提出的基于卡方检验的变量选择方法实现变量选择,取得了较好的效果。研究表明:第一,基于卡方检验的变量选择方法在潜在类别分析中能有效地筛选变量,极大地简化了潜在类别模型的构建过程;第二,潜在类别分析适用于云南戒毒人员类型的划分,可以根据社区戒毒人员的心理调查结果分为两类:一般成瘾性人群及重度成瘾性人群。得到分类结果后,便可以对相关人群进行有针对性地治疗,实现精准戒毒的目的。
其他文献
<正>"国产电视剧在欧美等地的出口几近停滞",这话不假。2011年中国电视节目出口总额为2.2662亿元人民币,其中电视剧出口总额为1.4649亿元,电视剧进口总额为3.4564亿元,电视剧
教学目标1、了解地球所受到的污染,了解保护环境的对于生存的重要性。2、信息技术运用和学会在生活中随时随地进行环保活动及搜集调查资料能力。3、增强学生的环保意识,养成
语言典丽与清通交融,视野古今与中外沟通——济南的春天在余光中的笔下,别有风雅之趣。美丽的文字任其挥洒,令人读之欣然。
抚顺市章党气象站自1988年以来,地面测报质量连续6年在全省夺魁。 该站先后有75人次连续百班无错情,4人8次250班无错情。其中站长徐方贵创5次250班无错情,被中国气象局多次授
欲望化叙事是刘恒小说的显著特征,刘恒的欲望化叙事一方面在于勘探人的生存困境,另一方面则在于彰显自己的人性关怀的价值立场。就欲望话语而言,刘恒小说的独特性在于将欲望
随着空气污染对健康和安全问题影响越来越多的关注,迫切要求研究有效的气敏传感器实时监测各方面环境,半导体金属氧化物气敏传感器因其具有灵敏度高、成本低廉、结构简单和现
目的探讨社区康复治疗对脑出血偏瘫患者整体功能和生活质量的影响。方法依据入选标准纳入83例脑出血偏瘫患者,将其按随机数字表随机分为康复组42例和对照组41例,于入组时、治
为了研究含水条件变化对砂岩储层出砂的定量影响规律,对国外某油田N储层中等强度砂岩27块岩心进行不同饱水时间和饱水度条件下的三轴强度破坏试验,测试不同围压三轴破坏强度
研究背景 分布于气道上皮的杯状细胞(goblet cell,GC)形成气道防御的第一道防线,他们分泌黏液抵御外来灰尘、病原微生物等侵入机体,达到黏液清除、清洁气道和机体防御作用;但是
目的观察中药内服联合耳穴压豆治疗外感咳嗽的临床疗效。方法将342例外感咳嗽的患者随机分组,其中清金止嗽散及耳穴压豆组150例,止嗽散组40例,桑菊饮组62例,桑杏汤组48例,西