量表型数据缺失填补与误差识别研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:zhangduanhua870505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计学、社会学和心理学的相关研究中,问卷是经常使用的一种数据获取方式,同时,量表也是经常会出现在相关研究中的一种数据类型。作为能够衡量被试者的观点态度的量表,李克特量表经常在统计学、社会学和心理学相关研究中被使用。由于李克特量表主要衡量人的主观态度或情感,在实际使用时,所获取的数据往往因为各种原因存在缺失或误差,比如若设置的题目较为敏感,被试者可能不愿回答或在回答时故意选择其他选项。获取的李克特量表数据若存在缺失或误差,可能会为后续的研究处理带来阻碍,因此,对李克特量表数据的缺失数据填补和数据误差识别纠正是非常重要的。在目前的研究中,针对已获取的李克特量表数据的处理研究相对较少。大多数的缺失数据填补研究集中于普通的连续型数据或定性数据,主要的方法有传统的均值填补方法、热卡插补方法等和利用机器学习方法的随机森林填补法等。但由于李克特量表数据是特殊的数据,量表中不同项目之间有一定的相关关系,一般的缺失数据填补方法应用于量表数据的填补中是否合适并没有定论。此外,在量表数据的误差识别和处理上,目前只有量表的信度效度检验方法可以对量表设计时的总体误差进行一定的识别,但是并没有针对于量表中某个项目数据的误差识别的研究。本研究首先使用所获取的某单位员工人才画像调查问卷中的公共服务动机量表和职业成长量表数据,设置不同的数据缺失率、项目数和数据量三种不同的量表条件,比较个体均值填补法、项目均值填补法、热卡插补、多重差补法和基于随机森林的缺失数据填补方法的缺失填补结果,对量表数据的最佳缺失数据填补方法进行探究。获得最佳缺失数据填补方法后,本文进一步从不同等级量表数据缺失填补表现方面对不同等级的量表的选择进行研究,从而在缺失数据填补效果方面给出在量表设计时设置何种等级更加合适的建议。在量表数据误差纠正方面,本研究使用所获取的某单位员工人才画像调查问卷中的工作投入量表和岗位适应性量表数据,根据量表中项目之间存在相关关系的特点,提出量表项目数据误差识别的模型,帮助研究者识别收集到的量表数据可能存在的误差。本文研究发现,相比于其他传统的缺失数据填补方法,本文新引入的基于随机森林的缺失数据填补方法在量表数据的填补结果中有整体最优的效果,但当量表数据出现比较极端的现象如缺失率极高、项目数很少时,基于随机森林的缺失数据填补方法的填补效果会变差,且每次填补的结果有较大的波动。在传统的缺失数据填补方法中,多重差补方法表现最好,其在缺失数据填补上的表现仅次于基于随机森林的缺失数据填补方法。且多重差补方法在缺失数据填补后的相关与回归特征上有较强的优势,在面临极端的量表数据形态时,多重差补方法的填补结果要比基于随机森林的缺失数据填补方法更加稳定。不同等级的量表数据在进行缺失填补时在填补的准确性上会有比较大的差异,但在填补结果的总体分布特征、相关与回归特征上的差异相对较小,总体来说5级量表在缺失填补时会有比较好的表现,在实际使用过程中可以考虑设计5级量表或将其他等级量表转化为5级量表后进行处理。在量表数据的误差识别方面,对工作投入量表和岗位适应性量表的实际实验可以证明,本文提出的基于量表中项目之间的相关关系的量表项目数据误差识别方法有比较好的效果,但本文提出的模型仍然存在阈值设置等问题的限制,研究者在实际使用中可以进一步根据此种方法的思想设计类似的模型进行量表项目数据的误差识别。
其他文献
环境问题是目前各国普遍关注的重要问题,更是我国经济高质量发展中备受重视的焦点议题。企业不加约束的生产行为是引发环境问题的主要原因之一,如何促进企业绿色转型是目前亟待解决的问题之一。在此背景下绿色信贷应运而生,政府要求将企业披露的环境信息纳入金融信贷配给的考察因素,要求银行有意识地减少对节能环保尚未达标企业提供的信贷资金支持,进而从资金源头上遏制重污染企业的进一步扩张同时引导其向绿色生产企业转型。尽
学位
近年来,随着地球化学分析技术的快速发展,越来越多的非传统稳定同位素指标在地学的众多研究领域中展现出广阔的应用前景。其中镁同位素指标在地球表生地质过程研究中应用广泛,尤其在示踪大陆硅酸盐风化方面具有巨大潜力。本文通过对国际大洋发现计划(International Ocean Discovery Program;IODP)第363航次于澳大利亚西北岸外陆架上U1483站钻取的岩芯进行沉积物粒度、镁同位
学位
随着互联网发展进程的不断推进、互联网用户规模的不断扩大和科学技术的不断提升,互联网广告由于其传播范围广且不受时空的限制等自身具备的诸多优势在广告行业不断鼎新,互联网广告也被看作目前最稳定的商业模式,各大搜索引擎平台、社会化网络平台、短视频平台等企业的大部分收入来源都是广告,而广告也已经成为部分网络公司的核心变现模式。在互联网广告的投放系统中,广告按点击来收取费用是当前比较常用的费用结算方式,即广告
学位
中国黄土高原风尘物质来源,不仅蕴含着新生代以来全球变冷、青藏高原隆升以及亚洲内陆干旱化信息,而且与过去大气环流变化具有密切联系。第四纪以来,黄土-古土壤作为堆积在黄土高原之上最重要的沉积序列,具有完整性最好、厚度最大、连续性最好的特点,与极地冰芯和深海沉积物共同称为研究全球气候变化系统的三大支柱。由于黄土中普遍存在封闭温度高、化学性质稳定、抗干扰能力强的副矿物-锆石,并且得益于矿物微区原位分析技术
学位
经过30多年的发展,我国股票市场由最初的不完备的、单一板块的市场逐步发展成多层次的股票市场。目前中国股票市场主要由主板、创业板和科创板等组成,其中主板成立时间最早,服务于大型成熟企业;创业板成立于2013年,解决了中小型企业融资难的问题;而科创板则于2019年开设,服务于科技创新型企业,进一步为高研发成本科技企业降低了融资门槛。对于证券市场来说,股市波动是否具有稳定性是判断其成熟与否的一个标准;对
学位
随着时代的发展,互联网普及率近年来不断提高,在网络上进行购物的用户规模不断扩大。经过多项调查,研究者发现,在这网络快速发展的时代,口碑就是最好的广告,它会对人们的交易决策产生很大影响,因此,口碑也变得越来越受人重视。而近些年来,我国已进入基础物质消费过剩的时代,消费繁荣为居民带来了充足的闲置商品储备,这在供给端为二手经济发展积聚了较大能量,而经济增速放缓、消费者的消费理念日趋理性,这在需求层面也促
学位
南秦岭北带紧邻华北板块和扬子板块之间的商丹缝合带,该构造带出露的地层主体为泥盆系刘岭群,虽然前人对刘岭群从不同角度做了大量研究,但对于刘岭群沉积的构造背景、构造属性及两板块碰撞时限等问题仍存在分歧。论文选取了南秦岭北带柞水-山阳-丹凤地区的泥盆系刘岭群作为研究对象,运用沉积学、岩石学、地球化学和碎屑锆石年代学方法,对南秦岭北带泥盆系刘岭群的沉积演化特征、构造背景和物源进行研究,以期对前述问题的解决
学位
随着计算机性能的不断提升,飞速发展的人工智能和大数据技术早已融入人们生活的方方面面,深刻而迅速地改变着人类生活。将人工智能运用到司法实践中也是法治发展的必然趋势。人工智能与司法实践相结合,并不是为了取代专业司法从业人员的工作,而是作为一种辅助手段减少实践中的量刑失衡现象,增强司法公正性;减轻法官工作量,提升裁判速度,进而整体提高司法的权威性和效率。同时,法律判决预测研究可以为普通民众提供相对专业的
学位
高分辨率的全新世气候重建对探讨区域-全球古气候演化与人类社会发展具有重要意义。本文通过黄土高原南部渭南黄土生物标志物研究,揭示了该地区全新世以来的气候变化,并结合文化演化与历史记录,探讨了黄土高原南部全新世气候变化与人类社会的关系。运用甘油二烷基甘油四醚(GDGTs)指标定量重建的全新世温度在13.2-20.2℃间变化,其中,早全新世逐渐升温,至中全新世(距今约7000a)达到最温暖期,当时温度比
学位
推荐系统中长期存在着冷启动和数据矩阵稀疏两大问题。已有研究证明,在推荐算法中引入知识图谱数据来作为用户或项目的辅助信息,可以有效缓解这两类问题。这一类算法被称为基于知识图谱的推荐算法(Knowledge Graph Based Recommendation system)。本文提出了一个基于知识图谱的多任务注意网络推荐框架MARK(Multi-task Attention network Reco
学位