基于机器学习的问卷可信度审核系统

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:dawulitao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
入户问卷调查是国民普查的主要方式,每年国家财政花费巨额经费用于这些活动,期望获得准确调查数据,以把握真实情况和做出合理决策,为国民经济生活服务。但是,由于调查过程中的各种原因,导致调查问卷中存在大量不合格问卷(如问卷造假),影响了调查数据的准确性,进而影响了决策的科学性。识别不合格问卷,目前的做法是靠人工逐个审核问卷,存在效率低、成本高,主观性大等问题。随着调查活动的频率和范围的逐年增长,不合格问卷的识别需求与日俱增,亟需一种自动化甄别调查问卷系统,以解放人力、提高审核效率、降低成本,提升审核的客观性。目前,关于自动问卷审核的相关研究还不多见,基于简单规则可以审核问卷,但是需要人工定义规则,灵活性较差。近年来,机器学习在图像处理、语音处理等领域广泛应用并取得了突破性进展,为自动化审核问卷提供了可借鉴的技术和经验。因此,本研究有重要的实际意义,并拓展机器学习的应用空间。为此,本文设计并实现了基于机器学习的问卷审核系统,以自动化审核调查问卷。系统设计的关键问题是,特征工程问题,即如何从高维特征中挑选出对可信度识别贡献最大的特征,以及模型选择问题,即选择怎样的机器学习模型以(从准确率和召回率角度)更好的识别出不合格问卷。本文从音频、图像等多维度挖掘问卷复杂特征,从中提取最有价值的特征,并对比选择在数据集上表现最优的机器学习模型来训练和审核调查问卷。7万份真实问卷的训练/审核表明,本文提出的自动审核系统,AUC为0.88,F1值为0.71,满足审核需求,而且在审核效率、审核的特征维度和评分的精细程度上,远远高于人工审核,且审核过程公正客观。具体来说,本文贡献如下:(1)设计了一套基于机器学习的问卷审核系统,实现对问卷的自动审核。该系统包括有音频、图像等各个分析模块,挖掘提取问卷的高维特征,送入机器学习模型,得到问卷可信度得分。(2)设计了海量特征信息挖掘方法并完成了特征筛选,以实现特征降维和提高模型的识别性能。针对调查问卷的信息,该系统从多维度评估问卷,挖掘出上千维特征,并对高维特征进行了相关性分析和特征工程,筛选出最有价值的特征。(3)比较/评估了不同机器学习模型,以选择在测试数据集上表现最优的模型,进一步提高问卷审核系统的性能。本文比较了几种经典的机器学习模型,找到在现有数据集上表现最优的模型。
其他文献
<正>据《Электрическиестанции》2013年8月刊报道,全俄热工研究所的专家对超监界直流锅炉蒸发受热面的可靠性进行了深入研究。总结了世界上首台超监界蒸
特发性肺纤维化(IPF)是一种慢性、进行性、并且通常是致命性的常见间质性肺部疾病,其病理特征主要为弥漫性肺泡上皮损伤、成纤维细胞大量增生以及细胞外基质聚集。目前临床上
自2008年我院开始推行精益管理模式以来,我院儿科门诊结合医院创优达标活动以及医院的实际情况,在护理管理上作了一些探讨。通过实践,我们体会精益管理在提升儿科门诊护理质
介绍了一种基于手柄位燃油消耗率的HX_N5型机车的燃油消耗统计方法,并通过与国内现有燃油消耗统计方式进行的对比分析,证明其便捷和准确性。 A method of fuel consumption
期刊
引黄济青工程调度运行状况调查研究发现小清河子槽段存在过流能力不足和地面沉降等问题,导致输水效率下降。本文在研究该工程调度运行情况的基础上,分析工程输水效率降低的原
在全球发展一体化的进程中,社会经济发展非常迅速。而且随着我国加入世贸组织后,国内市场的开放程度日渐加大,竞争形势日渐激烈,煤业公司的生存现状面临着严重的挑战。为了谋