基于机器学习的问卷可信度审核系统

来源 :北京交通大学 | 被引量 : 1次 | 上传用户：dawulitao

【摘要】

：

【作者】

：

苏迪

【出处】

：

北京交通大学

【发表日期】

：

2019年01期

【关键词】

：

机器学习问卷审核可信度特征提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

入户问卷调查是国民普查的主要方式,每年国家财政花费巨额经费用于这些活动,期望获得准确调查数据,以把握真实情况和做出合理决策,为国民经济生活服务。但是,由于调查过程中的各种原因,导致调查问卷中存在大量不合格问卷(如问卷造假),影响了调查数据的准确性,进而影响了决策的科学性。识别不合格问卷,目前的做法是靠人工逐个审核问卷,存在效率低、成本高,主观性大等问题。随着调查活动的频率和范围的逐年增长,不合格问卷的识别需求与日俱增,亟需一种自动化甄别调查问卷系统,以解放人力、提高审核效率、降低成本,提升审核的客观性。目前,关于自动问卷审核的相关研究还不多见,基于简单规则可以审核问卷,但是需要人工定义规则,灵活性较差。近年来,机器学习在图像处理、语音处理等领域广泛应用并取得了突破性进展,为自动化审核问卷提供了可借鉴的技术和经验。因此,本研究有重要的实际意义,并拓展机器学习的应用空间。为此,本文设计并实现了基于机器学习的问卷审核系统,以自动化审核调查问卷。系统设计的关键问题是,特征工程问题,即如何从高维特征中挑选出对可信度识别贡献最大的特征,以及模型选择问题,即选择怎样的机器学习模型以(从准确率和召回率角度)更好的识别出不合格问卷。本文从音频、图像等多维度挖掘问卷复杂特征,从中提取最有价值的特征,并对比选择在数据集上表现最优的机器学习模型来训练和审核调查问卷。7万份真实问卷的训练/审核表明,本文提出的自动审核系统,AUC为0.88,F1值为0.71,满足审核需求,而且在审核效率、审核的特征维度和评分的精细程度上,远远高于人工审核,且审核过程公正客观。具体来说,本文贡献如下:(1)设计了一套基于机器学习的问卷审核系统,实现对问卷的自动审核。该系统包括有音频、图像等各个分析模块,挖掘提取问卷的高维特征,送入机器学习模型,得到问卷可信度得分。(2)设计了海量特征信息挖掘方法并完成了特征筛选,以实现特征降维和提高模型的识别性能。针对调查问卷的信息,该系统从多维度评估问卷,挖掘出上千维特征,并对高维特征进行了相关性分析和特征工程,筛选出最有价值的特征。(3)比较/评估了不同机器学习模型,以选择在测试数据集上表现最优的模型,进一步提高问卷审核系统的性能。本文比较了几种经典的机器学习模型,找到在现有数据集上表现最优的模型。

其他文献

全俄热工研究所超临界直流锅炉蒸发受热面可靠性研究

<正>据《Электрическиестанции》2013年8月刊报道,全俄热工研究所的专家对超监界直流锅炉蒸发受热面的可靠性进行了深入研究。总结了世界上首台超监界蒸

期刊

直流锅炉受热面可靠性研究

特发性肺纤维化发病机制研究新进展

特发性肺纤维化(IPF)是一种慢性、进行性、并且通常是致命性的常见间质性肺部疾病,其病理特征主要为弥漫性肺泡上皮损伤、成纤维细胞大量增生以及细胞外基质聚集。目前临床上

期刊

特发性肺纤维化病理过程综述

精益管理在提升儿科门诊护理质量中的应用

自2008年我院开始推行精益管理模式以来,我院儿科门诊结合医院创优达标活动以及医院的实际情况,在护理管理上作了一些探讨。通过实践,我们体会精益管理在提升儿科门诊护理质

期刊