论文部分内容阅读
入户问卷调查是国民普查的主要方式,每年国家财政花费巨额经费用于这些活动,期望获得准确调查数据,以把握真实情况和做出合理决策,为国民经济生活服务。但是,由于调查过程中的各种原因,导致调查问卷中存在大量不合格问卷(如问卷造假),影响了调查数据的准确性,进而影响了决策的科学性。识别不合格问卷,目前的做法是靠人工逐个审核问卷,存在效率低、成本高,主观性大等问题。随着调查活动的频率和范围的逐年增长,不合格问卷的识别需求与日俱增,亟需一种自动化甄别调查问卷系统,以解放人力、提高审核效率、降低成本,提升审核的客观性。目前,关于自动问卷审核的相关研究还不多见,基于简单规则可以审核问卷,但是需要人工定义规则,灵活性较差。近年来,机器学习在图像处理、语音处理等领域广泛应用并取得了突破性进展,为自动化审核问卷提供了可借鉴的技术和经验。因此,本研究有重要的实际意义,并拓展机器学习的应用空间。为此,本文设计并实现了基于机器学习的问卷审核系统,以自动化审核调查问卷。系统设计的关键问题是,特征工程问题,即如何从高维特征中挑选出对可信度识别贡献最大的特征,以及模型选择问题,即选择怎样的机器学习模型以(从准确率和召回率角度)更好的识别出不合格问卷。本文从音频、图像等多维度挖掘问卷复杂特征,从中提取最有价值的特征,并对比选择在数据集上表现最优的机器学习模型来训练和审核调查问卷。7万份真实问卷的训练/审核表明,本文提出的自动审核系统,AUC为0.88,F1值为0.71,满足审核需求,而且在审核效率、审核的特征维度和评分的精细程度上,远远高于人工审核,且审核过程公正客观。具体来说,本文贡献如下:(1)设计了一套基于机器学习的问卷审核系统,实现对问卷的自动审核。该系统包括有音频、图像等各个分析模块,挖掘提取问卷的高维特征,送入机器学习模型,得到问卷可信度得分。(2)设计了海量特征信息挖掘方法并完成了特征筛选,以实现特征降维和提高模型的识别性能。针对调查问卷的信息,该系统从多维度评估问卷,挖掘出上千维特征,并对高维特征进行了相关性分析和特征工程,筛选出最有价值的特征。(3)比较/评估了不同机器学习模型,以选择在测试数据集上表现最优的模型,进一步提高问卷审核系统的性能。本文比较了几种经典的机器学习模型,找到在现有数据集上表现最优的模型。