论文部分内容阅读
近年来随着网络的普及,网络问卷的使用愈加频繁和广泛,控制问卷的数据质量一直是调查者研究的一个重要课题。在线问卷为网络用户提供了一个交互模式,随着心理科学的发展,通过收集用户的鼠标轨迹等行为信息分析在线问卷中的数据质量、识别用户的困惑情绪、帮助调查者改进问卷设计等研究课题逐渐流行起来。本文在现有研究在线问卷与鼠标轨迹相关问题的基础上,结合机器学习方法,提出并实现关于在线问卷用户专注度衡量问题的分析方法。对用户在网络问卷中的专注度进行建模和分析,使用机器学习的特征工程和分类方法,衡量用户在回答问卷时的专注度(即认真/不认真)。本文的主要工作包含以下两个方面:(1)首先对在线问卷中网络用户的行为进行建模,详细描述用户在填写网络问卷可能发生的行为(即打开问卷、填写问卷、提交问卷等),定义可收集的行为数据和在线问卷用户专注度衡量问题,公式化地描述问题的输入、处理和输出。输入为用户的行为信息数据,包含鼠标轨迹相关的速度、加速度、距离、角度变化,鼠标的点击、滚动及答题时间间隔等。处理过程为机器学习的二分类模型,根据用户行为信息识别和衡量其在回答问卷时的专注度,进而将用户的专注度分为两类(即认真/不认真),作为问题的输出。(2)在用户行为建模和问题定义的基础上,提出本文针对在线问卷用户专注度衡量问题的模型和方法,通过设计和实现在线问卷网站和鼠标轨迹收集模块,设计并实施在线问卷调查实验采集用户数据,使用机器学习方法对定义的问题进行求解、评估和验证。首先对数据进行预处理,再对处理后的数据进行降维和分类,然后使用查准率、查全率、F1度量等性能指标评估对比不同降维方法和分类方法的效果,选择其中效果较好的方法作为求解问题模型的方法。通过设计和实现在线问卷网站和用户行为收集模块,共采集到578份有效用户数据,对数据做预处理、降维、分类和评估后,得到的实验结果表明,卡方检验法和梯度提升决策树的效果相对较好,查准率、查全率和F1度量分别为78.1%、84.25%和81.06%。同时还与其他分析用户行为数据的方法进行对比,结果表明本文方法在各项性能指标上均优于对比方法,平均性能指标提升了16.11%。本文从网络用户与在线问卷交互行为这一角度,在现有文献研究的基础上,思考和分析用户在回答在线问卷时的态度,通过对用户鼠标轨迹等行为信息使用机器学习的方法,帮助调查者改进问卷设计和控制数据质量,具有一定的现实意义和实用价值。