论文部分内容阅读
可用性评估中的表情分析是指对用户在使用产品过程中引发的表情进行直接测量和分析。这种方法具有直接性和实时性的优点,对传统产品可用性评估方法如专家评估、绩效测试是一种重要的补充。近年来,国内外越来越多的研究者开始探讨表情分析方法在可用性评估中的应用性。本研究以FaceReader软件为例,首先通过标准表情库考察了该软件在中国人脸表情的识别有效性,然后以其作为表情分析工具,通过实验室实验方法,探讨了表情指标应用于软件产品可用性评估中的有效性。从而为研究者在可用性评估中采用表情分析指标的实践提供科学依据。 本论文研究共包括两个部分,具体如下: 研究一:考察FaceReader表情分析软件对中国人脸表情的识别有效性 该部分研究主要采用USTC-NVIE标准表情数据库中的人为表情图片、自发表情图片以及通过标准化情绪引发刺激诱发的动态表情等三类表情刺激,通过比较FaceReader表情分析软件与人类评估者对三类表情刺激在表情类型识别率以及识别强度结果之间的一致性,来考察FaceReader表情分析软件对中国人脸表情的识别有效性。 首先,在分别对人为表情图片和自发表情图片进行标准化筛选的基础上,比较了FaceReader表情分析软件与人类评估者在各表情类型的识别率和识别强度上的一致性。 然后,针对表情视频,先使用标准化的情绪引发刺激收集表情视频材料,再分别比较FaceReader与被试自我报告、FaceReader与人类评估者在各表情类型的识别率和识别强度上的一致性。 研究二:表情分析指标应用于软件产品可用性评估中的有效性研究。 该部分研究主要通过实验室方法,考察了表情分析指标在比较两款同类软件产品(音乐播放器软件)的可用性水平,以及同一款软件产品在界面优化前后的可用性水平上的应用有效性。 实验1中采用典型任务操作法,比较了被试使用两款不同可用性水平的同类软件产品(两款典型的音乐播放器)完成典型操作任务时的绩效指标(操作时间、正确率)、主观评价(SUS量表评分)和表情分析的结果,并通过对表情分析结果与其它主客观评价指标进行了比较,来考察表情分析指标应用于比较不同软件可用性水平的有效性。 实验2在实验1的基础上,首先根据可用性设计原则对可用性较差的音乐播放器软件进行改进和优化,然后再通过比较被试在使用同一款软件改进前后版本完成典型操作任务时的绩效指标(操作时间、正确率)、主观评分(SUS量表评分)和表情分析结果,并通过对表情分析结果与其它主客观评价指标进行比较,来考察表情分析指标应用于比较单个软件改进前后可用性水平的有效性。 本研究结果表明: (1)FaceReader软件对中国人脸表情具有较好的识别和分析能力。对人为表情图片来说,FaceReader可以对71%的图片进行正确分类,对“悲伤”、“高兴”、“惊奇”、“厌恶”、“中性”的图片,FaceReader与人类评估者的表情强度判断结果存在显著相关。 (2)对自发表情图片来说,FaceReader可以对70.6%的图片进行正确分类,对“悲伤”、“高兴”、“惊奇”、“生气”、“厌恶”的图片,FaceReader与人类评估者的表情强度判断结果存在显著相关。 (3)对表情视频来说,FaceReader与被试自我报告相比的分类正确率达32%,对“中性”、“高兴”、“悲伤”表情可以识别,对“厌恶”、“生气”、“害怕”表情未能识别,对“中性”、“高兴”、“悲伤”的表情视频,FaceReader的识别强度与被试自我报告结果存在显著相关;FaceReader与评估者结果相比的分类正确率达53%,对“中性”、“高兴”、“悲伤”表情识别率较高,对“厌恶”、“生气”、“害怕”表情识别率较低,对“中性”、“高兴”、“悲伤”的表情视频,FaceReader的识别强度与人类评估者结果存在显著相关。 (4)对于同类软件的两款可用性水平不同的产品来说,相对于可用性水平较高的产品,可用性水平较差的产品不但操作时间更长,正确率更低,负性表情成分更多,SUS评分更低,且表情强度与SUS评分在“悲伤”、“生气”等负性表情成分上出现显著负相关。而正性表情成分指标相对来说较难反映同类型的不同软件产品的可用性水平。 (5)对于同一款软件改进前后的不同版本产品来说,类似于不同软件产品的实验结果,相对于改进后可用性水平较高的产品,可用性水平较差的改进前产品不但操作时间更长,正确率更低,负性表情成分更多,SUS评分更低,且在表情强度上,SUS评分与“悲伤”、“生气”、“惊奇”等负性情绪成分间存在显著负相关。而正性表情成分指标相对来说没有显著差异。