论文部分内容阅读
在问卷调查中,除了大部分选择题外,也会设计一些开放式问题,以便能更全面、更准确地了解被调查者的真实想法或看法。然而,由于技术条件的限制,目前对收集到的这类开放式问题文本数据的分析主要是在手工编码的基础上进行的,存在时间长、成本高、结果难以标准化等问题。基于此,本文运用主题分类模型、情感分析等中文自然语言处理方法,研究了评价类开放题文本数据的自动编码方法,为后期进一步针对问卷调查的统计分析奠定良好的基础。首先,在分析相关文献的基础上,梳理并归纳了问卷调查中评价类开放题的主要特征,发现这类问题的题干中往往包含“什么”“如何”“认为”“为什么”“能不能”等发问词,而收集到的文本数据又具有文本短、专业性强、主观色彩浓、程度副词多等特点,根据这些特征,提出了从主题分类和情感分析两个方面对开放题收集的中文文本数据进行编码。其次,针对某一评价类开放题收集的全部文本数据,在进行文本分词、去停用词等预处理的基础上,利用LDA主题模型得到相应的若干主题及每个主题的关键词项,进而制定了主题对应数字的编码规则;再利用TF-IDF算法得到每条评价文本数据的向量表示,计算其与各主题之间的相似度,按照相似度最大原则进行主题分类,进而完成对每条评价文本数据的主题编码。然后,针对每条评价文本中的主题,在构建情感词典的基础上,通过设置情感词、否定词以及程度副词的权重,建立相应的量化模型,求得每条评价文本中各个主题的情感倾向值,并将情感倾向分为强正向、正向、中性、负向、强负向五个极性,建立了主题的情感倾向对应数字的情感编码方法。最后,将主题分类编码与相应主题的情感编码进行组合,构建了“主题分类+五极情感”的评价类开放题的编码方法,可实现对评价文本数据的单主题、多主题自动编码,具有一定的创新性。实验结果表明,对每条评价文本数据主题分类与情感分析的F值能稳定在70%左右,自动编码模型与方法具有较高的有效性。