问卷调查中评价类问题的自动编码方法及其应用

来源 :天津商业大学 | 被引量 : 0次 | 上传用户:rockyliangchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在问卷调查中,除了大部分选择题外,也会设计一些开放式问题,以便能更全面、更准确地了解被调查者的真实想法或看法。然而,由于技术条件的限制,目前对收集到的这类开放式问题文本数据的分析主要是在手工编码的基础上进行的,存在时间长、成本高、结果难以标准化等问题。基于此,本文运用主题分类模型、情感分析等中文自然语言处理方法,研究了评价类开放题文本数据的自动编码方法,为后期进一步针对问卷调查的统计分析奠定良好的基础。首先,在分析相关文献的基础上,梳理并归纳了问卷调查中评价类开放题的主要特征,发现这类问题的题干中往往包含“什么”“如何”“认为”“为什么”“能不能”等发问词,而收集到的文本数据又具有文本短、专业性强、主观色彩浓、程度副词多等特点,根据这些特征,提出了从主题分类和情感分析两个方面对开放题收集的中文文本数据进行编码。其次,针对某一评价类开放题收集的全部文本数据,在进行文本分词、去停用词等预处理的基础上,利用LDA主题模型得到相应的若干主题及每个主题的关键词项,进而制定了主题对应数字的编码规则;再利用TF-IDF算法得到每条评价文本数据的向量表示,计算其与各主题之间的相似度,按照相似度最大原则进行主题分类,进而完成对每条评价文本数据的主题编码。然后,针对每条评价文本中的主题,在构建情感词典的基础上,通过设置情感词、否定词以及程度副词的权重,建立相应的量化模型,求得每条评价文本中各个主题的情感倾向值,并将情感倾向分为强正向、正向、中性、负向、强负向五个极性,建立了主题的情感倾向对应数字的情感编码方法。最后,将主题分类编码与相应主题的情感编码进行组合,构建了“主题分类+五极情感”的评价类开放题的编码方法,可实现对评价文本数据的单主题、多主题自动编码,具有一定的创新性。实验结果表明,对每条评价文本数据主题分类与情感分析的F值能稳定在70%左右,自动编码模型与方法具有较高的有效性。
其他文献
学位
学位
在汽车生产制造中,白车身的常见连接方式为焊接,其中点焊是一种应用最为广泛的焊接工艺。焊点的质量对于白车身的安全性能有着至关重要的影响,因此在白车身的生产过程中需要实时的检测焊点的质量。目前在生产车间对于焊点质量的检测大多是由人工检查,这样费时费力且不能实时反映白车身焊点的质量情况,因此需要自动化的焊点质量检测方法。由于白车身的生产过程中会出现焊点位置与原定的焊接位置出现偏差的情况,所以我们研究了基
学位
学位
学位
学位
学位
随着环境保护的意识逐渐加强,世界对汽车的排放要求也愈发严格,研发高性能低排放的发动机至关重要。作为发动机必不可少的子系统,冷却系统主要作用是保证发动机在适宜的温度下运行。水泵则是冷却系统中的重要部件,目前发动机大多数使用的是机械水泵,并不能够主动在不同工况下去调节冷却水流量,这会造成整车油耗与排放的增加。而电子水泵不受发动机转速的影响,能够主动调节电子水泵的转速,这不仅能降低整车油耗与排放,更能使
学位