论文部分内容阅读
微博是目前中国主流的社交媒体工具,是个人用户发表自己意见和表达情感的一个社交网络平台。通过调研,具有心理障碍的人群在语言使用,情绪表达上与普通人群有着很大区别。本文采取人工标注的方法获取了有抑郁心理障碍以及没有抑郁心理障碍的两类人群的微博账号,并采用微博爬虫的方式获取了两类用户的微博数据。针对用户数据本文进行了用户个人信息以及语言特征的提取。本文采用两种方法进行分类模型的构造。第一种是基于扩展的抑郁词典的特征统计方法,第二种是基于词向量构建用户向量的方法。词向量选用google开发的深度学习工具word2vec训练得到。本文的主要工作及创新之处如下:(1)本文深刻分析了微博文本中抑郁用户的语言表述习惯,并在调研中发现现有的中文情感词典不能很全面的涵盖抑郁用户的语言词汇。针对情感词典抑郁词汇缺失的现象,本文根据抑郁自评表定义了基础的抑郁词典,选取了 54个典型词汇作为种子词汇。采用计算词向量间相似度的方法获取基础抑郁词汇的相关词,并利用这些相关词进行抑郁词典的扩展。在此基础上,本文进行了基于词典方法的特征统计模型的构建。(2)本文利用词向量包含上下文语义的特性,提出使用词向量构造用户向量的方法。本文采用了 TF-IDF加权词向量以及采用max pooling提取词汇特征这两种方法进行用户文本语义向量的构建。TF-IDF方法考虑到用户文档中词汇重要度不一的情况,对于重要度高的词汇赋予高的权重。最大池化方法则在句子层面过滤了词汇的不重要信息。最终两种方法获得的文档向量均很好的保留了用户文档的语义。两种方法自动学习了用户的文本特征,和传统的方法相比省去了特征提取以及特征简化的步骤。本文将得到的用户向量作为用户的特征表示并进行了预测模型的构建。实验结果表明,由词向量构建用户向量的方法可以作为一种新的用户心理障碍预测的解决方案。