基于词向量的微博用户抑郁预测方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ilovelp222222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是目前中国主流的社交媒体工具,是个人用户发表自己意见和表达情感的一个社交网络平台。通过调研,具有心理障碍的人群在语言使用,情绪表达上与普通人群有着很大区别。本文采取人工标注的方法获取了有抑郁心理障碍以及没有抑郁心理障碍的两类人群的微博账号,并采用微博爬虫的方式获取了两类用户的微博数据。针对用户数据本文进行了用户个人信息以及语言特征的提取。本文采用两种方法进行分类模型的构造。第一种是基于扩展的抑郁词典的特征统计方法,第二种是基于词向量构建用户向量的方法。词向量选用google开发的深度学习工具word2vec训练得到。本文的主要工作及创新之处如下:(1)本文深刻分析了微博文本中抑郁用户的语言表述习惯,并在调研中发现现有的中文情感词典不能很全面的涵盖抑郁用户的语言词汇。针对情感词典抑郁词汇缺失的现象,本文根据抑郁自评表定义了基础的抑郁词典,选取了 54个典型词汇作为种子词汇。采用计算词向量间相似度的方法获取基础抑郁词汇的相关词,并利用这些相关词进行抑郁词典的扩展。在此基础上,本文进行了基于词典方法的特征统计模型的构建。(2)本文利用词向量包含上下文语义的特性,提出使用词向量构造用户向量的方法。本文采用了 TF-IDF加权词向量以及采用max pooling提取词汇特征这两种方法进行用户文本语义向量的构建。TF-IDF方法考虑到用户文档中词汇重要度不一的情况,对于重要度高的词汇赋予高的权重。最大池化方法则在句子层面过滤了词汇的不重要信息。最终两种方法获得的文档向量均很好的保留了用户文档的语义。两种方法自动学习了用户的文本特征,和传统的方法相比省去了特征提取以及特征简化的步骤。本文将得到的用户向量作为用户的特征表示并进行了预测模型的构建。实验结果表明,由词向量构建用户向量的方法可以作为一种新的用户心理障碍预测的解决方案。
其他文献
为了现察冷应激对雏鸡白痢的影响,实验选用200只雄性海兰雏鸡进行沙门氏杆菌攻毒感染实验,攻毒后对其进行急性(12 h以内)冷应激(比正常温度低10℃)。结果表明:口服1亿~20亿个活菌
针对基于单组元肼类物质为工质的液体姿轨控发动机差动活塞式燃气自增压系统,分析了系统的工作原理,提出了系统的参数设计方法,建立了系统的参数设计流程,给出了系统的起动压
牛出血性乳房炎多是由于奶牛乳房受钝性创伤,引起乳房内血管破裂造成的。临床症状以乳汁呈血样变化为主要特征,后期可发展成化脓性乳房炎。临床治疗应遵循以下几项原则。
随着素质教育向家庭教育的延伸,中国当代的家庭教育有必要吸取中国古代家庭教育艺术的精华:1、重视诗教以导性广志;2、养才鼓气以培养上进心;3、标本兼治攻其病以塑造健康的人格
新时代高校继续教育迎来了大发展的新机遇,顺应国家发展战略,建设终身教育体系,转型发展成为高校继续教育的必然选择。文章探讨了高校继续教育转型发展的策略:准确定位,科学
草地螟(Loxostege sticticalis Linnaeus)是一种世界性害虫,也是我国华北、西北以及东北地区农牧业生产的重要害虫。本试验在(26+1)℃,RH 70%~80%,L∥D=16h∥8h条件下组建了草地螟