论文部分内容阅读
心理健康问题对社会和谐和家庭幸福造成严重破坏,提前发现有心理健康问题的潜在患者,有利于及时辅导和治疗。人们利用互联网或社交网络交流沟通、表达情感和观点,这为心理健康的观察提供了新的窗口。提出基于多特征融合的在线论坛用户心理健康自动评估框架F3TMH,该框架采用贪婪法F3TMH_G、投票法F3TMH_V、后期融合法F3TMH_L和降噪自编码器法F3TMH_DA四种特征融合策略,融合帖子(或其作者)的行为与属性特征、语言或用词风格特征、内容特征(N-Grams特征、主题特征、词向量特征)、上下文特征,对论坛中帖子所反映的用户(心理康健状况)需要干预的紧急程度(crisis:非常紧急,red:紧急,amber:不紧急,green:不需要任何干预)进行自动评估。在CLPsych2017 shared task评测任务所提供的数据集上,考察了各类特征、不同的特征融合策略对心理健康自动评估性能的影响。实验发现,相对于行为与属性特征和语言特征,内容特征表现更好,其中基于Word2Vec的词向量特征表现最佳,其Non-green(crisis、red、amber三类)的F1均值达到0.429。尽管单独使用行为与属性特征表现不佳,但该特征对crisis类帖子的识别影响很大,在融合所有特征的基础上去掉该特征后会导致crisis类帖子的F1值下降19.7%。实验还显示,多种类型特征的融合较单一类型的特征表现更优,特征融合后Non-green的F1值(0.479)较单一最优特征(0.429)提高11.6%。各种特征融合策略各有优势,例如,后期融合策略F3TMH_L2更有利于识别心理健康危机程度较高的用户(crisis和red类帖子),Urgent的F1值达到0.608,而F3TMH_L则更有利于识别crisis类的帖子,自编码融合策略F3TMH_DA对于识别数据量相对较多的Flagged类(所有非green类的并集)帖子更有优势,其F1值达到0.872。最后还探讨了上下文信息对用户心理危机程度识别的影响。此外,F3TMH_V参加了CLPsych2017 shared task评测,在官方对参赛系统排名的评价指标Non-green F1上得分0.467,排名第一,优于采用深度学习等其它模型和特征的参赛系统。