论文部分内容阅读
“预防自杀”成为了一个紧迫的全球性议题,并且是15-29岁群体的第二大死因。然而由于研究方法存在限制、自杀隐瞒率较高等问题,对于自杀的预测在过去50年中几乎没有提高(接近随机水平)。近些年国内外研究者开始关注通过机器学习的方法预测自杀,预测水平获得了明显的提升,然而目前的研究仍存在一些问题:第一,国内缺乏通过机器学习预测大中学生自杀风险的研究,由于文化差异,国外研究结果无法直接指导国内自杀预防的工作,需要积极开展针对国内自杀风险预测的研究。第二,影响自杀的因素众多,目前的研究缺乏同时纳入众多因素进行分析,在同一研究框架下比较不同因素的重要性。第三,自杀的预防与干预通常取决于个体披露自杀想法及行为的意愿或能力,然而很大一部分个体出于不想让他人担忧、不信任他人、害怕被污名化等原因隐瞒自杀的想法和行为,因此需要开发其他的测量方式。第四,模型指标报告不规范。大多数研究报告的算法指标接受者操作特征曲线下面积(Area Under Curve,AUC)只能反映整体的预测情况,由于没有自杀风险的人群占绝大多数,所以AUC往往反映的是对没有自杀风险个体的预测能力,因此研究需要报告精确率召回率曲线下面积(Average Precision,AP)。基于以上问题,开展了三项研究:研究一,目的:初步探究影响大中学生自杀风险的因素。方法:通过问卷星线上发放问卷,总共收集5359份,筛选后有效问卷4654份。受试者中男生1580人,女生3074人,初中1250人,高中1075人,大学2329人。问卷包括基础信息题目、青少年生活事件量表、人际需求问卷、自杀意念量表、自杀能力量表、非结构化问题。流程:通过SPSS 22.0进行独立样本T检验、单因素方差分析、卡方检验、Spearman相关分析、Mann-Whitney U秩和检验;通过G*power计算效应量。检验众多因素与自杀意念和自杀未遂之间的关系。结果:(1)发现除生源地、BMI指数外,其他因素在自杀意念总分上均显示出显著差异或与自杀意念总分显著相关。(2)所有变量均在有无自杀未遂上显示出显著差异。研究二,目的:基于结构化数据,通过机器学习预测大中学生的自杀风险,找出重要预测因素,比较不同算法的预测性能。方法:同研究一的被试数据,通过anaconda里的jupyter notebook运行Python代码,使用Python3.0里的numpy、pandas、sklearn、seaborn、matplotlib等调用算法。流程:进行数据清洗、特征工程,选择随机梯度下降(Stochastic Gradient Descent,SGD)、支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、随机森林(Random Forest,RF)、自适应增强(Adaptive Boosting,Ada Boost)进行建模预测,因变量为自杀意念和自杀未遂,并且找到其中的重要因素。结果:(1)通过所有结构化数据预测自杀意念,表现最好的是SGD分类器(Precision=0.91,Recall=0.90,F1 score=0.91,AUC=0.96,AP=0.90)。其中,人际需求总分、人际需求的累赘感知维度、归属受挫维度、生活事件总分等是预测自杀意念的重要因素。(2)通过所有结构化数据预测自杀未遂,表现最好的是SGD分类器(Precision=0.90,Recall=0.89,F1score=0.89,AUC=0.93,AP=0.75)。其中,自杀意念量表的乐观维度、自杀意念总分、绝望维度、自杀能力量表的现实性维度、人际需求量表的累赘感知维度等是预测自杀未遂的重要因素。研究三,目的:基于文本信息,通过机器学习和文本分析对自杀风险进行预测,比较不同算法的预测性能。方法:同研究一的被试数据。结合自杀人际理论的归属受挫和累赘感知含义,设计6道开放式问题。流程:对文本进行分词处理、去停用词、词语向量化、词语标注,采用同研究二的5种机器学习算法进行建模预测。结果:(1)通过文本数据预测自杀意念,SGD分类器表现较优(Precision=0.88,Recall=0.86,F1 score=0.87,AUC=0.93,AP=0.83),表现出较为良好的预测能力。(2)通过文本数据预测自杀未遂,RF分类器表现较优(Precision=0.84,Recall=0.83,F1 score=0.83,AUC=0.84,AP=0.48),表现出较为良好的预测能力。结论:机器学习纳入多种因素可以有效地预测自杀意念和自杀未遂,通过文本信息预测自杀意念和自杀未遂是可行的。