通过机器学习和文本分析预测大中学生的自杀风险

来源 :西南大学 | 被引量 : 0次 | 上传用户:yuyuspecialshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“预防自杀”成为了一个紧迫的全球性议题,并且是15-29岁群体的第二大死因。然而由于研究方法存在限制、自杀隐瞒率较高等问题,对于自杀的预测在过去50年中几乎没有提高(接近随机水平)。近些年国内外研究者开始关注通过机器学习的方法预测自杀,预测水平获得了明显的提升,然而目前的研究仍存在一些问题:第一,国内缺乏通过机器学习预测大中学生自杀风险的研究,由于文化差异,国外研究结果无法直接指导国内自杀预防的工作,需要积极开展针对国内自杀风险预测的研究。第二,影响自杀的因素众多,目前的研究缺乏同时纳入众多因素进行分析,在同一研究框架下比较不同因素的重要性。第三,自杀的预防与干预通常取决于个体披露自杀想法及行为的意愿或能力,然而很大一部分个体出于不想让他人担忧、不信任他人、害怕被污名化等原因隐瞒自杀的想法和行为,因此需要开发其他的测量方式。第四,模型指标报告不规范。大多数研究报告的算法指标接受者操作特征曲线下面积(Area Under Curve,AUC)只能反映整体的预测情况,由于没有自杀风险的人群占绝大多数,所以AUC往往反映的是对没有自杀风险个体的预测能力,因此研究需要报告精确率召回率曲线下面积(Average Precision,AP)。基于以上问题,开展了三项研究:研究一,目的:初步探究影响大中学生自杀风险的因素。方法:通过问卷星线上发放问卷,总共收集5359份,筛选后有效问卷4654份。受试者中男生1580人,女生3074人,初中1250人,高中1075人,大学2329人。问卷包括基础信息题目、青少年生活事件量表、人际需求问卷、自杀意念量表、自杀能力量表、非结构化问题。流程:通过SPSS 22.0进行独立样本T检验、单因素方差分析、卡方检验、Spearman相关分析、Mann-Whitney U秩和检验;通过G*power计算效应量。检验众多因素与自杀意念和自杀未遂之间的关系。结果:(1)发现除生源地、BMI指数外,其他因素在自杀意念总分上均显示出显著差异或与自杀意念总分显著相关。(2)所有变量均在有无自杀未遂上显示出显著差异。研究二,目的:基于结构化数据,通过机器学习预测大中学生的自杀风险,找出重要预测因素,比较不同算法的预测性能。方法:同研究一的被试数据,通过anaconda里的jupyter notebook运行Python代码,使用Python3.0里的numpy、pandas、sklearn、seaborn、matplotlib等调用算法。流程:进行数据清洗、特征工程,选择随机梯度下降(Stochastic Gradient Descent,SGD)、支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、随机森林(Random Forest,RF)、自适应增强(Adaptive Boosting,Ada Boost)进行建模预测,因变量为自杀意念和自杀未遂,并且找到其中的重要因素。结果:(1)通过所有结构化数据预测自杀意念,表现最好的是SGD分类器(Precision=0.91,Recall=0.90,F1 score=0.91,AUC=0.96,AP=0.90)。其中,人际需求总分、人际需求的累赘感知维度、归属受挫维度、生活事件总分等是预测自杀意念的重要因素。(2)通过所有结构化数据预测自杀未遂,表现最好的是SGD分类器(Precision=0.90,Recall=0.89,F1score=0.89,AUC=0.93,AP=0.75)。其中,自杀意念量表的乐观维度、自杀意念总分、绝望维度、自杀能力量表的现实性维度、人际需求量表的累赘感知维度等是预测自杀未遂的重要因素。研究三,目的:基于文本信息,通过机器学习和文本分析对自杀风险进行预测,比较不同算法的预测性能。方法:同研究一的被试数据。结合自杀人际理论的归属受挫和累赘感知含义,设计6道开放式问题。流程:对文本进行分词处理、去停用词、词语向量化、词语标注,采用同研究二的5种机器学习算法进行建模预测。结果:(1)通过文本数据预测自杀意念,SGD分类器表现较优(Precision=0.88,Recall=0.86,F1 score=0.87,AUC=0.93,AP=0.83),表现出较为良好的预测能力。(2)通过文本数据预测自杀未遂,RF分类器表现较优(Precision=0.84,Recall=0.83,F1 score=0.83,AUC=0.84,AP=0.48),表现出较为良好的预测能力。结论:机器学习纳入多种因素可以有效地预测自杀意念和自杀未遂,通过文本信息预测自杀意念和自杀未遂是可行的。
其他文献
<正>近日,浙江省首个“光伏发电+熔盐储热+液流储电”项目在杭州市钱塘区西子航空园区“零碳工厂”投运。项目建有容量6 MW屋顶光伏电站,装有年消纳电能974.4万kW·h的熔盐储热装置和容量400 kW·h的液流电池,预计全年可减排大量二氧化碳,实现园区生命周期零碳排放。在园区内,通过充分利用屋顶资源,建成的光伏电站年发电量可达约530万kW·h, 可满足园区500万kW·h的年用电量,多出的电还
期刊
应急管理信息化工作是主动适应当前社会科技信息化的有效举措,是完善应急管理体系的重要保障。面临应急管理部成立时间短、整体信息化基础薄弱、应急管理工作责任重大、社会各界关注度高、科技信息化迫在眉睫、应急管理模式急需转型等复杂形势,基层应急管理体系和能力相对落后,应急管理信息化水平不高,依然存在硬件基础薄弱、软件保障缺位、技术人才紧缺、基础数据分散等问题。在此基础上,文章重点阐述基层应急管理信息化建设的
期刊
目的:比较针刺结合益神启窍中药联合基础治疗与单纯基础治疗对心肺复苏后脑功能的保护作用。方法:将70例心肺复苏后自主循环恢复患者随机分为针药组和西药组,每组35例。两组均进行常规心肺复苏后护理及西医治疗,针药组于百会、四神聪、水沟、内关、涌泉穴用针刺,联合益神启窍方中药治疗;针刺及中药每日1次,连续治疗14 d。观察治疗前后脑功能代谢指标[神经元特异性烯醇化酶(NSE)、中枢神经特异性蛋白β(S10
期刊
目的探讨醒脑开窍针刺法治疗心肺复苏后缺血性脑病的临床疗效。方法采用随机对照研究方法,选择心肺复苏后缺血性脑病患者共40例,按随机数字表法分为针刺组和对照组,每组20例。两组均予基础治疗,针刺组同时加用醒脑开窍针刺法。两组疗程均为7 d,观察患者苏醒情况以及GCS评分、炎症标志物(WBC、CRP、PCT)水平变化情况。结果①两组苏醒时间、苏醒率差异无统计学意义(P>0.05)。②治疗前后组内比较,两
期刊
报纸
简要分析了异步电动机的过热原因,提出了采用基于电动机发热模型的热保护来实现对电动机过热故障的保护;并以某石化工程为例,介绍了该类热保护的整定方式。传统电动机过电流保护方式具有许多不足之处,可采用该类热保护替代传统过电流保护。
期刊
报纸
报纸
当今时代,互联网科技高速发展,带动游戏产业快速增长,视频游戏的种类与形式越发多样,受到人们的喜爱。视频游戏已成为网络时代大多数人,尤其是青少年的主要娱乐方式,其对人们各方面的影响受到研究者的高度重视。基于大部分视频游戏多人性、互动性等特点,在玩视频游戏过程中,个体与他人互动的情境模式(即游戏情境)以及在不同的游戏情境中“和谁玩”(即玩家间关系类型)对个体心理与行为产生的影响不容忽视。目前,已有许多
学位
为探讨尾巨桉在生产实践中不同种植密度下的适宜修枝强度,通过设置3种尾巨桉种植密度:P1(1 665株·hm-2,株行距:2 m×3 m)、P2(1 320株·hm-2,株行距:2.5 m×3 m)、P3(1 110株·hm-2,株行距:3 m×3 m)和3种修枝强度:不修枝、轻度修枝(修去活枝冠层1/3的下层枝条)、中度修枝(修去活枝冠层1/2的下层枝条),探讨修枝后6个月的幼龄尾巨桉生长量差异。
期刊