论文部分内容阅读
目的:本研究应用网络爬虫技术获取中文健康社交媒体(百度贴吧)与青光眼相关的主题帖,通过使用大数据分析高频中文词汇探讨青光眼人群的需求及上网习惯,并应用基于深度学习的自然语言处理(Natural Languages Processing,NLP)对社交媒体数据进行分类识别,评估其对于中文社交媒体上医学相关文本的专业识别能力。
方法:本研究为回顾性研究。应用网络爬虫技术从百度贴吧的青光眼吧爬取青光眼相关的主题帖,并从中挑选出最近发布的2500条主题帖,对最近发布的2500个主题帖和含有随机5026个主题帖进行人工分类,并应用Jieba0.42.1及WordCloud1.6.0对全部主题帖的题目进行分词和词频统计并可视化。基于深度学习的自然语言处理算法构建卷积神经网络(CNN)和长短期记忆网络(LSTM)两种模型,对训练集的主题帖训练,然后进行测试,采用准确率、精确率、召回率、F1值来评估该深度学习自然语言处理模型,通过召回率及精确率绘制ROC曲线,计算ROC曲线下面积(AUC)及AUC的95%可信区间。
结果:共10892个主题帖,按入组及排除标准剔除3690个(33.9%),余下7202个(66. 1%)。在近期发布的2500个主题帖分类中,咨询医疗方面意见的主题帖最多(N=1642,65.68%),其中咨询检查/临床症状的意见数量最多(N=1173,71.39%)。其次是社会帮助的主题帖(N=542,21.68%),表达情绪(N=114,4.56%),分享知识(N=121,4.84%)。词云分析结果显示“眼压”、“医生”、“视野”、“检查”、“医院”、“手术”6个词是出现频率最高的词语。在训练集上,CNN模型准确率为0.942(95%CI0.945~0.949),召回率为0.907(95%CI0.909~0.915),精确率为0.932(95%CI0.938~0.943),F1值为0.918(95%CI为0.923~0.928),AUC为0.907(95%CI0.909~0.915);LSTM模型准确率为0.931(95%CI0.934~0.938),召回率为0.890(95%CI0.887~0.894),精确率为0.924(95%CI0.927~0.932),F1值为0.905(95%CI0.905~0.911),AUC为0.890(95%CI0.887~0.894)。
结论:本研究应用基于深度学习的自然语言处理模型分类中文医学相关文本进行具有良好的表现,中文社交媒体中可反应出群众对疾病的关注点、认知情况及医患沟通效果,未来可能在公共卫生监控中起到重要作用。
方法:本研究为回顾性研究。应用网络爬虫技术从百度贴吧的青光眼吧爬取青光眼相关的主题帖,并从中挑选出最近发布的2500条主题帖,对最近发布的2500个主题帖和含有随机5026个主题帖进行人工分类,并应用Jieba0.42.1及WordCloud1.6.0对全部主题帖的题目进行分词和词频统计并可视化。基于深度学习的自然语言处理算法构建卷积神经网络(CNN)和长短期记忆网络(LSTM)两种模型,对训练集的主题帖训练,然后进行测试,采用准确率、精确率、召回率、F1值来评估该深度学习自然语言处理模型,通过召回率及精确率绘制ROC曲线,计算ROC曲线下面积(AUC)及AUC的95%可信区间。
结果:共10892个主题帖,按入组及排除标准剔除3690个(33.9%),余下7202个(66. 1%)。在近期发布的2500个主题帖分类中,咨询医疗方面意见的主题帖最多(N=1642,65.68%),其中咨询检查/临床症状的意见数量最多(N=1173,71.39%)。其次是社会帮助的主题帖(N=542,21.68%),表达情绪(N=114,4.56%),分享知识(N=121,4.84%)。词云分析结果显示“眼压”、“医生”、“视野”、“检查”、“医院”、“手术”6个词是出现频率最高的词语。在训练集上,CNN模型准确率为0.942(95%CI0.945~0.949),召回率为0.907(95%CI0.909~0.915),精确率为0.932(95%CI0.938~0.943),F1值为0.918(95%CI为0.923~0.928),AUC为0.907(95%CI0.909~0.915);LSTM模型准确率为0.931(95%CI0.934~0.938),召回率为0.890(95%CI0.887~0.894),精确率为0.924(95%CI0.927~0.932),F1值为0.905(95%CI0.905~0.911),AUC为0.890(95%CI0.887~0.894)。
结论:本研究应用基于深度学习的自然语言处理模型分类中文医学相关文本进行具有良好的表现,中文社交媒体中可反应出群众对疾病的关注点、认知情况及医患沟通效果,未来可能在公共卫生监控中起到重要作用。