基于深度学习的自然语言处理对中文社交媒体中近视疾病的分析研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:oracle_1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本课题旨在通过研究中文社交媒体(“百度贴吧”和“新浪微博”)与近视相关的发帖、回帖、评论和微博,应用深度学习技术进行情感倾向分类以及文本分类,并结合词频分析,了解在不同主题分类下不同社交媒体平台用户的情感需求以及关注重点,探索社交媒体对传统医疗服务的促进和补充作用。方法:本研究为回顾性研究。使用网络爬虫爬取收集贴吧的“近视吧”的用户的发帖、回帖和评论以及包含“近视”关键词的微博,筛选出2016年1月至2021年6月发布的与近视相关的内容,按入组及排除标准筛选后,构建数据集对深度学习预训练模型镜像进行微调,文本分类使用基于知识增强的语义表示预训练模型ERNIE,情感分类使用情感预训练模型SKEP,采用准确率、损失值、F1分数、混淆矩阵、受试者操作特征曲线以及对应的曲线下的面积评估模型分类能力。模型微调完成后对数据进行文本分类和情感分类预测,并通过词法分析模型LAC进行分词,统计并可视化词频。分析不同主题分类下的内容特点及用户情感倾向。结果:贴吧“近视吧”共抓取到68633条有效内容,用户发帖、回帖共39884条(58.1%),评论共28749条(41.9%)。微博共抓取到1305385条包含“近视”关键词的有效内容。完成模型微调后,贴吧文本分类ERNIE模型的准确率为0.75,损失值为0.79,宏平均AUC为0.94,微平均AUC为0.95;微博文本分类ERNIE模型准确率为0.87,损失值为0.39,宏平均AUC为0.98,微平均AUC为0.99。SKEP模型准确率为0.87,损失值为0.39,宏平均AUC为0.96,微平均AUC为0.97。贴吧数量最多的主题类型为咨询求助类(14271,20.8%),情感倾向分类上数量最多的类型为中性(37132,54.1%)。微博数量最多的主题类型为问答科普类(332650,25.5%),情感倾向分类以中性为主,体验经历类主要为积极情绪(89667,45.4%),观点情绪类微博主要为消极情绪(160673,55.7%)。描述近视病情和近视治疗方式的词汇出现次数最高,贴吧最多词语为描述近视病情词汇,微博则为近视治疗方式词汇。在词频前二十位词语中,“后遗症”只出现在贴吧。与近视治疗方式相关出现最多的词语为“手术”,然后为“眼镜”,但两词出现频次之比微博(2.1,512591/246772)要相对高于贴吧(1.4,18607/9425)。结论:在本研究中,我们认为基于深度学习的自然语言处理预训练模型在国内两大社交媒体上近视相关数据的分类任务中具有较良好的性能,可应用于处理大批量近视相关的社交媒体数据。贴吧“近视吧”和微博可为患者在线提供近视相关信息作为传统医疗服务的补充,同时为了解用户在近视疾病中的需求和认知情况提供了渠道,这可用于指导临床工作和患者的健康促进工作。
其他文献
少数民族题材电影作为中国电影的重要组成部分,在形塑“共同体”意识、增强民族凝聚力等方面发挥着独特作用。以英雄叙事角度切入,拟廓清在“中华民族共同体”迈向“人类命运共同体”的时代命题下,少数民族题材电影通过英雄叙事打造“集体记忆”、营造“共同情感”,进而促进国内外受众对其产生文化认同与情感认同,以期为少数民族题材电影创作与研究提供新的着眼点和借力点。
期刊
杂原子掺杂能够改善碳材料电荷分布、表面浸润性和赋予其赝电容,成为目前改善碳基超级电容器性能的有效策略。尤其,多元掺杂有利于增加电化学活性位点数量和产生协同作用,然而杂原子掺杂碳材料的合成总是涉及高温热处理过程,常常导致官能团的不可控转化,尤其是多种杂原子共同掺杂过程使得官能团精确控制变得更加困难,这大幅抑制了电化学构效关系的研究和性能提升。本文以氟代氨基苯酚-甲醛共聚树脂为前驱体,提出低温部分脱氟
学位
红粘土是指在我国古近纪末期广泛堆积的土状堆积物,具有一定的地域性。由于红粘土具有特殊的性质,为满足大连市金普新区双D港发展建设的需要,对该地区的红粘土进行深入研究。本论文对大连市金普新区双D港红粘土进行研究分析。通过粒度试验和地球化学元素试验以及室内外土工试验,分析红粘土的物理力学特征。最后,运用SPSS软件的Pearson相关性分析来进一步分析粒度特征和地球化学元素特征分别和工程特性之间的相关性
学位
蒸汽泄漏容易扩散、危害巨大,对处于早期的蒸汽泄漏及时进行识别至关重要。蒸汽形成的关键在于其高于环境的温度特性,利用红外摄像技术对蒸汽温度场进行图像采集和分析有利于抓住泄漏蒸汽的本质特征,从根本上解决泄漏辨识问题。在复杂工业现场,蒸汽温度场很容易受到热噪干扰,对特征获取与辨识造成很大困难。本文从蒸汽发生发展机理出发研究温度场特性,探索红外温度场的高清化表征与辨识方法,主要内容包括:(1)建立蒸汽泄漏
学位
随着信息技术的飞速发展,社交网络已经成为人们相互沟通、共享信息、分享生活的主要平台。社交网络中影响力最大化问题是指在特定的网络传播模型下,找到一组节点使得这组节点的最终影响力规模最大化,可应用于影响力传播分析、病毒式营销、舆情控制、案件侦破等场景,受到学术研究和应用领域的广泛关注。解决影响力最大化问题的核心是如何快速精准地识别出指定规模且具有影响力的节点。本文在传统影响力节点识别算法的基础上,提出
学位
无源辐射制冷是指将物体的热量以电磁波的方式通过大气窗口传递到低温宇宙中,实现被动降温。新型人工电磁材料具有自然界材料不具备的特殊电磁特性,被广泛应用于辐射制冷器件的设计中。目前对于无源辐射制冷研究依然存在许多问题,比如日间辐射制冷性能不理想、结构设计过于依赖经验,设计速度较慢、理论验证较匮乏、结构尺寸较难缩减等。本文主要针对上述问题,围绕新型人工电磁材料展开研究:1、针对目前无源辐射制冷器件材料局
学位
目的:应用激光扫描眼底相机SLO来探究近视患者视网膜血氧饱和度及视网膜血管直径的变化。方法:所有研究对象来源于汕头国际眼科中心的单纯近视患者。血氧饱和度测量组共纳入61只眼,视网膜血管直径测量组共纳入80只眼,依据研究对象的等效球镜SE进行分组,将血氧饱和度测量组分为正常对照组(-0.5D<SE<+0.5D)、非高度近视组(-6.0D<SE≤-0.5D)及高度近视组(SE≤-6.0D),将视网膜血
学位
目的:探究体质指数(body mass index,BMI)及PXDNL基因与原发性闭角型青光眼(primary angle-closure glaucoma,PACG)的关系。方法:本研究共纳入1805名PACG患者和2895名对照者,其中临床分析纳入了742名PACG患者和1585名对照者,基因关联分析纳入了1182名PACG患者和1415名对照者。所有参与者均接受了详细的问诊、完整的眼科检查
学位
无线充电与有线充电相比更加方便、安全,因此得到了广泛的应用,比如电动小车、无人机、电动自行车、巡检机器人等中小功率产品使用频繁并且耗电快,经常需要充电。使用无线充电技术可以无需人工插线,只需放置在相应的充电位置即可自行充电,与有线充电相比更加快速、方便、安全。然而,充电平台的收发端之间偏移会影响系统参数,从而导致电路损耗增加,减少功率输出。所以,本文针对磁耦合谐振技术应用于中小无线充电系统时如何提
学位
<正>腰痛伴神经根性疼痛又称为腰腿疼痛、下背痛、下腰痛等,是临床上常见的一种症状,也是成年人致残的常见原因,其终生患病率为40%~60%[1]。腰痛伴神经根性疼痛按病程持续时间分为急性、亚急性和慢性,患者通常使用按摩、针灸等非药物治疗,目标是快速缓解症状[2]。对于非药物治疗无法缓解疼痛的患者,建议使用非甾体类抗炎药镇痛。然而,临床上慢性、顽固性腰痛伴神经根性疼痛并不少见,常见于经过健康教育、心理
期刊