基于BERT语义嵌入的肺部疾病文本分析及其应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：sk_chin

【摘要】

：

【作者】

：

王小也

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

肺部疾病多标签文本分类关键信息抽取问答系统预训练模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在医疗领域中大量的专业医学知识以文本的形式存储,利用自然语言处理算法对其进行分析处理能够帮助医生减轻工作负担。肺癌领域的前沿趋势预测可以为医生未来研究方向的规划提供参考,抽取医疗文本中的关键信息能够协助医生阅读文献,自动问答系统可以在不增加医生负担的情况下帮助大众查询简单的医疗问题。本文从以上几个需求出发,将自然语言处理技术应用于肺部疾病文本分析中以缓解医疗系统的压力。本文的主要研究工作如下:针对肺癌领域的前沿趋势预测问题,通过对文献研究方向的分类,结合文献的发布时间信息,计算得到该研究方向下论文数目占比随时间变化的时序数据,并以此表示该研究方向的热度变化情况。其中重点介绍了多标签文本分类网络的构建,本文根据医疗数据的特点提出了改进的分类网络。实验结果表明,该网络结构相比同类模型具有更低的汉明损失和更高的F1得分,分别为0.0463和83.87%。最后本文还探讨了不同步长对时序分类网络效果的影响。实验结果表明当步长为6时预测效果最好,上升和下降的F1得分均高于89%。以研究内容一中文本分类任务为基础,选择与肺癌治疗相关的文献进行信息抽取。根据待抽取信息在文本中表现形式的不同,分为实体和三元组两类。通过改进标注机制的方法,构建实体、三元组联合抽取网络,有效避免误差累积的同时解决了三元组抽取任务中实体重叠的问题。实验结果表明,该方法在实体抽取任务中的F1得分为74.36%,在三元组抽取任务中F1得分为64.80%,对比分阶段抽取模式网络整体抽取效果更佳。最后为了直观的展示抽取结果,本文还编写了一套自动填表程序,将文献中关键信息的抽取结果以表格的形式呈现。新冠主题的问答系统可以帮助群众解答关于新型冠状病毒的科普性问题,加强大众对疫情的认知,有利于全民抗疫工作的推进。本文从实际需求出发,以现有新冠知识图谱为基础,通过模板生成的方式构建了一个新冠主题的问答数据集。分别训练命名实体识别网络和关系检测网络,实现对输入问句的解析。根据问句解析模块的输出结果在知识图谱进行检索,检索所得即为对输入问句的回复。最后,为了便于未来的推广使用,本文在问答功能实现的基础上,设计并搭建了一套问答系统的网页界面。

其他文献

多源领域自适应方法研究与应用

随着市场经济与科学技术的迅速发展,在人工智能的强大引擎驱动下,井喷式的出现了大量的机器学习应用场景。而监督学习表现良好则需要大量的有标签的标注数据,该任务开销庞大且繁琐无聊,故迁移学习在智能时代受到越来越多的关注。在迁移学习的相关技术中,多源领域自适应是重要的关键技术之一。多源领域自适应研究如何通过利用多个源领域知识学习目标领域,加强领域自适应能力,缓解了负向迁移。近年来,得益于人工智能和计算机视

学位

多源领域自适应迁移学习关系自适应生成对抗网络

激光双目三维成像关键技术研究

近年来,通过计算机视觉的方法对目标物体表面进行三维重建一直是研究热点。本文以市场上常见的激光双目三维成像系统为研究对象,对该系统中涉及的关键技术:立体匹配和点云拼接,展开深入的研究,提出了重建过程中的关键步骤的优化思路,并根据优化的思路方法设计了针对性的实验来验证算法的有效性。具体来说,在立体匹配的激光光条中心提取的阶段,提出了利用方向模板的方法来优化灰度重心法在激光光条走向变化较大时的光条中心提

学位

双目视觉三维重建立体匹配激光光条中心提取点云拼接

基于语义分割的电镜图像处理及纳米团聚识别研究

纳米电介质是一种具有性能可编辑潜力的新型电介质,其通过在聚合物基中均匀填充纳米颗粒可以获得优异的介电特性,被认为是未来最有潜力的电介质材料。然而,纳米填料团聚会导致纳米电介质无法达到预期的性能,甚至导致纳米电介质性能的严重退化。目前,团聚对材料的影响程度很难量化,是一个亟待解决的难题。使用扫描电子显微镜（SEM）拍摄纳米电介质图像并进行处理是一种分析团聚现象的有效手段。然而,受限于该领域图像处理的

学位

纳米电介质团聚语义分割电子显微镜图像卷积神经网络

基于摄影法的叶面积指数提取算法研究

叶面积指数（Leaf Area Index,LAI）是衡量植物生长状况的一个重要参数。它也是农业科学、生态科学、遥感科学中众多数学模型的基本参数。叶面积指数（LAI）控制着水、营养和碳循环中的许多生物和物理过程,被定义为单位地表面积的单侧绿叶面积。针对当前主流的LAI间接测量法具有误差大,精度低,稳定性低等缺点。本课题基于摄影法,将计算机视觉技术应用到LAI测量中,开展从单视角顶视法和多视角精确构

学位

叶面积指数单视角顶视法三维重建平滑处理茎部影响

基于序列约束的视觉定位算法研究

视觉定位技术作为移动机器人自主导航的核心技术,在赋能空间位置感知方面有着重要的价值。不对环境做任何限制,只依靠运动目标携带的相机就可实现定位功能的特点,使得视觉定位系统可广泛地应用于国防领域、航空航天领域、工业领域、日常生活等场景。尤其对于卫星信号缺失,有源定位无法部署或大范围覆盖的复杂环境,视觉定位更是凭借应用场景丰富,载体类型不限,成本可控的优点,在工业界和学术界引起了广泛的兴趣。视觉里程计（

学位

视觉里程计序列约束深度学习注意力机制位姿估计

基于Anchor-Free的航拍图像目标检测效果评估

航拍图像的目标检测是计算机视觉研究领域的前沿课题之一,在诸如城市土地使用类型分析,交通监测和农作物生长监测等领域都取得了广泛应用。目前应用最广泛的目标检测方法大多都基于深度学习,其中又根据是否使用一系列预先铺设好的锚框（Anchor）分为Anchor-Based和Anchor-Free两种类型,常见的Faster-RCNN、Cascade-RCNN等都属于Anchor-Based一类。最近兴起的A

学位

航拍图像目标检测Anchor-Free

基于用户出行偏好的兴趣点时序推荐研究

近年来,移动互联网技术的快速进步和智能设备的广泛普及使得基于位置的社交网络平台得到了空前的发展。位置社交网络可以将虚拟的网络社区和真实的物理世界联系在一起,从而使用户能够通过移动设备将自己喜欢的地点分享到网络上,帮助其他用户发现有趣的地点。因此,向用户推荐感兴趣的地点成为了一个热门的研究方向。兴趣点推荐系统主要是通过用户的历史签到数据来获取用户的出行偏好,以此向用户推荐地点。但现有的关于兴趣点推荐

学位

位置社交网络兴趣点推荐时序点过程图神经网络

多领域文本情感分析算法研究

在实际应用中,情感分析通常是与领域相关的,由于领域之间的语义差异,相同的词在不同领域所表达的情感极性可能是矛盾的。因此,在特定领域训练好的模型,可能无法在另外一个领域很好的运行。另外,领域之间可能存在公共信息,为每个领域都训练单独的情感分类器会显得比较冗余。因此本文的工作以此作为出发点,旨在研究如何充分利用多个领域有限的训练数据来提高所有领域的分类性能。与此同时,本文会聚焦于跨领域文本情感分析场景

学位

情感分析多任务学习对抗训练预训练模型自然语言处理

基于用户行为分析的个性化推荐算法的研究

随着互联网的飞速发展,网络数据种类和规模极速增长,用户难以发掘出感兴趣的物品。为解决“信息超载”的问题,个性化推荐算法被广泛地研究和使用。数据稀疏程度较高且数据规模较大对推荐算法的准确率和推荐效率提出了挑战。研究高效准确的推荐算法对提升用户使用体验和企业盈利具有重要意义。本文从用户行为角度出发,在协同过滤算法的基础上针对数据稀疏性、推荐系统的可扩展性和近邻搜索的高效性等问题提出了对应的解决方案:1

学位

协同过滤相似度局部敏感哈希OPTICS聚类矩阵分解

登机桥自动调平模式下机舱位移检测技术研究

登机桥在对接舱门后,飞机会随着自身的载重变化发生高度变化,因此登机桥必须工作在自动调平模式以避免和飞机舱门发生碰撞。登机桥通过调平轮上的编码器实现此功能,但该机构会发生假接触,打滑等问题,每次对接完成后都需要桥手进行检查。目前无人驾驶登机桥的研究在替代桥手的同时也引入了新的研究课题,即如何更准确且智能的检测机舱位移。本论文分析基于视觉的无靶标位移测量方法,主要研究了基于稀疏光流和特征点匹配的机舱位

学位

位移测量稀疏光流特征点匹配平移变换融合

基于BERT语义嵌入的肺部疾病文本分析及其应用

其他学术论文