【摘 要】
:
随着数字化医院的建设,包含着越来越多的与患者健康状况相关的医疗知识的电子病历成为了“医疗大数据”的主要来源,通过自然语言处理技术提取和挖掘电子病历中的命名实体及有效信息,能够为医疗产业发展人工智能奠定坚实的基础。而中文电子病历领域仍然缺乏大规模的标注数据及标准的语料库,且标注语料需要专业的医护人员进行,既耗费人力,成本也相对较高,所以本文基于小规模的肺部电子病历的标注语料,引入多特征融合的条件随机
论文部分内容阅读
随着数字化医院的建设,包含着越来越多的与患者健康状况相关的医疗知识的电子病历成为了“医疗大数据”的主要来源,通过自然语言处理技术提取和挖掘电子病历中的命名实体及有效信息,能够为医疗产业发展人工智能奠定坚实的基础。而中文电子病历领域仍然缺乏大规模的标注数据及标准的语料库,且标注语料需要专业的医护人员进行,既耗费人力,成本也相对较高,所以本文基于小规模的肺部电子病历的标注语料,引入多特征融合的条件随机场模型及双向长短时神经网络进行中文电子病历的命名实体识别研究。
基于统计机器学习的命名实体识别模型中条件随机场一直受到学者青睐,它将命名实体识别任务转化为一个序列标注的问题,且被证明在多个实体识别领域识别效果不错。但是在实体识别的过程中,特征能够对识别效果产生很大的影响,在命名实体识别任务中可能包括字典特征,字词特征,上下文特征,内部组成特征等,基于文本特点构建特征模板能够提升模型的性能,所以本文根据中文肺部电子病历的内部实体构词特点和外部可用资源提出了一套合适的特征模板,再融合条件随机场模型,使命名实体识别达到了不错的效果。同时,本文通过构建条件随机场和双向长短时神经网络融合模型,并尝试在神经网络中加入外部知识,扩展神经网络命名实体识别的特征,将其与多特征融合的条件随机场模型进行对比,探究基于多特征融合的统计机器学习方法和模型自动进行识别的神经网络学习方法在电子病历实体识别效果上的差异,寻找更优的实体识别模型。
本文通过对肺部电子病历的特征挖掘,构建了肺部CT医疗文本的特征模板,并通过实验验证了特征对于CRF模型识别性能的有效性,选择出了最佳的特征组合。同时构建了基于字词联合输入的BiLSTM-CRF模型,使得F1值达到了89%以上,最后将以上两种模型进行实验对比,分析讨论了模型选择的问题。
其他文献
全球数字贸易产业已经进入了飞速发展的阶段。从最基本的角度来看,数字贸易是通过跨越国境的数据传输来支撑的。数据是一种生产手段,是一种可以交易的资产,也是服务贸易的手段。在数据流动问题上,出于维护本国网络空间安全的考虑,俄罗斯制定了世界上最为严密的数据流动限制性政策。 通过参考大量的文献以及ECIPE数据库资料,本文在对俄罗斯实施的数据流动限制措施类别和相关立法进行梳理的基础上,归纳出俄罗斯数据政策
自迈克尔·波特教授在1985年提出“价值链”这一概念以来,全球化的迅猛发展逐步推进了价值链体系在国际间的分工与协作。全球价值链的诞生与延伸伴随着世界经济深入发展的全过程。价值链分工模式打造了全新的世界贸易格局,自然也对传统意义上的贸易政策和规则提出新的要求。在新的背景下,为了应对更高水平贸易规则的挑战,各经济体间积极签署自由贸易协定(FTA),寻求融入全球价值链的新途径。自由贸易协定在数量上不断增
近年来,全球部分海洋被过度开发,渔业资源面临衰竭,而WTO各成员的渔业补贴无疑加速了渔业资源的恶化过程。有鉴于此,2001年多哈部长会议开启了渔业补贴新规则谈判,会上要求各成员澄清和改善渔业补贴规则,并考虑这一议题对发展中国家的影响,这成为持续近20年的渔业补贴谈判的开端。之后,WTO成员就渔业补贴问题进行了多次谈判,但由于存在核心利益上的不一致,至今未达成有效的谈判协议文本。直到2015年,纽约
数字贸易近年来发展迅速,已经成为国际贸易领域中一种非常重要的贸易形式。基于2000-2014年世界投入产出数据库(WIOD)、WTO的RTA数据库和CEPII数据库等数据,在测算数字贸易和规制融合指标的基础上,本文实证考察了规制融合对数字贸易的影响。结果表明,规制融合会促进数字贸易的开展。规制融合降低了数字贸易的交易成本并提高了数字内容行业的可贸易性。进一步发现,规制融合对不同数字贸易行业产生的影
作为中国“互联网+医疗”主要组成部分,在线医疗社区平台向人们提供了一个能够搜寻健康信息、交流疾病相关治疗经验和寻求情感支持的重要在线场所,其中在线医疗健康咨询服务是最为主要的服务方式之一。但是作为考核和保证服务质量的关键环节,服务质量评价目前存在评价率低、恶意差评等问题,这使得医生线上名誉和利益难以得到保障,患者也无法寻找到合适的医生进行咨询服务,严重阻碍了医患线上信任、医疗信息交互和在线医疗健康
由于数据量的快速增长以及人工标记样本成本增加,大大限制了监督学习的应用。在客户流失预测领域,目前研究者多采用监督学习方法进行客户流失预测,需要大量的带标签样本进行训练,但标记样本的过程耗时且耗力影响了模型在实际场景中的应用。本文利用标签比例学习方法探索解决移动客户流失问题,通过样本分包的标签比例信息来训练模型,无需使用单个样本的标签信息,同时解决该方法在移动客户流失预测过程中的两个问题。一方面,实
家庭健康服务路径规划与预约调度问题(HHCRSP)是近年来备受关注的一个领域,简单来说HHCRSP是指设计一套供护理服务者在客户家中执行健康护理服务的路径规划和预约调度方案,总体目标是降低总成本并确保服务质量。 目前不同学者针对HHCRSP问题提出了多种数学模型和求解方法,前人研究基本采用概率论或者模糊理论来处理,而HHCRSP问题中存在很多不确定因素,如变动的服务时间窗(在服务过程中存在着延长
数据量和数据维度的增加产生了许多大规模的数据集,数据噪声的存在,给处理这些数据的算法带来了精度和效率上的挑战。另一方面,数据中大量特征往往是相互关联的,非负矩阵分解(Non-negative Matrix Factorization,NMF)为处理大规模数据提供了一种新的途径,可以对原始数据进行特征提取,提高学习算法的准确率。值得注意的是,样本间几何空间结构和部分已知标签信息的加入会给模型带来强化
随着互联网技术的不断革新,一种新型的用户交互功能“弹幕”异军突起,成为了当下主流的用户表达观点的方式。弹幕通常表现为用户对某一特定时间点处视频内容的简短评价,相较于在线评论来说,弹幕的体量非常大且更直观地表达了用户的观感。如何通过弹幕获取用户兴趣也引起了产业界和学术界的关注。 本文针对传统文化题材纪录片这一领域,从弹幕视角来探究用户关注的纪录片要素,为纪录片观众的兴趣建模提供基础。本文首先根据弹
知识产权的保护影响科研人员的创造力和企业的研发动力,在新时代经济背景之下,知识产权的保护是创新的重要驱动力和法律保障。专利侵权预警是知识产权保护的重要手段,也是科技型企业赖以生存的重要依靠,在实际生产经营活动中保护科技型企业直接和间接的经济利益和合法收益。近年来,随着专利申请量的爆发式增长,在专利保护机制尚未完善的背景下,产生了大量的关于科技型企业的专利诉讼案件。大量的专利侵权诉讼案件数据为挖掘、