基于多预料对抗学习的中文分词技术在电子病历中的应用研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:javaoak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着医疗信息化在国内的不断推进,顶级医疗机构在过去十年间已积累了大量电子病历。然而,电子病历中很大一部分字段仍以非结构化文本的形式保存,难以进行二次利用。自然语言处理技术是解决这一问题的一把关键钥匙,而中文分词算法则是自然语言处理技术的基石。基于监督学习的中文分词算法依赖于一定数量的标注语料进行模型的训练,而电子病历文本的词汇构成及分布与通用领域存在着较大差异,这也造成了电子病历文本标注难度高,训练语料匮乏等问题。也正因此,目前成熟的分词模型与算法尚无法完全适用于医疗领域的相关应用中。  本文提出了一种基于多语料对抗学习的中文分词算法。该模型可以利用大规模公开的通用领域分词语料,在小规模的电子病历语料的辅助下,完成分词模型的领域迁移。该算法在降低了标注代价的同时,有效地提高了中文分词在医疗领域的识别精度。首先,本文设计了门控机制以改进现有的多语料学习框架,更好地通过不同上下文内容,进行共享特征的选择;其次采取了对抗学习策略,并引入了新的对抗损失函数,解决电子病历语料在训练过程中因样本不平衡而导致的“对抗失效”问题,进一步提升了模型整体的精度及泛化能力。实验结果表明,本文方法取得了87.01%的准确率,86.64%的召回率以及86.82%的F1值,均高于现有的监督学习方法以及开源的中文分词工具。
其他文献
分子对接旨在预测研发许多疾病药物的先导化合物,这在生物信息学的药物设计过程中有着举足轻重的作用。然而,其需要巨大的计算成本。为此,缩短分子对接时间消耗将有效的加速药物
随着网络技术与应用的不断发展,计算机网络在我们的日常生活中已经变得越来越普遍。这些网络的发展使得大到国家经济命脉小到个人日常生活严重依赖于计算机网络,因此网络运行的
电子病历文本中的时间信息,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用,因而时间信息抽取在医学领域中受到越来越多的关注。时间实体抽取难点在于:电
RadM造型系统是我们针对虚拟现实场景造型和虚拟角色造型的需要,构造的一个界面简洁友好、操作方便的造型系统。为了使该系统输出的模型能够以更优化的形式提供给大多数的实时
随着互联网的快速发展,信息安全问题显得日益重要。相关网络安全协议应运而生,而它们的基础都是安全高效的加密算法,椭圆曲线加密系统与其他公钥加密系统相比有许多优点,受到国内
该论文从计算机视觉的几何理论出发,针对计算机视觉中的一些热点问题进行了研究.论文的主要研究内容及研究成果如下:●首先对图像匹配问题进行了研究.图像匹配是立体视觉、运
元搜索引擎通常被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一
医疗术语的翻译对于科技交流十分必要。然而,由于医疗术语数量巨大,并有一定的组合特性,不能完全由字典覆盖。此外,医疗术语的翻译既有领域特性,又有句法特性,具有一定的难度。  
显露模式(Emerging Patterns,EPs)是指那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们能够捕获数据库中两个数据集之间的多个属性上的差异,可以用来建立分类器。
近年来,随着社交媒体的快速发展,越来越多的人倾向在社交平台发布消息,表达自己的意见,传达自身的情感。通过汇总这些信息可以分析主体的情感倾向,从而进行舆情监控和市场营销。同