医疗问答系统的中文分词算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：sophie8112

【摘要】

：

【作者】

：

徐玮

【出处】

：

华中科技大学

【发表日期】

：

2020年03期

【关键词】

：

中文分词数据爬虫长短时间记忆神经网络条件随机场医疗问答系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

医疗问答系统一直是智能医疗发展的重要内容,也是自然语言处理领域的研究热点。为了用准确、简洁的文本回答用户提出的医疗问题,满足用户尽快得到正确的答案的需求,医疗问答系统需要有较高的执行效率。而中文分词的准确率直接影响着问答系统的执行效率,提高中文分词的准确率可以从根本上提高医疗问答系统的答题准确率并缩短答题时间。本文研究了LSTM-CRF组合网络提高中文分词的准确率和分词速率,实现自动分词,不依赖人工标注特征,研究的内容包括:医疗文本数据的采集存储、设计融合的神经网络分词结构以及测试基于改进后中文分词算法对医疗问答系统执行率的影响。主要研究成果如下:采集并构建了医疗文本数据集,通过量化存储搜集的疾病信息和医疗问答信息,构建了29610条疾病语料信息和23632对问答信息,其中包含39个科室的9856个疾病。设计了基于LSTM和CRF模型的融合网络中文分词算法。首先对两个LSTM神经网络进行反向连接,然后调节双层网络的权重矩阵,对前后序列信息设置不同的选择权重,通过上下文关系特征向量的线性变换与CRF标注推理层融合。同时,对BI-LSTM-CRF组合网络词位标注增加到6词位标注集。基于医疗数据集和MSRA数据集进行对比分词实验,重新调节融合网络的参数,且网络层权重值为0.85时,BI-LSTM-CRF网络对医疗文本分词的准确率达到了90.5%,适用于医疗文本分词。设计了解决BI-LSTM-CRF网络缺陷的两个模块,最终形成改进后LSTMCRF分词网络。由于LSTM无法约束前后关系,很容易造成信息缺失,导致分词准确率不高。于是,1)在BI-LSTM和CRF层中间加入了Importance层,计算输入和输出的相关度,获得文本的整体特征。2)对输入网络模型的文本向量进行去噪,使得固定窗口内的字嵌入以一定概率出现,减少左右联合字嵌入的作用。改进后LSTM-CRF分词算法在单个语料以及多个混合语料集上对比实验,在单个数据集上的准确率提高到94.7%,在多个混合语料集上的分词准确率提高到96.3%。实验表明改进后LSTM-CRF分词算法准确率更高,并在大规模数据集上有较好的泛化性能。测试了不同中文分词算法在医疗FAQ问答系统性能表现。基于同一个医疗问答数据集,在三个常用分词算法和本文设计的分词算法下分别对医疗FAQ问答系统进行训练。通过时间复杂度、返回答案的准确率和ROC曲线对实验结果进行分析:医疗FAQ问答系统在本文设计的改进后LSTM-CRF组合网络分词模型下,答题时间消耗10s,减少了4s;正确答案的准确率为91%,提高了5.2%;ROC曲线与坐标轴包围的面积更大。实验表明本文研究的中文分词算法改进了医疗问答系统的答题的正确率,能提高医疗问答系统的执行效率。

其他文献

欧盟玩具安全指令将加严重金属铅限量

2017年3月27日，欧盟部长理事会采纳关于玩具安全指令附件II的修订内容，为适应技术进步，玩具中重金属铅的迁移量将进一步降低。

期刊

安全指令金属铅

康复训练结合心理康复对脑卒中偏瘫患者上肢运动功能的影响

目的对康复训练结合心理康复对脑卒中偏瘫患者上肢运动功能的影响进行临床分析。方法选取本院2018年1月～2019年6月收治的100例脑卒中偏瘫患者为研究对象,随机分配此100例分别

期刊

康复训练心理康复训练脑卒中偏瘫上肢恢复

基于深度学习的实体关系抽取方法研究

实体关系抽取可以从互联网海量数据中自动抽取知识形成结构化的数据,减少人工整理数据和提取知识的工作量,具有重要意义。传统的实体关系抽取方法多数都依赖于自然语言处理工具,因此实体关系抽取的性能严重依赖于自然语言处理工具的水平。使用自然语言处理工具所带来的误差,还可能会干扰实体关系抽取过程,使得模型的抽取性能下降。研究了基于深度学习的实体关系抽取方法,研究过程中没有借助自然语言处理工具对文本进行处理,在

学位

实体关系抽取词向量深度学习卷积神经网络循环神经网络

基于网络权重的多社团网络结构划分算法

利用社团网络的统计特性，提出一种适于社团网络线性时间复杂度的多社团识别算法。构造复杂网络中节点的权重计算函数，进而生成计算序列，用迭代算法对复杂网络各种类型的节点进行

期刊

网络挖掘网络社团社团划分

留渣技术在转炉炼钢中的应用及发展

转炉炼钢留渣作为一种能够显著降低辅料消耗、提高钢液收得率的技术,随着转炉技术的发展,得到很好的应用。因此,综述了留渣技术的基本原理,以及需要控制的工艺参数,并对该技

期刊

转炉炼钢留渣渣料量

英汉语言和文化差别在歌词改译中的体现——以《女人花》及其英文版为例

通过对《女人花》及其英文版进行对比研究,分析英汉两种语言和文化的差异,探讨歌词改译过程中可能存在的缺损与获得的补偿:改译后修辞格大量缺失、原有的意境被破坏、人物形

期刊

《女人花》英汉语言文化歌词改译文学性音乐性

信息安全企业的渠道战略(下篇)

在上篇文章中,从渠道在公司的战略重要性、提倡竞争等几个方面谈了信息安全企业的渠道战略。下篇将围绕渠道的复合化、本地化、增值服务、渠道与品牌的关系展开论述。复合渠

期刊

信息安全企业共生共存渠道商供应链分销商复合化神州数码增值服务商本地化策略代理商

国外脑卒中患者重返工作岗位的干预研究进展

重返工作岗位(Return to work,RTW)指患者因伤病而离开工作岗位后又重新回到工作岗位上,并继续承担相应的工作任务的行为[1]。RTW是脑卒中患者康复和回归正常生活的重要标志[

期刊

脑卒中重返工作岗位干预社会参与

园校合作中幼儿园主体地位的发挥——基于壁炉现象的启示

壁炉现象是校企合作中的一种“企业冷、学校热”的现象，其根源在于“学校单一主体”使然。园校合作中同样存在这一现象，“高校高、幼儿园低”的不平等地位以及“学校单一主体”

期刊

壁炉现象园校合作破解幼儿园主体

医疗问答系统的中文分词算法研究

其他学术论文