论文部分内容阅读
医疗问答系统一直是智能医疗发展的重要内容,也是自然语言处理领域的研究热点。为了用准确、简洁的文本回答用户提出的医疗问题,满足用户尽快得到正确的答案的需求,医疗问答系统需要有较高的执行效率。而中文分词的准确率直接影响着问答系统的执行效率,提高中文分词的准确率可以从根本上提高医疗问答系统的答题准确率并缩短答题时间。本文研究了LSTM-CRF组合网络提高中文分词的准确率和分词速率,实现自动分词,不依赖人工标注特征,研究的内容包括:医疗文本数据的采集存储、设计融合的神经网络分词结构以及测试基于改进后中文分词算法对医疗问答系统执行率的影响。主要研究成果如下:采集并构建了医疗文本数据集,通过量化存储搜集的疾病信息和医疗问答信息,构建了29610条疾病语料信息和23632对问答信息,其中包含39个科室的9856个疾病。设计了基于LSTM和CRF模型的融合网络中文分词算法。首先对两个LSTM神经网络进行反向连接,然后调节双层网络的权重矩阵,对前后序列信息设置不同的选择权重,通过上下文关系特征向量的线性变换与CRF标注推理层融合。同时,对BI-LSTM-CRF组合网络词位标注增加到6词位标注集。基于医疗数据集和MSRA数据集进行对比分词实验,重新调节融合网络的参数,且网络层权重值为0.85时,BI-LSTM-CRF网络对医疗文本分词的准确率达到了90.5%,适用于医疗文本分词。设计了解决BI-LSTM-CRF网络缺陷的两个模块,最终形成改进后LSTMCRF分词网络。由于LSTM无法约束前后关系,很容易造成信息缺失,导致分词准确率不高。于是,1)在BI-LSTM和CRF层中间加入了Importance层,计算输入和输出的相关度,获得文本的整体特征。2)对输入网络模型的文本向量进行去噪,使得固定窗口内的字嵌入以一定概率出现,减少左右联合字嵌入的作用。改进后LSTM-CRF分词算法在单个语料以及多个混合语料集上对比实验,在单个数据集上的准确率提高到94.7%,在多个混合语料集上的分词准确率提高到96.3%。实验表明改进后LSTM-CRF分词算法准确率更高,并在大规模数据集上有较好的泛化性能。测试了不同中文分词算法在医疗FAQ问答系统性能表现。基于同一个医疗问答数据集,在三个常用分词算法和本文设计的分词算法下分别对医疗FAQ问答系统进行训练。通过时间复杂度、返回答案的准确率和ROC曲线对实验结果进行分析:医疗FAQ问答系统在本文设计的改进后LSTM-CRF组合网络分词模型下,答题时间消耗10s,减少了4s;正确答案的准确率为91%,提高了5.2%;ROC曲线与坐标轴包围的面积更大。实验表明本文研究的中文分词算法改进了医疗问答系统的答题的正确率,能提高医疗问答系统的执行效率。