论文部分内容阅读
中医医案是中医医师临床诊疗的最直接证据,记录了患者症状、医师诊断结果等信息。对中医医案中的诊疗信息进行提取、分析和利用对推动中医发展具有重要意义。若要在海量的中医医案中更高效地挖掘出重要的诊疗信息就需要利用自然语言处理技术。中文分词作为自然语言处理技术的关键步骤,分词的效果对中医文本信息处理具有重要的影响。然而中医文本中歧义词的存在严重影响中医文本分词的精度,阻碍中医信息处理技术的发展。为消解中医文本中存在的组合型歧义字段以及提高中医文本分词精度,本文分别构建了中医文本消歧模型和中医文本分词模型,并在来自于山东中医药大学第二附属医院2017年-2019年收集的2万份医案上验证本文所提出的模型的有效性和高效性。本文主要工作如下所示:(1)对中医医案规范化处理并分析中医文本特点。首先剔除中医医案数据集中缺少四诊信息以及文本格式错乱的医案,统一文本格式。然后根据《医疗记录编写基本规则》的要求,纠正中医医案中的错别字,同时对医案中存在的通假字进行修改。其次在保留中医的个性化特色的基础上对中医医案中症状、症候规范化处理。最后结合中医文本的语言与结构特点,分析中医医案的文本特色及用词规律。(2)将双向长短期记忆条件随机场(BI-LSTM-CRF)算法应用于中医文本分词中,构建基于BI-LSTM-CRF中医文本分词模型。首先将获取到的中医医案集规范化处理,提取出中医医案中的四诊信息作为构建分词模型的训练和测试语料。然后使用word2vec方法将实验数据向量化,将文本向量输入进BI-LSTM神经网络,利用包含前向和后向两个方向的LSTM神经网络层自动学习文本特征,对输入的文本向量建模。最后采用CRF层作为模型的输出层生成对应的类别标签序列,得到中医文本的分词结果。(3)提出了融合词性互信息的特征选择方法并建立中医文本消歧模型。首先本文在传统互信息中加入词频因子以消除低频词对互信息值的影响,并将中医文本词性作为上下文特征建立基于词性互信息的特征选择方法。然后利用词频互信息与词性互信息构建互信息向量。最后将互信息向量代入支持向量机中建立中医文本消歧模型。为验证本文设计的中医文本分词模型的性能,本文将中医文本分词方法与其他分词方法进行对比。实验结果表明:采用基于BI-LSTM-CRF中医文本分词方法具有更好的分词性能,分词准确率达到93.25%。为验证本文设计的中医文本消歧模型的性能,本研究从多个角度进行实验。实验结果表明:本文所提出的特征选择方法比其他特征选择方法具有更好的实验效果,且本文消歧模型消歧准确率达到95.13%。在加入本实验消歧模型后,基于BI-LSTM-CRF中医文本分词方法的分词正确率达到94.68%。