论文部分内容阅读
网络是最大且最全的数据库,而该数据库中信息的繁杂性与中文的复杂性使得从中识别某一专业领域信息难度性增加。在医学领域可以通过命名实体识别技术从Web文本及医学文献中识别症状名称、疾病名称等相关医学术语,并且建立相互之间的关系,完善并结构化医疗信息库,不仅能够帮助患者早日发现病情,而且为医生确诊提供数据支持,减少误诊率。因医学领域的严谨性与独特性,使得在很多领域应用很好的命名实体识别模型在医学领域很难达到较好的识别效果。当前大量命名实体识别模型均以字符、词性等底层内容作为识别基础,这种识别方法缺乏人类独有的语义特征及语境分析能力。本文针对医疗信息库完善问题从语义及语境层面做了以下工作:(1)设计了一个新的基于DOM树的Web信息抽取模型。对选取的五个医疗网站的结构进行了分析,利用该模型从医疗网站的半结构化文本中抽取疾病、症状及其对应的相关医学信息,例如就诊科室、常见检查等。在信息抽取的同时,将网站中的有关症状的自由文本保存下来。将抽取的信息与保存的自由文本作为后期症状识别的数据来源。该模型加入了断点续传功能,其性能比传统的Web信息抽取有所提高,并且具有较强的可移植性。(2)提出了症状类型词、强症状词概念,并且提出了一系列基于词典与规则的命名实体识别算法。通过对Web信息抽取出的症状列表进行症状名称结构分析,依次提出了基于规则的症状类型词识别算法、新的基于词典和规则相结合的症状上下位关系识别算法、基于词典和规则相结合的身体部位词识别算法、基于规则的强症状词识别算法。并且以Web抽取出的症状列表作为实验样本,针对每个算法设计了实验,对算法的性能进行了对比分析。(3)提出了基于词典和规则相结合的症状识别算法。本文将通过Web信息抽取出的自由文本及知网中下载的医学文献中抽取200篇文本及文献作为实验数据,将通过以上命名实体识别算法识别出的症状类型词、身体部位词等词表作为词典,设计了症状名称识别的实验,实验表明,本文所提出的症状识别算法比基于深度学习的症状识别算法具有较高的准确率及F1值。