Web信息抽取与症状识别算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:xiangsyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络是最大且最全的数据库,而该数据库中信息的繁杂性与中文的复杂性使得从中识别某一专业领域信息难度性增加。在医学领域可以通过命名实体识别技术从Web文本及医学文献中识别症状名称、疾病名称等相关医学术语,并且建立相互之间的关系,完善并结构化医疗信息库,不仅能够帮助患者早日发现病情,而且为医生确诊提供数据支持,减少误诊率。因医学领域的严谨性与独特性,使得在很多领域应用很好的命名实体识别模型在医学领域很难达到较好的识别效果。当前大量命名实体识别模型均以字符、词性等底层内容作为识别基础,这种识别方法缺乏人类独有的语义特征及语境分析能力。本文针对医疗信息库完善问题从语义及语境层面做了以下工作:(1)设计了一个新的基于DOM树的Web信息抽取模型。对选取的五个医疗网站的结构进行了分析,利用该模型从医疗网站的半结构化文本中抽取疾病、症状及其对应的相关医学信息,例如就诊科室、常见检查等。在信息抽取的同时,将网站中的有关症状的自由文本保存下来。将抽取的信息与保存的自由文本作为后期症状识别的数据来源。该模型加入了断点续传功能,其性能比传统的Web信息抽取有所提高,并且具有较强的可移植性。(2)提出了症状类型词、强症状词概念,并且提出了一系列基于词典与规则的命名实体识别算法。通过对Web信息抽取出的症状列表进行症状名称结构分析,依次提出了基于规则的症状类型词识别算法、新的基于词典和规则相结合的症状上下位关系识别算法、基于词典和规则相结合的身体部位词识别算法、基于规则的强症状词识别算法。并且以Web抽取出的症状列表作为实验样本,针对每个算法设计了实验,对算法的性能进行了对比分析。(3)提出了基于词典和规则相结合的症状识别算法。本文将通过Web信息抽取出的自由文本及知网中下载的医学文献中抽取200篇文本及文献作为实验数据,将通过以上命名实体识别算法识别出的症状类型词、身体部位词等词表作为词典,设计了症状名称识别的实验,实验表明,本文所提出的症状识别算法比基于深度学习的症状识别算法具有较高的准确率及F1值。
其他文献
在低年级小学数学教学过程中,非智力因素直接影响教学质量,因此如何培养和发展低年级学生非智力因素成为教师在数学课程改革中最为关注的内容之一,是改革学习方式成败的关键,
煤炭黄腐酸和生化黄腐酸已经在国内外得到广泛推广应用,但对二者的界定和检测一直没有统一的认识和方法,这直接影响了生产应用和检测分析。为此,作者对不同产地、不同工艺的
《关于实施"振兴老字号工程"的通知》由原商务部于2006年5月印发,通知明确指出从该文件下发之日起由原商务部牵头在全国范围内实施"振兴老字号工程",该工程全面收集整理了中
正交试验法在螺母焊接中的应用贵航集团汽车总厂马敏杰1问题的提出我厂生产的云雀微型轿车中车身部分所需焊接(凸焊)的螺母约138个/台,其规格一般为M4、M5、M6、M8、M10、M12几种。在前一段时间生产
为深入学习贯彻习近平总书记防灾减灾救灾重要指示精神,落实省委十二届四次全会部署,6月14日下午,省委书记李希、省长马兴瑞前往省三防办调研,检查部署我省今年防汛防台风工
文章运用文献资料法、比较分析法和专家访谈法对大学生跆拳道运动员赛前不良心理现象的成因及对策进行研究。结果显示:大学生跆拳道运动员在比赛前主要会出现过度兴奋、淡漠
智力障碍儿童在注意力方面较正常同龄儿童有所欠缺,在学习活动中缺乏主动性和学习动机,个别化训练作为智力障碍儿童新的教育形式,强化是其重要环节,需要正确地选择强化物,充
<正>1标准编制背景腐植酸是构成土壤肥力的基础物质,腐植酸类肥料属于绿色环保肥料。以腐植酸为重要组成成分和营养元素载体的肥料统称为腐植酸类肥料。最早成为商品肥料的腐
一直四平八稳的北京国安足球俱乐部,终于想为自己的血统注入一些草莽气质。$$日前,乐视购得国安50%的股权,将和中信集团共掌国安,后者是北京足球的旗帜。这也算是足球业里的一次
报纸
5G技术研究快速发展,当前已经进入技术标准研制的关键阶段,为促进5G核心关键技术成熟,并推动5G技术研发,我国启动了5G技术研发试验。本文对我国5G技术研发试验中关键技术的测