论文部分内容阅读
目前在互联网上存在大量的用药指南以及疾病治疗指南等指导性的医学文献,这些文献中的医学事件数据对于医生用药,监控病人的临床症状等方面有重大意义。但是,面对海量的医学文献,手动将这些自然语言描述的信息转成机器能处理的结构化数据显然不现实。本文通过深入研究本体构建等语义网的相关知识,提出了一套基于医学事件的本体构建方案。该方案主要包括数据转换,存储,查询等几个方面。本文的宗旨主要是将自然语言数据通过自动化的解决方案转化为机器能够处理的结构化数据供上层应用使用。主要的研究方案分为以下几步:1)首先利用团队内其他小组成员开发出的分词系统对医学文献进行信息提取,得到半结构化的数据;2)根据大量医学文献总结出通用医学事件模型,并利用该数据模型和关系-对象数据库PostgreSQL中的二维表继承等特性建立一套存储系统,将半结构化的医学事件数据存入系统中。3)通过分析SPARQL的几种图匹配模式的特点,完成SPARQL到SQL的映射关系,使得用户能够提交SPARQL查询到对象-关系数据库,并返回相应的结果集。4)建立数据导出模块,该模块的主要作用是将数据库中的数据导成文本信息,在数据描述上,本系统采用命名图模式来描述医学事件,该模式能有效地减轻三元组描述知识的冗余度并提高查询效率。同时,命名图能够有效地描述不同事件之间的关系,使得不同信息之间能够建立联系。最后,本文还通过与本体存储查询系统Sesame的功能对比对该系统进行评估,并得到了较好的检索结果和较精简的本体数据,进一步验证了该方法的可行性。