论文部分内容阅读
现代中医临床诊疗研究开始重视从以往的研究和治疗经验得到论证和指导,期刊文献更新快,文献数量大,论文内容具有较高的学术价值、比较注意新的趋势和发展等优点,因此,对中医临床文献进行有效的检索至关重要。本研究旨在设计一个基于中医文献信息本体的智能检索模型,能够借助当前最新的语义网知识进行本体层次的设计和本体概念的研究,从而使检索模型具备基本的推理能力,提高查全率和查准率,能将输出结果按照相关性排序并进行统计,从检索到的批量文献中总结、发现和掌握所查专题内容的整体发展状况和遣方用药规律。1.研究背景现有的中医文献数据库大多是针对文献外部特征信息建立的,中医临床研究人员很难从检索到的批量文献中掌握所查专题内容的整体发展状况。传统的检索方式主要通过关键词、关键词串或者主题词来进行全文检索,用户很难表达其真正的检索意图,也很难从检索结果提供的大量文献中提取共性的规律。由于检索过程机械,不理解语义。导致一方面,检索结果中包含大量无关信息,另一方面,很多与关键词同义的信息却没能检索出来。其次,大量同领域或者相关领域的数据存储库往往使用不同的标识制度,不兼容的术语和不同的数据格式。目前中医药信息主要以自然描述为主,缺乏知识层次的科学表达,没有统一的术语定义,给数据的集成和共享造成了一定的困难。2.研究内容本研究以中医临床文献中的诊疗研究内容为对象,利用本体建设来实现中医文献信息的智能检索。本研究的研究过程主要包括确定研究目标、需求调研、数据采集、数据处理、建立本体、智能检索模型的设计和相关性排序算法、中医临床文献的智能检索模型、系统检索测试等八个部分。2.1确定研究目标本研究根据中医医生在临床实际研究中对于文献中所涉及的内容的检索需求,通过部分中医临床文献内容的语义分析和本体建设,实现基于中医临床文献信息的中医智能检索,提高查全率、查准率和输出结果相关性排序。能将输出结果按照相关性排序并进行统计,从检索到的批量文献中总结、发现和掌握所查专题内容的整体发展状况和遣方用药规律。2.2需求调查2.2.1对中医临床文献内容的调研为了基本了解中医临床文献内部诊疗信息中各项信息出现频率以及之间的关系。总结文献中可以为中医临床诊疗研究提供的检索服务的支撑信息。选取中医核心期刊排名前几名的期刊,对其所刊登的2006-2007年度的关于中医临床诊疗研究的文献进行文献诊疗过程中理、法、方、药等信息记录的调研,发现临床作者诊疗研究的各种具体方向,并抽样调查部分文献中体现的具体数据需求。2.2.2对中医临床医生和科研人员检索需求的调研为了真正实现基于中医临床文献提供临床诊疗研究需求的检索服务,以调查问卷的形式进行小规模的调查,调查对象为三级甲等医院中的初、中、高级临床医师,共回收有效问卷200份。总结中医临床医生在诊疗研究过程中对文献信息检索的具体需求。经统计分析后,认为临床医师的检索需求重点停留在病、证、症及方剂和针灸疗法上,并且总结确定了一些常用检索式。2.3数据采集本研究的目的是实现中医临床文献信息的智能检索,而智能检索之前必须先确定用户的检索需求和检索的方式、对象,建立检索对象的本体,确定各个体之间的语义关联关系。资源库是检索的最基础的设施,是实现智能检索的最基本的保障,要保证资源库中有充足的可供检索的信息。2.3.1资源库本研究选择了中国中医科学院中医药信息研究所研制的中医疾病临床研究数据库和中药药理实验数据库。2.3.2年代由于资源库中共收录1988年至今的中医临床文献二十七万余篇,数据量庞大,选择基本已经加工完成且年代相对靠近的2005-2007年发表于期刊中的中医临床文献中所涉及的诊疗内容。2.3.3原则临床文献篇数比较多的疾病。所研究的对象一定要有一定的文献量,能展现所选年度内的临床研究热点和多发疾病的诊疗情况。2.3.4内容选取诊疗研究过程中涉及的疾病、证候、症状、治则、方剂、中药、穴位、药理分类等内容。2.4数据处理本研究将实施的本体建设和智能检索将基于已有的资源库进行,因此要对资源库中的数据进行数据清洗和规范整理。2.4.1参考标准数据处理必须遵循一定的原则,本研究选取美国国立医学图书馆研制的Mesh主题词表和中国中医研究院中医药信息研究所编制的中医药学主题词表为最基本的词表,并选取部分国标、《中华人民共和国药典》、《中药大辞典》等等作为词表的补充。2.4.2规范流程首先将各字段内容与标准词表中的正名进行匹配,匹配失败的词语与异名进行匹配,仍然无法与异名匹配的词语将纳入相似度计算范围,与词表中的正异名分别用Jaccard公式进行相似度计算。根据计算结果,结合人为分析,进行初步的词语规范。由于各字段的采集状况不同,人为参与的程度和难度也不同,其中疾病、中药、腧穴、方剂相对规整,人为参与较少,而证候、症状、治则的规范过程相对复杂,主观判断较多。2.5建立本体本研究进行的本体建设主要是针对文献内部内容的实际关联来人工进行的,尊重临床研究的真实内容,并不像以往本体按照教科书和词典来导入建立。2.5.1确定各个概念间关系属性2.5.2确定具体概念之间的一一关联由于所选取的数据存在于不同的数据库表单中,而资源库表结构复杂,共有二十八张表相互关联,要确定两个字段之间一一对应的关系,需要分次进行匹配,逐一确定。2.5.3建立各表单的关系属性和数据属性2.5.4建立各实体的本体,逐一添加语义关联的具体实体选择由美国Stanford大学开发的本体编辑器Prot ege,本研究使用的是Prot ege4.1版本。2.6智能检索模型的设计和相关性排序算法2.6.1智能检索模型2.6.1.1前端系统1)检索页面:提供检索入口,分为简单检索和高级检索。高级检索选择相应入口后分别填入对应的关键词,并可进行自然语言检索。2)结果页面:展示结果,并对可统计结果进行频次统计。2.6.1.2用户意图分析系统1)自然语言分词:借助本体库中的概念以及正异名词表对用户输入的检索词和自然查询语句进行预处理,以保证检索的概念和组合概念的准确性。2)基于本体创建的索引库:将本体的三元组(主谓宾)建立索引,然后依据分词结果,匹配获取用户关键词对应的本体,将其转化为spar ql语句。2.6.1.3语义查询系统是整个系统的核心,利用本体服务器中概念和概念之间的语义关系,协助查询扩展与查询语义向量等关键模块的实施。Cart Query:接收spar ql语句,并使用本体和本体数据库映射文件,将spar ql转化为sql。Dart Mapping:在本体和数据库间建立映射关系,并生成映射文件,以便Dart Query使用。2.6.1.4日志系统日志记录:记录用户的行为日志,如检索关键词、检索结果等。日志分析:对日志进行分析、挖掘,提供如检索时的智能提示、用户推荐等等功能。2.6.1.5后台数据库:导航信息数据库,信息资源数据库,系统相关数据。2.6.1.6结果优化模块:对检索结果进行相关性排序,将最符合检索条件的结果放在最前面。因此相似度算法尤其重要。2.6.2相关性排序算法与以往的本体相似度计算方式不同,本研究不仅仅从语义关系上考虑本体相似度,因为领域本体的建设并不稳定和完善,给语义相似度计算造成了很大的困难,很难得到行业认可。本研究考虑的输出结果排序主要从两个方面考虑:·用户查询语言和本体本身的相似度·用户查询的词语所对应的本体在文献中的重要性最终结合两者的计算结果来确定最后的相似度排序。用户查询词语类似于文本对象。因此在相似度计算上选择了文本相似度算法中的夹角余弦算法除了基本的文本相似度外,还需要评估用户的查询词语对于一个本体文档的重要程度。一般而言,词语的重要性随着它在一篇文献或者一个检索主题中出现的次数成正比增加,但同时会随着它在整个资源库中出现的次数成反比下降。因此对于查询匹配度的计算,我们将主要采用TF/IDF方法。最终的检索结果排序公式参考两个计算结果获得,表达为:SIM=d*Sim+(1-d)/mat(O,t)其中,Sim计算的是用户查询语言和本体本身的相似度,mat(O,t)计算本体和查询关键字的匹配程度。d为权重因子。这里d暂时先设为0.7,以后可以经过测试不断调整和优化。2.7中医临床文献的智能检索模型该模型基于中医临床文献知识体系,引入了本体语义概念,遵循了建立中医药临床文献本体体系开展相关服务的思想。可以实现以下功能:2.7.1关键词检索在检索界面检索可以检的内容可以是:疾病、证候、症状、治则、方剂、单味药、腧穴等。2.7.2导航检索检索界面左边的导航列里有疾病等的分类导航,用户可以在导航里寻找自己所要查找的项目信息。2.7.3高级检索2.7.3.1检索词高级检索布尔逻辑可以进行是、或、非的检索,用以扩大和缩小检索结果。截词检索可以进行后截、前截、中截三种类型的检索。2.7.3.2检索框下拉提示当输入关键词时,检索框会展开下拉的提示框,向用户展示与所输入的关键词最接近的准确查询词。2.7.3.3自然语句检索由于采取了本体库为基础的语义分析,基于概念进行检索。例如,当输入“心绞痛的针灸疗法”,分词工具会将这句话切分成“心绞痛”、“针灸疗法”、“的”,系统会根据常用词表去掉“的”这个助词,然后根据语义关系将“针灸疗法”关联到“腧穴”,根据“被影响”关系,提取心绞痛相关的腧穴内容。2.7.4专业答疑可以向管理人员进行提问,管理人员对用户的问题进行答复时,答案会自动发送到用户的邮箱。2.7.5用户日志可以记录并向用户展示历次查询过的问题。通过对用户的不断了解、分析,使得个性化检索更符合每个用户的需求。2.7.6检索结果按照相关性排序用户可以根据对文献的需求选择按照相关性或者是文献发表日期来排序。2.7.7统计功能直接提供所检索文献内容的直观统计信息。2.8系统测试结果以“心绞痛的针灸疗法”为例进行检索,检出文献22篇。表明智能检索模型具备按照语义关系进行自然语言检索的功能。以检索“血瘀证”的相关文献为例,传统的检索方式会返回文献828篇,而本研究的智能检索系统为1313篇。智能检索比传统检索多查找出485篇文献,比原检索结果多出59%差别及其明显,证明此智能检索模型能很好的提高检索结果的查全率。由于采用知识(概念)检索技术,明确和缩小了检索范围,减少对无用信息范围的检索,提高了查准率。本研究的智能检索系统结合用户查询语言与本体本身的相似度和用户查询的词语所对应的本体在文献中的重要性两种算法,基于语义关联,可以实现按照检索条件相关性排序,也可以按照文献发表年代排序。因此,本研究已经基本可以达到提高中医临床文献检索服务的查全率、查准率和按照结果相关性排序的设想。3小结本文的贡献和创新主要有以下几个方面:·该研究引入语义网技术,在关系数据库的上层建立本体的数据模型,并据此建立智能检索模型,对同领域异质异构数据库的资源共享提供了可参考的思路和方法,提高了检索服务的查全率、查准率。·提出了两种算法相结合的查询结果排序算法公式,可以更准确,更贴切实际的对检索结果进行相关性排序。·中医文献信息元数据规范研究。制定相应的核心元数据规范方法及其扩展原则,以规范中医文献信息的描述,指导相关信息数据库的建立。·中医临床文献本体概念体系研究。利用文献信息中的理、法、方、药信息的本体,建立中医临床文献信息概念体系,确定概念的属性和各概念之间的语义关系。为中医文献信息和知识的组织以及基于中医文献信息和知识的智能检索提供先决条件。且检索结果可以进行统计,使得用户可以越过庞大的文献浏览,直接掌握检索主题的文献概况。4.展望4.1中医证候、症状、治则、中药等信息的标准化工作需要大力投入。4.2中医诊疗本体的建立需要大量的人力投入。prot ege适合小样本的或者框架表格式的本体建设,中医诊疗本体的细化建设应该考虑可以批量导入式的本体建立工具。本研究进行了更细致的本体建设,可以更直接、快速的提取检索的相关项,据此建立的智能检索模型,还需要更多的测试来证明此项工作的意义和作用。4.3中医临床医生的参考指导作用基于对中医医生临床诊疗研究对文献信息的实际需求而设计的智能检索模型,更符合临床医生的检索需求,能更全面的展现文献的内部信息,能够更直接、更贴切的满足临床中医医生对文献所包含信息的获取需求。4.4希望通过本研究的研究,可以建立一套对中医临床文献进行结构化和关系化建设的合理研究的方法或者操作流程;可以为以后数据库的建立和数据采集加工提供相对标准的操作流程参考。5结语中医药信息服务和知识服务,开始重视针对用户的实际需求来完善信息提供方式和方法。由本体概念的引入,使得中医信息检索服务更加快速、准确、全面。同时可以解决由于不同系统或者本领域内不同结构数据库难以共享资源等问题,可以实现理论上的数据资源共享。