论文部分内容阅读
【摘要】 近年来,文本信息抽取成为中医文献知识挖掘的一种新兴手段。构建了基于本体的中医文本信息抽取系统,它能从中医文献中提取领域概念及语义关系,并支持用户完成文本语义关系的检阅、分析和标注等工作。该系统能辅助中医专家从中医文献中挖掘知识,并进一步完善中医领域本体系统。
【关键词】 中医药; 文本信息抽取; 本体
【Abstract】 Text information extraction became a novel mechanism for knowledge mining from texts in Traditional Chinese Medicine (TCM) domain in recent years.We constructed an ontology-based text information extraction system for TCM domain.It can extract semantic relations from TCM texts,and support users to browse,analyze,and annotate these relations. This system can facilitate TCM experts to acquire knowledge from TCM documents, and further refine TCM domain ontologies.
【Key words】 Traditional Chinese Medicine; Text information extraction; Ontology
First-author’s address:Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700,China
doi:10.3969/j.issn.1674-4985.2015.21.040
中医药文献是中医药文化的重要载体之一,记载着历代医家的智慧和经验。如何对浩如烟海的中医药文献进行系统梳理和深度挖掘,是中医药知识管理中的一个重要问题[1-2]。文本信息抽取(Text Information Extraction)是指从一段文本中自动抽取特定信息的计算机技术,它能显著提升人类处理海量文献并从中获取知识的效率[3-4]。文本信息抽取的任务包括命名实体识别[5]、语义关系发现[6]、事件抽取[7]、情感分析[8]等。笔者构建了基于本体的文本信息抽取系统,用于辅助中医专家从中医文献中挖掘知识,并进一步完善中医领域本体系统。本文介绍该系统所使用的文本信息抽取方法,以及该系统的主要功能和使用情况。
1 文本信息抽取方法
该系统使用一种本体驱动的文本信息抽取方法。本体(Ontology)是一种用于表示领域知识的计算机模型,它能帮助计算机更好地理解领域术语并处理文本内容[9]。它定义了一个领域中的语义类型和语义关系,并构建了领域的概念层次结构和语义网络[10]。中医界从本世纪开始在中医药领域中引入了本体技术,对该领域的概念和术语体系进行系统性的表达[11]。其中的代表性系统包括中医药学语言系统和中医古籍语言系统等[12-13]。本体为文本信息抽取提供了领域背景知识,可将领域本体与文法分析技术相结合,从而改进文本信息抽取的效果[9,14]。本系统基于中医药本体,从文献中提取关键性词汇,识别领域概念,进而发现领域实体之间的语义关系。信息提取有2种途径:(1)关系提取,即理解作者在文本中直接提出的显性关系;(2)假设生成,即根据显性关系推理出文本中并未直接提出的隐性关系。该方法包括如下4步。
第一步、提取关键性词汇。文本中仅有部分词汇有助于机器理解文本中蕴含的语义关系,这部分词汇被称为关键性词汇。首先,根据应用需求,从本体中导出关键性词汇,创建领域词库。例如,在药物发现应用中,“药物组成”“感冒”“甘草”“主治”等词汇往往用于表示领域专家关切的医药学关系,而“西藏”等地理名称一般不可能构成有意义的医药学关联。又如,中医古籍文献中的某些关键动词(如“主”)往往对应概念之间的语义关系(如“管理”),因此需要找出这些关键动词,并建立关键动词与语义关系之间的对照表。在建立关键性词汇的词库后,利用一种词库驱动的最大匹配算法,从文献中提取关键性词汇,从而将原始的中文文本转化为词汇序列。
第二步、识别关键性概念。为消除领域知识表达中的歧义性,领域本体中定义了概念和词汇之间的语义关系,包括概念的正名和异名等。机器根据领域本体从词汇序列中识别对应的概念,并判断概念的语义类型。例如,根据本体中定义的异名关系〈甘草,藏名,‘相额尔’〉(即甘草在藏医药学中称为‘相额尔’),将藏医药学文本中出现的词汇‘相额尔’理解为概念甘草;并根据本体中定义的类型关系〈甘草,rdf:type,草药〉,将概念甘草归属于草药这个类。此后,将概念及其类别加入词汇序列中的对应位置,生成文本对应的概念序列。
第三步、抽取语义关系。通过一系列预先定义的语义模板与概念序列进行匹配,若匹配成功则生成对应的陈述。该过程分为3步:(1)基于领域本体生成一个语义模板库,其中的每个语义模板为由领域概念和词汇构成的三元组;(2)根据资源序列中出现的概念在模板库中检索对应的一系列语义模板;(3)将每个模板与资源序列匹配,如果匹配成功,则生成对应的陈述。例如,针对文本“[七十味珍珠丸]的[药物组成]为:…… [相额尔] ……”,首先提取出其中的3个关键词,并识别对应的概念;其次根据本体中定义的概念类型〈七十味珍珠丸,类型,方剂〉和〈甘草(相额尔),类型,药物〉,获取相应的模板〈方剂,‘药物组成’,药物〉;最后,将模板与资源序列匹配,从而推出陈述:〈七十味珍珠丸,包含,甘草〉。将所获得的陈述融合为一个图,并将其加入索引结构中。 第四步、推导假设性语义关系。根据文本中的语义信息,使用领域规则进一步推导出假设性的语义关系。领域规则形如 BodyHead,在Body和Head中均可出现变量。例如,规则R1:〈?x, 包含,?y〉 〈?y, 属于,?x〉表示对于任意x和y,如果x包含y,那么y属于x;根据规则R1和陈述〈七十味珍珠丸,包含,甘草〉,可以推出〈甘草,属于,七十味珍珠丸〉。又如,规则R2:〈?x, 包含,?y〉〈?y, 具有功效,?z〉 〈?x, 具有功效,?z〉表示如果某种药物x的成分y具有功效z,则x具有功效z;根据规则R2和〈七十味珍珠丸,包含,当归〉、〈当归,具有功效,补血〉可推出〈七十味珍珠丸,具有功效,补血〉。
下面通过一个关于方剂生化汤的案例来解释上述过程。下面是《中华药典》中描述传统方剂生化汤的组成和功效的部分文本:“ ……[生化汤]中重用[当归],补血活血,祛瘀生新为[君];[川芎]行血中之气,[桃仁]活血祛瘀为[臣];[黑姜]入血散寒,温里定痛为[佐];[炙甘草]调和诸药为[使]。[功效]为[活血化瘀] ……”。首先,根据中医领域本体,从词汇序列中提取对应的概念,并对概念归类。据本体可知,生化汤为方剂的实例,当归、川芎、桃仁、黑姜和炙甘草为中药的实例,活血化瘀为功效的实例。进而,提取文中的语义关系。例如,根据模板〈方剂,药物,‘君’〉,和序列(生化汤,当归,‘君’),推出:〈生化汤,君,当归〉。最后,根据已知的语义关系生成假设。例如,根据陈述〈生化汤,具有功效,活血化瘀〉和规则〈?x, 具有功效,活血化瘀〉 〈?x, 治疗,血瘀证〉,推出假设:〈生化汤,治疗,血瘀证〉。提取出的语义信息构成了如图1所示的语义图。
2 文本信息抽取系统
笔者采用上面的方法,构建了中医文本信息抽取系统。该系统基于本体对中医文献进行处理,自动识别其中出现的中医概念,生成文本内容的索引。该系统还能从文本中自动发现语义关系,再将所发现的语义关系交由领域专家进行检验。笔者以综合性医学著作《医学纲目》等中医古籍作为试验文本对该系统进行了测试。该系统基于“中医古籍语言系统”对中医古籍进行处理,从中提取出中医药领域概念及其语义关系,取得了良好的效果。
该系统还实现了文本语义关系管理与检阅的功能,对从文本中发现的语义关系进行集中管理,支持用户查看语义关系在中医文本中的用法,并完成语义关系的检阅、分析和标注工作。如图2所示,该系统以网页的形式展示《医学纲目》古籍全文,以不同的颜色标出文本中出现的中医名词和谓词。该系统在左侧建立书籍目录导航,在页面主体部分显示全文,自动识别文中出现的中医概念并在文本右侧列出,用户可点击查看概念定义。该系统还找出文中出现的谓词,据此识别文中出现的语义关系。用户也可以点击查看原文中蕴含的语义关系。该系统还实现了中医本体加工辅助工具,将文本语义关系正式插入某个本体系统,为中医本体的修订和完善提供可行的技术路径。
3 小结
中医药文献是中医药知识共享的主要手段。近年来,随着文字识别等信息技术的广泛应用,大量的中医药文献被转换为数字文件、数据库等数字资源[15]。中医药文献的数字化,为将文本信息抽取等各种文献处理技术应用于中医药领域奠定了基础。本文介绍了中医文本信息抽取系统,它能从中医文献中提取领域实体及语义关系,并支持用户完成文本语义关系的检阅、分析和标注工作。这套系统能辅助中医专家开展文献知识挖掘工作,为梳理中医药知识体系,实现中医文献和知识的共享和重用提供技术支持。
参考文献
[1]刘毅.中医古籍数字化与知识挖掘[J].图书馆工作与研究,2010,14(12):92-94.
[2]周雪忠,崔蒙,吴朝晖,等.基于文本挖掘的中医学文献主题自动标引[J].中国中医药信息杂志,2003,10(1):71-74.
[3]顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息,2007,20(1):27-30.
[4]杨博,蔡东风,杨华,等.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11,36.
[5]赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17.
[6]陶金火,陈华钧,胡雪琴,等.中医药文献语义关系图发现[J].计算机科学,2011,38(3):213-217,251.
[7]吴家皋,周凡坤,张雪英,等.HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报(自然科学版),2014,14(1):30-34.
[8]赵妍妍,秦兵,刘挺,等.文本情感分析[J].软件学报,2010,21(8):1834-1848.
[9]丁晟春,刘逶迤,熊霞,等.基于领域本体和语块分析的信息抽取的研究与实现[J].情报学报,2010,29(1):53-58.
[10] Gruber T R. Ontology. Entry in the Encyclopedia of Database Systems, Ling Liu and M[M]. Tamer ?zsu (Eds.), Springer-Verlag, 2008.
[11]于彤,崔蒙,李敬华,等. 中医药本体工程研究现状[J]. 中国中医药信息杂志,2013,20(7):110-112.
[12]贾李蓉,杨硕,董燕,等.中医药学语言系统评价体系的研究与建立[J]. 中国数字医学,2012,7(10):13-16.
[13]朱玲,尹爱宁,崔蒙,等.中医古籍语言系统构建的关键问题与对策[J].中国中医药信息杂志,2010,17(4):98-99.
[14]方纯洁,王波,罗杰,等.基于信息抽取的中医药文献知识发现[J].浙江中医药大学学报,2012,36(1):88-90,96.
[15]张稚鲲,李文林.古籍数字化建设的文献计量学研究[J].图书馆理论与实践,2011,12(2):45-51.
(收稿日期:2014-12-10) (本文编辑:陈丹云)
【关键词】 中医药; 文本信息抽取; 本体
【Abstract】 Text information extraction became a novel mechanism for knowledge mining from texts in Traditional Chinese Medicine (TCM) domain in recent years.We constructed an ontology-based text information extraction system for TCM domain.It can extract semantic relations from TCM texts,and support users to browse,analyze,and annotate these relations. This system can facilitate TCM experts to acquire knowledge from TCM documents, and further refine TCM domain ontologies.
【Key words】 Traditional Chinese Medicine; Text information extraction; Ontology
First-author’s address:Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700,China
doi:10.3969/j.issn.1674-4985.2015.21.040
中医药文献是中医药文化的重要载体之一,记载着历代医家的智慧和经验。如何对浩如烟海的中医药文献进行系统梳理和深度挖掘,是中医药知识管理中的一个重要问题[1-2]。文本信息抽取(Text Information Extraction)是指从一段文本中自动抽取特定信息的计算机技术,它能显著提升人类处理海量文献并从中获取知识的效率[3-4]。文本信息抽取的任务包括命名实体识别[5]、语义关系发现[6]、事件抽取[7]、情感分析[8]等。笔者构建了基于本体的文本信息抽取系统,用于辅助中医专家从中医文献中挖掘知识,并进一步完善中医领域本体系统。本文介绍该系统所使用的文本信息抽取方法,以及该系统的主要功能和使用情况。
1 文本信息抽取方法
该系统使用一种本体驱动的文本信息抽取方法。本体(Ontology)是一种用于表示领域知识的计算机模型,它能帮助计算机更好地理解领域术语并处理文本内容[9]。它定义了一个领域中的语义类型和语义关系,并构建了领域的概念层次结构和语义网络[10]。中医界从本世纪开始在中医药领域中引入了本体技术,对该领域的概念和术语体系进行系统性的表达[11]。其中的代表性系统包括中医药学语言系统和中医古籍语言系统等[12-13]。本体为文本信息抽取提供了领域背景知识,可将领域本体与文法分析技术相结合,从而改进文本信息抽取的效果[9,14]。本系统基于中医药本体,从文献中提取关键性词汇,识别领域概念,进而发现领域实体之间的语义关系。信息提取有2种途径:(1)关系提取,即理解作者在文本中直接提出的显性关系;(2)假设生成,即根据显性关系推理出文本中并未直接提出的隐性关系。该方法包括如下4步。
第一步、提取关键性词汇。文本中仅有部分词汇有助于机器理解文本中蕴含的语义关系,这部分词汇被称为关键性词汇。首先,根据应用需求,从本体中导出关键性词汇,创建领域词库。例如,在药物发现应用中,“药物组成”“感冒”“甘草”“主治”等词汇往往用于表示领域专家关切的医药学关系,而“西藏”等地理名称一般不可能构成有意义的医药学关联。又如,中医古籍文献中的某些关键动词(如“主”)往往对应概念之间的语义关系(如“管理”),因此需要找出这些关键动词,并建立关键动词与语义关系之间的对照表。在建立关键性词汇的词库后,利用一种词库驱动的最大匹配算法,从文献中提取关键性词汇,从而将原始的中文文本转化为词汇序列。
第二步、识别关键性概念。为消除领域知识表达中的歧义性,领域本体中定义了概念和词汇之间的语义关系,包括概念的正名和异名等。机器根据领域本体从词汇序列中识别对应的概念,并判断概念的语义类型。例如,根据本体中定义的异名关系〈甘草,藏名,‘相额尔’〉(即甘草在藏医药学中称为‘相额尔’),将藏医药学文本中出现的词汇‘相额尔’理解为概念甘草;并根据本体中定义的类型关系〈甘草,rdf:type,草药〉,将概念甘草归属于草药这个类。此后,将概念及其类别加入词汇序列中的对应位置,生成文本对应的概念序列。
第三步、抽取语义关系。通过一系列预先定义的语义模板与概念序列进行匹配,若匹配成功则生成对应的陈述。该过程分为3步:(1)基于领域本体生成一个语义模板库,其中的每个语义模板为由领域概念和词汇构成的三元组;(2)根据资源序列中出现的概念在模板库中检索对应的一系列语义模板;(3)将每个模板与资源序列匹配,如果匹配成功,则生成对应的陈述。例如,针对文本“[七十味珍珠丸]的[药物组成]为:…… [相额尔] ……”,首先提取出其中的3个关键词,并识别对应的概念;其次根据本体中定义的概念类型〈七十味珍珠丸,类型,方剂〉和〈甘草(相额尔),类型,药物〉,获取相应的模板〈方剂,‘药物组成’,药物〉;最后,将模板与资源序列匹配,从而推出陈述:〈七十味珍珠丸,包含,甘草〉。将所获得的陈述融合为一个图,并将其加入索引结构中。 第四步、推导假设性语义关系。根据文本中的语义信息,使用领域规则进一步推导出假设性的语义关系。领域规则形如 BodyHead,在Body和Head中均可出现变量。例如,规则R1:〈?x, 包含,?y〉 〈?y, 属于,?x〉表示对于任意x和y,如果x包含y,那么y属于x;根据规则R1和陈述〈七十味珍珠丸,包含,甘草〉,可以推出〈甘草,属于,七十味珍珠丸〉。又如,规则R2:〈?x, 包含,?y〉〈?y, 具有功效,?z〉 〈?x, 具有功效,?z〉表示如果某种药物x的成分y具有功效z,则x具有功效z;根据规则R2和〈七十味珍珠丸,包含,当归〉、〈当归,具有功效,补血〉可推出〈七十味珍珠丸,具有功效,补血〉。
下面通过一个关于方剂生化汤的案例来解释上述过程。下面是《中华药典》中描述传统方剂生化汤的组成和功效的部分文本:“ ……[生化汤]中重用[当归],补血活血,祛瘀生新为[君];[川芎]行血中之气,[桃仁]活血祛瘀为[臣];[黑姜]入血散寒,温里定痛为[佐];[炙甘草]调和诸药为[使]。[功效]为[活血化瘀] ……”。首先,根据中医领域本体,从词汇序列中提取对应的概念,并对概念归类。据本体可知,生化汤为方剂的实例,当归、川芎、桃仁、黑姜和炙甘草为中药的实例,活血化瘀为功效的实例。进而,提取文中的语义关系。例如,根据模板〈方剂,药物,‘君’〉,和序列(生化汤,当归,‘君’),推出:〈生化汤,君,当归〉。最后,根据已知的语义关系生成假设。例如,根据陈述〈生化汤,具有功效,活血化瘀〉和规则〈?x, 具有功效,活血化瘀〉 〈?x, 治疗,血瘀证〉,推出假设:〈生化汤,治疗,血瘀证〉。提取出的语义信息构成了如图1所示的语义图。
2 文本信息抽取系统
笔者采用上面的方法,构建了中医文本信息抽取系统。该系统基于本体对中医文献进行处理,自动识别其中出现的中医概念,生成文本内容的索引。该系统还能从文本中自动发现语义关系,再将所发现的语义关系交由领域专家进行检验。笔者以综合性医学著作《医学纲目》等中医古籍作为试验文本对该系统进行了测试。该系统基于“中医古籍语言系统”对中医古籍进行处理,从中提取出中医药领域概念及其语义关系,取得了良好的效果。
该系统还实现了文本语义关系管理与检阅的功能,对从文本中发现的语义关系进行集中管理,支持用户查看语义关系在中医文本中的用法,并完成语义关系的检阅、分析和标注工作。如图2所示,该系统以网页的形式展示《医学纲目》古籍全文,以不同的颜色标出文本中出现的中医名词和谓词。该系统在左侧建立书籍目录导航,在页面主体部分显示全文,自动识别文中出现的中医概念并在文本右侧列出,用户可点击查看概念定义。该系统还找出文中出现的谓词,据此识别文中出现的语义关系。用户也可以点击查看原文中蕴含的语义关系。该系统还实现了中医本体加工辅助工具,将文本语义关系正式插入某个本体系统,为中医本体的修订和完善提供可行的技术路径。
3 小结
中医药文献是中医药知识共享的主要手段。近年来,随着文字识别等信息技术的广泛应用,大量的中医药文献被转换为数字文件、数据库等数字资源[15]。中医药文献的数字化,为将文本信息抽取等各种文献处理技术应用于中医药领域奠定了基础。本文介绍了中医文本信息抽取系统,它能从中医文献中提取领域实体及语义关系,并支持用户完成文本语义关系的检阅、分析和标注工作。这套系统能辅助中医专家开展文献知识挖掘工作,为梳理中医药知识体系,实现中医文献和知识的共享和重用提供技术支持。
参考文献
[1]刘毅.中医古籍数字化与知识挖掘[J].图书馆工作与研究,2010,14(12):92-94.
[2]周雪忠,崔蒙,吴朝晖,等.基于文本挖掘的中医学文献主题自动标引[J].中国中医药信息杂志,2003,10(1):71-74.
[3]顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息,2007,20(1):27-30.
[4]杨博,蔡东风,杨华,等.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11,36.
[5]赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17.
[6]陶金火,陈华钧,胡雪琴,等.中医药文献语义关系图发现[J].计算机科学,2011,38(3):213-217,251.
[7]吴家皋,周凡坤,张雪英,等.HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报(自然科学版),2014,14(1):30-34.
[8]赵妍妍,秦兵,刘挺,等.文本情感分析[J].软件学报,2010,21(8):1834-1848.
[9]丁晟春,刘逶迤,熊霞,等.基于领域本体和语块分析的信息抽取的研究与实现[J].情报学报,2010,29(1):53-58.
[10] Gruber T R. Ontology. Entry in the Encyclopedia of Database Systems, Ling Liu and M[M]. Tamer ?zsu (Eds.), Springer-Verlag, 2008.
[11]于彤,崔蒙,李敬华,等. 中医药本体工程研究现状[J]. 中国中医药信息杂志,2013,20(7):110-112.
[12]贾李蓉,杨硕,董燕,等.中医药学语言系统评价体系的研究与建立[J]. 中国数字医学,2012,7(10):13-16.
[13]朱玲,尹爱宁,崔蒙,等.中医古籍语言系统构建的关键问题与对策[J].中国中医药信息杂志,2010,17(4):98-99.
[14]方纯洁,王波,罗杰,等.基于信息抽取的中医药文献知识发现[J].浙江中医药大学学报,2012,36(1):88-90,96.
[15]张稚鲲,李文林.古籍数字化建设的文献计量学研究[J].图书馆理论与实践,2011,12(2):45-51.
(收稿日期:2014-12-10) (本文编辑:陈丹云)