论文部分内容阅读
在当今这个信息时代,众多传统学科与计算机科学结合到一起,产生了一些新的研究理论和方法。注疏文献在阅读古书、整理古籍、编纂辞书、了解古代社会与文化等多个方面具有广泛的应用价值,但在注疏文献中存在一些问题,比如:注疏文献是半结构化形式的、注疏文献中“解释类成分”和“被释成分”使用了形式上相同但实质上有所区别的同一种语言、注疏文献中没有明确地标示出和原典之间在句子层次上的对应关系等。这些问题给人们利用计算机分析和处理注疏文献带来不便。因此,我们认为有必要深入分析注疏文献的知识结构,采用新的知识表示方法来表示其中的知识,把注疏文献由半结构化形式转化为结构化形式,把注疏文献中知识点之间的隐性联系转化为显性联系,使得注疏文献既便于计算机处理,又便于人们阅读和研究。本文深入分析了各种知识表示方法和注疏文献的传统知识结构,提出以结构化知识表示为重点的研究目标,设计了基于本体和XML的知识表示方案。按照此方案,我们构建了训诂学初始本体,以形式化方式表示训诂学领域中的概念及其相互关系;然后根据注疏文献的知识结构特点,再参照训诂学初始本体,定义了表示注疏文献知识结构的XML架构;接下来,探索注疏文献知识结构的自动转化方法;最后,利用结构化表示的知识对《十三经注疏》进行引文分析。本文的创新点有以下三个方面:(1)提出了一种本体建模的新方法,并且利用该方法构建了训诂学初始本体。本方法强调对学科的传统知识组织模型做深入分析,通过传统知识组织模型与本体模型之间的转化提高本体建模的效率。(2)定义了表示注疏文献和经典古籍知识结构的XML架构。该架构是在分析注疏文献的外部关联事物、内部体例结构和知识单元的基础上,参照训诂学初始本体定义的。(3)研究了注疏文献知识结构的转化方法。我们采用计算语言学方法,利用注疏文献的半结构化特征编写规则,设计了多个算法和实验,取得较好的效果,这项研究能够显著提高注疏文献知识结构转化工作的效率。注疏文献经过结构化知识表示后,具有更大的应用价值,能够应用于多个研究领域。我们可以把它应用于检索系统中,作为检索系统的语料资源,还可应用于知识聚类、古籍文献研究和教学等领域。本文重点介绍了利用训诂学初始本体和结构化的注疏文献解决引文分析中的难点,实现了对《十三经注疏》中各部注疏文献之间的耦合分析,以及被引文献的同被引分析。