论文部分内容阅读
知识社会的快速发展促使人们不再满足于简单的信息收集、整理和保存,而是渴望对大量承载着人类智慧的文本信息进行分析和挖掘。知识抽取应运而生,它是从信息集中识别有效、潜在有用、最终可理解的模式的过程。
知识抽取可分为数据准备、文本挖掘和分析评价三个阶段。当今的相关研究主要集中在文本挖掘和分析评价这两个阶段,对数据准备阶段的关注较少。数据准备阶段是知识抽取的基础,良好的数据格式和适当的数据标记使知识抽取事半功倍。自动标记技术是数据准备阶段的关键技术之一,可根据标记目标不同划分为结构化标记和文本检索标记。
本文的研究目标是探索一种较为完善的、高效的服务于文本知识抽取的自动标记技术。应用该技术可以对异构的文本数据集按照自定义结构模型,进行统一结构化标记;并且能够根据用户自定义的文本检索规则库,对结构化后的文本数据集进行特征标记。该技术将所有的中间处理结果以统一格式提供给用户,协助用户完成文本知识抽取中的数据准备工作,为进一步的知识抽取奠定良好的数据基础。
本文首先确定基于XML的标记实施路线,接着给出整个文本自动标记的处理流程,然后对标记流程中的核心问题——全文检索模型进行深入讨论。综合分析了多种现有的全文检索模型,在互关联后继树模型(IRST)的基础上提出一种改进模型——双哈希关联后继模型(DH-IRST)。并对新的DH-IRST模型分别进行模型定义、层次结构定义和数据结构定义。设计了DH-IRST模型的生成算法和检索算法,并和其他的全文检索模型进行比较分析。
文中还给出结构化标记的流程,并针对两种不同的文本数据源分别定义文献模型和话语模型,然后对结构信息抽取规则进行描述,给出了结构化标记算法。紧接着提出基于规则库的批量检索标记方法,对规则库进行定义,并且讨论了规则库建设的具体方法和技术手段。文章的最后展示了原型系统的实验过程和结果。
本研究尝试提出双哈希关联后继(DH-IRST)全文检索模型,经过实验证明DH-IRST模型在检索效率和检索完备性方面较传统检索模型而言具有较大性能优势,能够更好地服务于文本自动标记过程。同时,本文还提出了基于检索规则库的批量标记方法,能够更高效地为特定专业领域的知识抽取提供数据支持。