论文部分内容阅读
在装备发展战略研究中需要及时掌握国外在装备的研究、开发、制造、使用、维护和更新换代等方面的现实情况以及装备自身的技术性能特点,并从这些信息中发现外军装备发展方面的趋势和特点。因此,如何及时、快速地从大量文档中提取结构化的装备信息,并从其中发现隐含的知识是装备发展战略研究中必须解决的问题。 作为一种从普通文本中自动获取结构化信息的技术,文本信息提取在国内外受到越来越多的重视。它充分利用了现有的句法分析理论和技术,旨在获取指定类型的信息,因而它不需要对语言进行完全的分析,从而避免了文本理解所面临的困难,是一项具有现实可操作性的技术。本文围绕从半结构化的汉语文本中自动提取装备相关信息这一问题,结合装备发展战略研究的实际需要,对文本信息提取技术中的命名实体发现技术和文本结构化技术进行了较深入的研究。 本文的主要工作在于: 1、研究了基于统计的命名实体发现方法,对已有的N-gram统计方法和自增长模式统计方法进行了改进,主要对自增长模式的特点进行了详细分析,并利用词性信息对统计结果进行筛选,提高了命名实体发现的准确率; 2、研究了基于规则的文本结构化(实体关系提取)方法,对规则库的建设、规则的分类、二元实体关系的提取方法进行了实验研究,建立了一个较好的文本结构化框架; 3、利用上述两种技术,设计并实现了一个规则可扩展的文本信息提取子系统。