论文部分内容阅读
本文研究的主要内容是根据新闻文本中企业并购信息的特点,分析其中的文本表达模式,进而制定抽取模板,最终设计并实现一个能从企业并购信息中自动抽取出结构化信息的程序。
依据抽取对象信息在文本中的构成特点和表述方式的不同,本文的抽取内容分为三部分:并购基本信息、并购附属信息和并购效应信息。并购基本信息主要是抽取像并购时间、并购主动方、并购被动方等这些并购事件中的基本信息,并购附属信息主要是抽取像并购代价、并购内容等信息,并购效应信息的抽取对象主要是关于股票变化情况的关键信息。
信息抽取方法是本文研究的重点,本研究以模式匹配为基本方法,按照企业并购事件信息的结构特点,基于事件框架抽取相关信息。在事件抽取模板和规则的制定上,本研究以语义知识的利用为侧重点,通过分析并购核心动词与前后语义块关系,总结待抽取信息项组合后的句类知识,从而定义抽取模板。具体抽取过程中,按照多项信息组合抽取规则和单项信息抽取规则分别进行。其中单项信息的抽取是对多项组合信息抽取的补充。
本文的工作主要包括以下几个方面:
第一,建立语料库。本文建立了一个企业并购新闻文本的语料库。语料的类型是对并购事件有客观而详实描述的新闻文本,排除一些评论性和分析性的文本。在建立语料库过程中,本文充分考虑了语料的来源、分布和规模。并制定了一套简洁可行的标注规范对语料文本进行标注。本文后面的研究都是以标注好的语料库为研究的基础。
第二,分析信息表达模式。本文在语料库的基础上根据文本信息的结构特点分析了企业并购信息新闻文本的表达模式。为了更好地服务于抽取工作,本文将模式分析分为多项信息组合表达模式分析和单向信息表达模式分析两部分。多项信息组合表达模式的特点是围绕并购动词各项信息规则的组合,单项信息主要是研究和分析了并购时间、并购内容和并购代价等表达模式。
第三,建立信息抽取知识库。本文研究所建立的知识库资源分为词典和规则库两部分。词典主要收集服务于本论文抽取实现所用的专名信息、核心动词信息和激活信息词;规则库主要为抽取程序提供抽取的方法,具体来说就是根据抽取信息的表达模式所制定的抽取规则。其中包括根据语境句群筛选语料的规则、多项信息规则和各个单向信息组合的抽取规则。
第四,自动抽取程序的设计和实现。本论文程序设计的一个突出思想是面向对象。所使用的程序语言为完全面向对象的、功能强大的C#.NET编程语言,程序设计以正则表达式作为构建模式的基础。在程序方面,本文设计并实现了以下几个主要的类,即读取新闻文本的类、提取专名词表的类、接受和存放匹配模式的类、方法工具类、抽取信息存储结果类和关键句子抽取类等。抽取的大致流程为:对文本进行预处理,然后利用排除规则进行排除干扰信息。接下来,利用多项信息规则库对预处理过的文本进行抽取,完成部分抽取模板。最后,利用单向信息规则库进行补充抽取,完成剩余抽取模板。