中文文本中企业并购信息的自动抽取

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:yaoye_1108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的主要内容是根据新闻文本中企业并购信息的特点,分析其中的文本表达模式,进而制定抽取模板,最终设计并实现一个能从企业并购信息中自动抽取出结构化信息的程序。   依据抽取对象信息在文本中的构成特点和表述方式的不同,本文的抽取内容分为三部分:并购基本信息、并购附属信息和并购效应信息。并购基本信息主要是抽取像并购时间、并购主动方、并购被动方等这些并购事件中的基本信息,并购附属信息主要是抽取像并购代价、并购内容等信息,并购效应信息的抽取对象主要是关于股票变化情况的关键信息。   信息抽取方法是本文研究的重点,本研究以模式匹配为基本方法,按照企业并购事件信息的结构特点,基于事件框架抽取相关信息。在事件抽取模板和规则的制定上,本研究以语义知识的利用为侧重点,通过分析并购核心动词与前后语义块关系,总结待抽取信息项组合后的句类知识,从而定义抽取模板。具体抽取过程中,按照多项信息组合抽取规则和单项信息抽取规则分别进行。其中单项信息的抽取是对多项组合信息抽取的补充。   本文的工作主要包括以下几个方面:   第一,建立语料库。本文建立了一个企业并购新闻文本的语料库。语料的类型是对并购事件有客观而详实描述的新闻文本,排除一些评论性和分析性的文本。在建立语料库过程中,本文充分考虑了语料的来源、分布和规模。并制定了一套简洁可行的标注规范对语料文本进行标注。本文后面的研究都是以标注好的语料库为研究的基础。   第二,分析信息表达模式。本文在语料库的基础上根据文本信息的结构特点分析了企业并购信息新闻文本的表达模式。为了更好地服务于抽取工作,本文将模式分析分为多项信息组合表达模式分析和单向信息表达模式分析两部分。多项信息组合表达模式的特点是围绕并购动词各项信息规则的组合,单项信息主要是研究和分析了并购时间、并购内容和并购代价等表达模式。   第三,建立信息抽取知识库。本文研究所建立的知识库资源分为词典和规则库两部分。词典主要收集服务于本论文抽取实现所用的专名信息、核心动词信息和激活信息词;规则库主要为抽取程序提供抽取的方法,具体来说就是根据抽取信息的表达模式所制定的抽取规则。其中包括根据语境句群筛选语料的规则、多项信息规则和各个单向信息组合的抽取规则。   第四,自动抽取程序的设计和实现。本论文程序设计的一个突出思想是面向对象。所使用的程序语言为完全面向对象的、功能强大的C#.NET编程语言,程序设计以正则表达式作为构建模式的基础。在程序方面,本文设计并实现了以下几个主要的类,即读取新闻文本的类、提取专名词表的类、接受和存放匹配模式的类、方法工具类、抽取信息存储结果类和关键句子抽取类等。抽取的大致流程为:对文本进行预处理,然后利用排除规则进行排除干扰信息。接下来,利用多项信息规则库对预处理过的文本进行抽取,完成部分抽取模板。最后,利用单向信息规则库进行补充抽取,完成剩余抽取模板。
其他文献
学位
汉语成语是汉语作为第二语言习得的一个难点。数字成语是指含有数字的一类成语。不同数字在成语中的语法功能、语义以及所表达的文化内涵是不同的,而同一数字在成语中也充当
近年来,欧洲一体化的推进描绘了一个和平而统一的欧洲蓝图。一个富有历史内涵和文化认同的“欧洲观念”越来越深入人心,值得期待。因此,追根溯源,理清“欧洲观念”的演变脉络,对于
前言  李可的《杜拉拉升职记》的发行量突破150万册,在2007年末至2008年在图书发行市场上掀起了一场旋风,其影响至今未衰。根据李可的《杜拉拉升职记》改编的电影《杜拉拉升
文化是一个民族的灵魂。文化是属于内在的一种精神,是通过长期的积累而成的。中华民族是五千年文化没有发生断裂的民族和国家,这在人类发展史上可以说是一个奇迹,能够让这一个奇
“五四”新文化运动开启了我国现代女性写作的先河,我国第一批文学女性登上了历史的舞台。她们当中有专门从事写作的女作家,也有以文学为爱好,偶有创作但在当时产生一定影响
汉字教学有着很悠久的历史,自从有了汉字便有了广义的汉字教学,据甲骨文显示商朝已经有了比较正规的汉字教学,史料记载西周时已经将汉字正式列为学校教学内容,春秋时期已经将
最近,卡博特公司亚太技术中心在上海卡博特亚太区总部举行启动仪式.该中心一期工程预计投资800万美元,预计2017年8月建成.卡博特公司总裁兼首席执行官柯尚恩、执行副总裁兼高
期刊
期刊
本文立足于老舍文学作品这个封闭的语料,重点研究泛义动词中的一小类--“弄”类动词的特点,包括“弄”、“搞”、“作”和“干”。主要通过比较和分析老舍文学作品中的“弄”