中文新闻语料中的时间短语识别方法研究

来源 :山西大学 | 被引量 : 14次 | 上传用户:seacowp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言中,时间信息是一种重要的信息,它是一个事件的重要组成部分,研究表明,它在文本信息中所占的比重仅次于专有名词。在日常生活中,当人们阅读一篇新闻时,他们总是要把文章的内容和时间信息联系起来,通过文章中的时间信息可以了解一个事件的开始、进行、结束以及事件发生的频率,把握一个事件发生的全过程,了解事件发展的前因后果,作为进一步决策的重要依据。因此,时间相关信息的处理是自然语言理解过程中一个非常重要的部分,它对于信息抽取、信息检索、问答系统、主题发现和跟踪、文本摘要和数据挖掘领域都具有重大的意义。 本文的研究重点是明显时间信息中的事件时间短语。在研究中,我们发现,通过事件和时间指示词组合的时间短语是文本中表达明显时间信息的短语,我们把它定义为事件时间短语,它在新闻语料中大量的出现。 本文的主要工作如下:1.确定识别时间短语的类型:在分析真实语料的基础上,以ACE(AutomationContentExtraction)评测标准ACEChineseAnnotationGuidelinesforTIMEX2(Summary)为参照,确定本文识别短语的类型; 2.对文本进行预处理包括分词、词性标注; 3.进行语料标注,提取事件时间短语和一般时间短语的规则以及事件时间短语的边界决策特征; 4.针对文本中不同时间短语的特点采用不同的方法识别:识别事件时间短语:本文的事件时间短语识别是一个重点内容,对它的识别采用模式匹配和决策树相结合的方法,模式匹配的方法不仅充分的分析了事件时间短语的内部特征,而且还大幅提高了事件时间短语识别的召回率;使用决策树的方法可以通过边界决策特征来提高事件时间短语识别的精确率; 识别一般时间短语:本文对一般时间短语采用两步走的方法进行识别,先识别简单时间短语,再用提取的模板规则将它们组合成复杂的时间短语,其中关键是对时间模板的提取,尽可能完全的涵盖待识别的时间短语类型; 5.系统构建:本文构建了一个时间短语识别系统,使用40万字的语料作为训练集,对文本中的时间短语进行自动识别。实验结果表明,本文使用的识别时间短语的方法是行之有效的,对事件时间短语的开放测试中精确率和召回率分别是89.55%和89.78%,识别简单时间表达和复杂时间表达的F值分别是98.5%、95.2%,都达到了比较好的效果。 最后,本文详细分析了实验结果中的错误实例,分析了原因,并对一些问题提出了解决的办法。在今后我将进一步扩大资源,对时间短语类型和识别方法进行更加深入的研究。
其他文献
联机分析处理(OLAP)是决策支持系统(DSS)中一款重要的分析工具。它提供了数据立方的多维视图,用户可以通过一系列的上卷下钻操作来发现感兴趣的模式和趋势。随着移动设备和无
动态配置技术的研究始于二十世纪七十年代。在对系统的动态配置和再配置、对遗留系统的处理以及自适应的演化方面的研究中,传统的实现模式有两种:编程模式和进化模式。与编程模
基于XML模式的作业描述语言研究是当今教育信息化领域中,特别是网络与远程教育快速发展过程中一个新领域。目前,在线作业管理系统作为网上教学支持系统中一个非常重要的子系
本文对MDA的平台相关模型到代码模型变换的实现进行了研究。文章重点讨论了UML2.0和XMI2.0标准对MDA的支持、XMI对模型信息的表示机制、基于XSLT处理器的模型转换方法、基于
一致性检验问题是一个基础理论问题,是空间方向关系推理研究领域的重要分支,越来越引起研究者的注意。就一般情况而言,一致性检验是NP完全的,由此,国内外学者主要都是针对特
软件工程中,软件维护是改进与增强已发布软件的过程。软件维护阶段修改软件以改正缺陷与不足,并添加新的功能来增强软件的可用性与适应性,在软件的整个生命周期中占据了越来越重
随着经济的发展和城市化水平的提高,城市交通问题日益突出,对现有交通进行有效的管理和控制已成为我国交通运输中迫切需要解决的问题。城市交叉口把城市道路相互连接起来构成
植物作为构成人类生存环境的最重要的一环,与我们的日常生活密切相关。随着人们对的生态环境的日益重视,以计算机为手段对植物生长进行建模与仿真己成为人们研究的热点问题。开
随着Web技术迅猛发展,传统的Web开发技术在很多方面已经不能满足用户需求。Ajax作为一个全新的概念,在集合多个成熟技术的基础上带给用户全新的体验。Ajax引擎是Ajax的核心,目前
当前,通信发展的宽带化、无线化、个人化、分组化是一种大势。同有线接入系统一样,无线接入系统经历了由窄带到宽带、由面向话音业务到面向数据、多媒体业务的转变。随着数据业