论文部分内容阅读
在自然语言中,时间信息是一种重要的信息,它是一个事件的重要组成部分,研究表明,它在文本信息中所占的比重仅次于专有名词。在日常生活中,当人们阅读一篇新闻时,他们总是要把文章的内容和时间信息联系起来,通过文章中的时间信息可以了解一个事件的开始、进行、结束以及事件发生的频率,把握一个事件发生的全过程,了解事件发展的前因后果,作为进一步决策的重要依据。因此,时间相关信息的处理是自然语言理解过程中一个非常重要的部分,它对于信息抽取、信息检索、问答系统、主题发现和跟踪、文本摘要和数据挖掘领域都具有重大的意义。
本文的研究重点是明显时间信息中的事件时间短语。在研究中,我们发现,通过事件和时间指示词组合的时间短语是文本中表达明显时间信息的短语,我们把它定义为事件时间短语,它在新闻语料中大量的出现。
本文的主要工作如下:1.确定识别时间短语的类型:在分析真实语料的基础上,以ACE(AutomationContentExtraction)评测标准ACEChineseAnnotationGuidelinesforTIMEX2(Summary)为参照,确定本文识别短语的类型;
2.对文本进行预处理包括分词、词性标注;
3.进行语料标注,提取事件时间短语和一般时间短语的规则以及事件时间短语的边界决策特征;
4.针对文本中不同时间短语的特点采用不同的方法识别:识别事件时间短语:本文的事件时间短语识别是一个重点内容,对它的识别采用模式匹配和决策树相结合的方法,模式匹配的方法不仅充分的分析了事件时间短语的内部特征,而且还大幅提高了事件时间短语识别的召回率;使用决策树的方法可以通过边界决策特征来提高事件时间短语识别的精确率;
识别一般时间短语:本文对一般时间短语采用两步走的方法进行识别,先识别简单时间短语,再用提取的模板规则将它们组合成复杂的时间短语,其中关键是对时间模板的提取,尽可能完全的涵盖待识别的时间短语类型;
5.系统构建:本文构建了一个时间短语识别系统,使用40万字的语料作为训练集,对文本中的时间短语进行自动识别。实验结果表明,本文使用的识别时间短语的方法是行之有效的,对事件时间短语的开放测试中精确率和召回率分别是89.55%和89.78%,识别简单时间表达和复杂时间表达的F值分别是98.5%、95.2%,都达到了比较好的效果。
最后,本文详细分析了实验结果中的错误实例,分析了原因,并对一些问题提出了解决的办法。在今后我将进一步扩大资源,对时间短语类型和识别方法进行更加深入的研究。