论文部分内容阅读
数值信息是文本中事件或实体的一些特定的附加信息,与实体的表现形式类似并以其属性为特征出现的。数值信息分为两类:一类是描述实体特征的值,比如分数、货币数以及一些电话号码和域名信息等;另一类是描述事件特征的值,比如对于犯罪这一事件,其中该犯罪事件的罪名、判刑期限,就是我们要抽取的数值信息,再比如在发生人事调动事件时,发生变动的职位信息也属于数值信息的范畴。数值信息的抽取也是中文信息抽取中的又一重要研究方向,它对自然语言处理的许多领域都有极其重要的研究意义,比如机器翻译、问答系统、信息检索等方向。目前国内的研究主要集中在对事件以及命名实体的抽取上,对该方向的研究并不是很多,其抽取方法也同样集中在两个方面,一是基于规则的方法,根据数值信息本身的特点以及上下文环境,结合内部和外部的特征制定相应的规则进行抽取,虽然准确率很高但可移植性不强。另一方面是基于统计的方法,最常用的就是HMM、Entropy Model还有CRF等,统计的方法大多是基于模型的方法,可移植性强,相对付出的代价小,因此也是自然语言处理中常用的方法。本文的主要研究工作有以下几个方面:(1)用1998年1月份人民日报语料作为测试语料,搜集要抽取的第一类数值信息的特征,挑选出合适的特征并建立规则集。(2)对于第二类数值信息,从语料中找出可以决定事件发生的触发词,并抽取该触发词的上下文特征,利用决策树的方法找出确定含有目标词的语句。(3)对抽取出的语句进行预处理,只保留分词后的结果,构建文本集。利用Stanford parser对文本集进行句法分析,生成句法树以及句法树的文本表示。(4)从句法树中找出要抽取数值信息的特征,从而进行相应的抽取,并对实验结果进行分析。本文中对两类数值信息分别采用不同的方法进行处理。对于有关实体特征的数值信息,由于特征明显我们使用规则的方法进行抽取;对于有关事件特征的数值信息,由于规则性不强,我们采用决策树和句法分析相结合的方法进行研究,实验结果表明该方法是可行的,在封闭测试中准确率和召回率均在70%左右,达到了比较好的结果。最后,本文对实验中的错误实例进行分析研究,找出问题所在并提出了相应的解决方案。在今后的研究中将会进一步扩大语料规模,对数值信息的抽取做更深入的研究。