论文部分内容阅读
随着互联网信息的飞速发展,信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,自动文摘系统成为研究的热点。
在现有的自动文摘中,主要以句子抽取式为主,基于事件的自动文摘就是其中的一种,其主要思想是将语料中的事件项抽取出来,根据语义资源确定抽取出来的事件项之间的语义关系,然后根据语义关系计算每个事件项的重要性,进而计算事件项所在句子的重要性并进行排序,最后按序抽取句子组成摘要。根据自动文摘领域对事件项通用的定义,这里所说的事件项是位于两个命名实体之间的动词或含有动词意义的名词。
在正常语料中,会出现很多的代词来指代前面已经表达过的名词或命名实体,根据事件项的定义,在抽取事件项的时候,就会将位于代词之间或代词和名词之间的事件项忽略,从而减少了抽取出来的事件项的数量,这样就会降低自动文摘的性能。所以对语料中的代词进行消解成为自动文摘性能提高的关键。
本文利用基于规则和统计相结合的方法对自动文摘源语料中的代词进行消解,首先利用单纯的规则方法对语料中指代命名实体的代词进行消解,通过对召回率和准确率以及消解后的文章进行分析,可以看出其不足在于不能很好的确定哪些代词指代命名实体,针对这一问题将统计中的最大熵的方法和规则相结合进行消解,利用最大熵的方法来弥补单纯规则的方法所出现的不足,准确确定哪些代词需要消解,提高消解的准确率和召回率,增加语料中命名实体的数量,从而尽可能多的抽取出语料中的事件项来提高自动文摘的性能。实验结果表明利用消解后的语料生成的摘要比利用消解前的语料生成的摘要性能提高了近8.5%,并且文摘的可读性,信息量也有明显的提高。