论文部分内容阅读
摘要抽取是应对现代信息化社会而产生的一种信息提炼技术,它从大篇幅的文本中快速、准确地抽取出能够表达文本主题意思的句子生成文摘,为人们高效获取有用信息提供帮助。本文首先介绍摘要抽取的研究现状及相关技术;然后针对统计和语义相结合类型的中文摘要抽取算法存在的不足,提出一种改进的摘要抽取算法。新算法从以下两方面对原有算法进行了改进。针对汉语词语的多义性问题,本文提出一种词义排歧的改进算法。该算法先利用知网和训练语料建立义原同现频率数据库,作为词义排歧的依据;在计算待排歧词各义项与上下文特征词的相关系数时,考虑对表达语义能力不同的四类义原的对应关系,并且考虑两个影响词语语义表达的距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与待排歧词之间的空间距离。针对概念向量空间模型中项之间的独立性问题,本文基于聚类思想提出一种模糊的概念等价类划分算法。该算法从现实意义出发,对那些在表达语义上没有明显区别、相似度很大的概念,进行等价类划分,合并为概念集合,以概念集合代替单独的概念作为向量空间模型的项,用改进的概念向量空间模型表示文本,进而更准确地对文本进行量化,以便生成更为精简的摘要。最后本文开发了相应的实验系统,对提出的基于ICVSM(改进概念向量空间模型)的摘要抽取算法进行了实验验证。实验结果表明,改进后的算法较以往的算法,在对歧义词排歧的准确率和召回率上均有相应的提高,并且使生成的摘要在质量上也有所改进。