论文部分内容阅读
网络技术的快速发展使得Internet成为当今人们交换信息的主要场所,信息呈爆炸式的增长,检索难度加大。信息摘要对于信息的发布者、使用者以及搜索引擎都有着重要的作用,它能够提高搜索引擎的检索速度和用户获取信息的速度,然而人工提取摘要工作量巨大,因此自动摘要技术得到了广泛的重视和研究。基于篇章结构的自动文本摘要方法在近年来发展迅速。潜在语义分析是一种篇章结构分析方法,其核心是用于描述文本产生机制的主题模型。一个好的主题模型应该能把握创作者的思路,即文章所表达的意思和这些意思之间的转折情况,并且能够根据意思选择合适的词组织成句。HMM(Hidden Markov Model)模型将文本看成由句子构成的观察序列,隐藏状态是文本的主题,该模型取消了主题的独立性假设,在理论上比较成功地描述了文本的发生机制,但是对于文本摘要,特别是单文本摘要,如果能得知文本各部分主题的长度,就能够保证摘要内容的平衡性。主题模型的训练离不开词频统计,词语多义现象造成基于词形的词频统计不准确,因此需要先对文本进行词语消歧。本文的主要工作和贡献在于:1.研究比较了各种基于WordNet的词语相关度计算方法,做出了一些改进;提出了句子连贯度这个概念,给出了计算方法,用于词语消歧任务;基于WordNet实现了自动文本摘要的预处理工作——词语消歧。2.在词语消歧的基础上,基于句际相关度而不是相似度进行句子聚类,从而能够更加合理地初始化潜在语义分析模型。3.提出了一种HMM扩展模型即非独立HMM模型——DHMM,它仍然是一种动态贝叶斯模型,给予合适的初始参数,该模型能够分析文本的语义结构,还能给出各个主题的长度,根据主题长度确定对应每个主题的摘要句子个数可以保证摘要内容的平衡性。