基于潜在语义分析的单文本自动摘要方法研究

被引量 : 0次 | 上传用户:yy080408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的快速发展使得Internet成为当今人们交换信息的主要场所,信息呈爆炸式的增长,检索难度加大。信息摘要对于信息的发布者、使用者以及搜索引擎都有着重要的作用,它能够提高搜索引擎的检索速度和用户获取信息的速度,然而人工提取摘要工作量巨大,因此自动摘要技术得到了广泛的重视和研究。基于篇章结构的自动文本摘要方法在近年来发展迅速。潜在语义分析是一种篇章结构分析方法,其核心是用于描述文本产生机制的主题模型。一个好的主题模型应该能把握创作者的思路,即文章所表达的意思和这些意思之间的转折情况,并且能够根据意思选择合适的词组织成句。HMM(Hidden Markov Model)模型将文本看成由句子构成的观察序列,隐藏状态是文本的主题,该模型取消了主题的独立性假设,在理论上比较成功地描述了文本的发生机制,但是对于文本摘要,特别是单文本摘要,如果能得知文本各部分主题的长度,就能够保证摘要内容的平衡性。主题模型的训练离不开词频统计,词语多义现象造成基于词形的词频统计不准确,因此需要先对文本进行词语消歧。本文的主要工作和贡献在于:1.研究比较了各种基于WordNet的词语相关度计算方法,做出了一些改进;提出了句子连贯度这个概念,给出了计算方法,用于词语消歧任务;基于WordNet实现了自动文本摘要的预处理工作——词语消歧。2.在词语消歧的基础上,基于句际相关度而不是相似度进行句子聚类,从而能够更加合理地初始化潜在语义分析模型。3.提出了一种HMM扩展模型即非独立HMM模型——DHMM,它仍然是一种动态贝叶斯模型,给予合适的初始参数,该模型能够分析文本的语义结构,还能给出各个主题的长度,根据主题长度确定对应每个主题的摘要句子个数可以保证摘要内容的平衡性。
其他文献
中共十六届五中全会提出的"把自主创新能力作为科学技术发展的战略基点和调整产业结构、转变经济增长方式的中心环节"的重大战略决策,其创新体制的核心就是把企业作为自主创
20世纪50年代的台湾海峡危机是中美关系史上的重大事件,其影响是深远的.中美关系在台湾海峡危机中的互动、危机对中美两国国家安全战略和外交政策的影响以及对东亚地区国际关
近年来外语类院校的毕业生逐年增加,虽然随着国家相关就业政策进一步改革,大学生就业状况有所好转,但形势依然严峻,导致外语类院校学生在就业择业时承受了过多的思想和心理压
本文结合教学实例,从错误性资源、差异性资源、问题性资源三方面简要阐述了对初中数学课堂教学中动态生成的资源的有效捕捉与利用,以期能使师生之间的交流得到有效的沟通、启
国家观是关于国家的根本观点和根本看法,其主要包括国家的起源、本质、职能、形态、消亡等一般性内容,以及人与国家的关系、社会与国家的关系、不同国家观之间的比较等扩展性
目的和意义:本研究目的在于探讨中药解毒祛疣汤浸泡治疗多发性跖疣的临床疗效,并旨在寻找一种简单有效的非创伤性治疗多发性跖疣的方法。方法:选择江苏省中医院皮肤科门诊诊断
目的 探讨抑郁症患者睡眠脑电图的特点。方法 对50例抑郁症患者和50例正常对照者进行睡眠脑电图检测,并进行对照。结果 抑郁症患者REM睡眠密度增加、潜伏期缩短、时间缩短、周
二十一世纪是网络发展迅猛的时代,信息技术不断发展和变革,并渗透到人们的生活中,期刊出版编辑工作也不例外。网络信息技术在期刊出版编辑工作中被运用广泛,还形成了一种新型
企业财务报表的发展趋势,与经济发展息息相关,当经济发展到一定的程度,企业财务报表就要发展改变,使之与新的经济发展情况相适应,这样才能客观有效的反映企业资产情况。本文
发展高效的城市公共交通系统是缓解城市交通拥堵问题的一个重要措施,随着轨道交通的发展和建设,其在城市公共交通体系中的地位越来越重要。然而,任何一种交通方式都需要其他