基于关系向量模型的句子相似度计算及自动文摘研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:konami_13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子相似度计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。本文在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。自动文摘研究如何利用计算机自动地从自然语言文本中提取摘要,摘要中应包含原文的核心内容或用户感兴趣的内容,并以语意连贯的段落乃至篇章的形式输出。当前,基于理解的文摘是在对全文理解的基础上进行的,由于受到知识不足的限制,只能适用于某些较狭窄的领域。基于统计的机械文摘根据文章的外在特征抽取原文中的部分句子作为摘要,当前的一些系统获得了一定的实际应用,但是文摘的质量不太稳定,缺乏句间的连贯性,有时存在摘要冗余。本文介绍了衍生于互联网的热词概念,并在其基础上提出了一种基于热词权重和句子特征的自动文摘系统。该系统首先根据热词词典从文章中获取热词,对热词的长度、频率、热度属性进行归一化处理。然后,对于组成文章的每一个句子,按文中提出的拟合函数计算句子的权重。同时,为利用标题中的有效信息,文中提出了一种标题类型的判断方法,并根据判断结果进一步修改句子的权重。在文章中所有句子权重处理完毕后,按权重值从高到低选择句子组成文章的粗文摘,直到粗文摘长度达到预先设定的值。最后,对粗文摘进行了指代和冗余消除,并按句子在原文中的顺序依次输出构成最终文摘。网络文章的自动摘要实验结果表明,本系统在准确率和召回率指标上均有较大提高,具备一定的实用性。
其他文献
高职大学语文课程通过培养学生文学鉴赏、语言沟通以及应用写作等能力来提高学生文化素养,品格修养,陶冶学生道德情操,让学生能更好地适应社会发展和提升个人职业能力。而高
马克思指出:"各种经济时代的区别,不在于生产什么,而在于怎样生产,用什么劳动资料生产."又说:"机械性的劳动资料更能显示一个社会时代的具有决定意义的特征."那就是说,区别时
论述就业是最大的民生,牵涉千家万户,关系到社会的稳定。随着我国社会主义市场经济的不断发展,政府在建立和完善公共就业服务体系,满足社会公众在公共就业服务的需求上,取得
农业的根本出路在于机械化、规模化和科学化。但是在当前工业化、城市化快速推进的时期,农村青壮年劳动力大量转移,从事农业的专业劳动力日益减少,而家庭承包责任制分散经营又限
指出了拖拉机检验工作的重要性,介绍了陕西省富平县拖拉机检验工作的现状,分析了影响年检率的原因,并针对近年来拖拉机年检率下滑、安全隐患加剧的现状,从宣传、管理等方面提出了