论文部分内容阅读
句子相似度计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。本文在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。自动文摘研究如何利用计算机自动地从自然语言文本中提取摘要,摘要中应包含原文的核心内容或用户感兴趣的内容,并以语意连贯的段落乃至篇章的形式输出。当前,基于理解的文摘是在对全文理解的基础上进行的,由于受到知识不足的限制,只能适用于某些较狭窄的领域。基于统计的机械文摘根据文章的外在特征抽取原文中的部分句子作为摘要,当前的一些系统获得了一定的实际应用,但是文摘的质量不太稳定,缺乏句间的连贯性,有时存在摘要冗余。本文介绍了衍生于互联网的热词概念,并在其基础上提出了一种基于热词权重和句子特征的自动文摘系统。该系统首先根据热词词典从文章中获取热词,对热词的长度、频率、热度属性进行归一化处理。然后,对于组成文章的每一个句子,按文中提出的拟合函数计算句子的权重。同时,为利用标题中的有效信息,文中提出了一种标题类型的判断方法,并根据判断结果进一步修改句子的权重。在文章中所有句子权重处理完毕后,按权重值从高到低选择句子组成文章的粗文摘,直到粗文摘长度达到预先设定的值。最后,对粗文摘进行了指代和冗余消除,并按句子在原文中的顺序依次输出构成最终文摘。网络文章的自动摘要实验结果表明,本系统在准确率和召回率指标上均有较大提高,具备一定的实用性。