论文部分内容阅读
在自然语言处理的研究领域中,句子相似度的计算是一项非常基础而又关键的研究工作之一,它的计算精度直接影响着其他一些相关研究领域的研究进展,例如:在中文自动问答系统中,句子相似度用于匹配用户输入的问句和实例库中的问句,根据两者的匹配结果返回给用户相应的答案;在中文自动摘要系统中,句子相似度用于度量任意两个句子之间的语义距离,用于抽取主干句子和排除意义相近的句子;在基于实例的机器翻译研究中,句子相似度用于匹配用户待翻译的句子和双语对齐的语料库中的句子,根据匹配结果对句子进行翻译。本文对多特征的句子相似度计算方法进行了研究,研究了句子的词形相似度、词序相似度、结构相似度、词性相似度、句法相似度和语义相似度,对其中的结构特征相似度进行改进,采用简化版的结构相似度计算方法;对句法相似度进行改进,根据依存关系中不同部分的重要程度不同,综合给出两个依存关系五元组的相似度。通过综合句子的多种特征相似度,提出了一种多特征的句子相似度计算方法。通过两个实验结果可以看出,本文提出的相似度计算方法能够满足实际需求,和人工评价的相似度值比较吻合。最后,对全文进行了总结,并对未来句子相似度的发展方向进行了展望。