论文部分内容阅读
中文信息处理技术在日常生活中有十分重要的地位,但其中的基于语义层面上的深层次相似度计算的进展却比较缓慢,目前关于汉语相似度计算的方法或多或少的存在不足,本文基于语义依存度计算对汉语句子相似度算法进行了研究。本文针对汉语句子相似度算法和信息检索的特点,对语义依存算法进行了改进,提出了一种基于加权语义依存的句子相似度算法,并将该算法应用于信息查询模型中,对查询结果进行重排序,取得了较好的效果。主要研究内容如下:改进语义依存相似度算法。通过深入分析基于语义依存相似度算法的特点,针对该算法判定句子有效搭配对权重存在不全面的问题,在判定句子有效搭配对的权重时加入了语义角色标注信息;针对该算法丢弃句子有效次关键词信息的问题,结合词形与词义相似度算法的特点,对语义依存进行加权。提出了基于加权的语义依存相似度的算法,实验结果表明该算法提高了句子相似度计算的准确性。改进算法的应用——提出重排序算法。如何同时提高查询系统的查全率和查准率是信息查找领域的一个难题。针对该问题,用基于加权语义依存相似度算法对查询结果做重排序处理,通过计算原查询语句与查询结果的前K个文档标题的相似度,对查询结果重新排序,从而提高前K个返回结果的查准率。实验证明,本方法在确保系统查全率的基础上进一步提高了系统的查准率。