论文部分内容阅读
汉语语句相似度计算在机器翻译、信息检索等很多领域都具有广泛的应用前景,因此,一直是相关产业和学术界高度关注的重要的研究课题。目前,比较流行的汉语语句相似度计算方法主要是基于向量空间模型(VSM)和基于语义的方法,上述方法只考虑了句子的某一方面,比如词形或语义,难以取得满意的相似度计算结果。 本文针对目前汉语句子相似度计算方法存在的主要问题,充分利用汉语语句的多种信息,研究多因素融合的汉语句子相似度计算方法,并将其应用到题库建设中,以避免大量相似试题的产生,保证题库的质量。主要的研究内容和成果如下。 (1)提出了多因素融合的汉语句子相似度的计算方法。该方法将句子整体上分为三个层面:词形、语义、结构。首先单独计算每个层面的相似度,最后,将这三个层面的相似度设置不同的权重,通过加权得到了整个句子的相似度计算公式。通过该方法能够更好的刻画句子的特征,从而能够取得更好的相似度计算结果。 (2)设计了对比实验。在实验中,本文设置了三组词形、语义及结构相似度权重因子的组合,通过计算测试集中的句子与用户需要检索的句子之间的相似度,得到了相似度计算结果最好的权重因子组合。从准确率、召回率与F1值三个方面,与传统的基于向量空间的相似度方法以及单纯的基于语义的相似度计算方法进行了对比实验,证明了本文方法的有效性。 (3)设计了一个小型的题库管理系统。将本文中提出的多因素融合的句子相似度计算方法封装成一个搜索引擎,将其应用到题库建设中,用户在向题库中输入题目时,首先检测该题目和题库中已有题目的相似度,并将相似度大于0.5的题目看成是相似的题目,说明题库中已存在类似的题目,并照相似度由大到小的顺利展示给用户,也从应用的角度验证了本文的价值。 本文提出的多因素融合的句子相似度计算方法取得了较好的相似度计算结果,对于建设高质量的题库具有较高的应用价值,对于进一步研究汉语句子的相似度计算方法具有一定的理论参考价值。