汉语语句相似度计算方法研究与应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:xuxuanxxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语语句相似度计算在机器翻译、信息检索等很多领域都具有广泛的应用前景,因此,一直是相关产业和学术界高度关注的重要的研究课题。目前,比较流行的汉语语句相似度计算方法主要是基于向量空间模型(VSM)和基于语义的方法,上述方法只考虑了句子的某一方面,比如词形或语义,难以取得满意的相似度计算结果。  本文针对目前汉语句子相似度计算方法存在的主要问题,充分利用汉语语句的多种信息,研究多因素融合的汉语句子相似度计算方法,并将其应用到题库建设中,以避免大量相似试题的产生,保证题库的质量。主要的研究内容和成果如下。  (1)提出了多因素融合的汉语句子相似度的计算方法。该方法将句子整体上分为三个层面:词形、语义、结构。首先单独计算每个层面的相似度,最后,将这三个层面的相似度设置不同的权重,通过加权得到了整个句子的相似度计算公式。通过该方法能够更好的刻画句子的特征,从而能够取得更好的相似度计算结果。  (2)设计了对比实验。在实验中,本文设置了三组词形、语义及结构相似度权重因子的组合,通过计算测试集中的句子与用户需要检索的句子之间的相似度,得到了相似度计算结果最好的权重因子组合。从准确率、召回率与F1值三个方面,与传统的基于向量空间的相似度方法以及单纯的基于语义的相似度计算方法进行了对比实验,证明了本文方法的有效性。  (3)设计了一个小型的题库管理系统。将本文中提出的多因素融合的句子相似度计算方法封装成一个搜索引擎,将其应用到题库建设中,用户在向题库中输入题目时,首先检测该题目和题库中已有题目的相似度,并将相似度大于0.5的题目看成是相似的题目,说明题库中已存在类似的题目,并照相似度由大到小的顺利展示给用户,也从应用的角度验证了本文的价值。  本文提出的多因素融合的句子相似度计算方法取得了较好的相似度计算结果,对于建设高质量的题库具有较高的应用价值,对于进一步研究汉语句子的相似度计算方法具有一定的理论参考价值。
其他文献
信息时代的到来,信息数据存储的需求与日俱增。人们对保护硬盘数据免受侵害的关注程度也越来越高。硬盘数据加密是当前保护硬盘数据的主要趋势和手段。软件加密方法虽然安装
时间序列分析指对一定时间段内的时间序列数据的特征提取和建模,在宏观经济学、天文学、海洋学、医学等学科中有着广泛地应用。随着大数据时代的到来,随着计算机技术在金融、
近些年来,数据流管理己成为数据库领域的一类热点研究问题,并得到了广泛的关注。随着数据流查询处理等技术的不断发展,数据流在工业控制、环境检测、金融分析和交通管理等领域正
企业信息管理系统的数据权限细化,给企业信息管理系统带来了安全方面和权限管理方面的挑战。基于上述问题,论文提出了基于RBAC的数据对象权限模型。  数据对象权限模型将数据
近年来,电子商务发展迅速,由于其能够节约商务交易成本、提高商务交易的效率,越来越受到人们的关注。但是,在商务交易中可能会存在信息截获和窃取、篡改、假冒、恶意破坏、交易抵
随着移动通信技术的迅速发展,特别是基于IEEE 802.11无线网络技术应用的普及,如何确保向用户提供适合于当时环境的信息,并据此做出决策和自动提供相应的响应与服务,是迫切需要解
随着近代分子生物学实验技术和计算机技术的迅猛发展,以及人类基因组(HGP)的顺利完成,标志着现代生命科学研究已经进入了后基因组时代,研究者把关心的焦点由结构基因组学转向了
协同制造是指盟主和外协厂商之间通过制造任务生成、管理和跟踪来共同完成一个产品制造项目。协同制造任务配置管理能提供一个协同生产的平台,通过对所有相关信息和文档进行组
生物通路是细胞中分子间的一系列活动,导致细胞内某种产物或变化。生物通路可以导致新的分子的组装(如脂肪和蛋白质)、控制基因表达、刺激细胞移动等。复杂疾病往往和生物通路网
网络技术飞速发展,给人们生活带来了极大的便利。但由于网络系统本身具有缺陷和漏洞,加之一些不法分子的恶意攻击,使网络的安全受到了极大的威胁。当今网络攻击的多样性和迅速性