基于分块的句子语义相似度研究

被引量 : 0次 | 上传用户:scuthh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,句子之间的相互关系,尤其是句子相似度的计算一直是人们研究的热点和难点。它在自动问答系统、信息检索、信息过滤、自然语言处理、智能检索、机器翻译等领域都有着非常广泛的应用。句子相似度计算的研究现状及计算结果的准确程度,对其他领域的研究进展有着直接的影响。然而,句子相似度这一概念并不十分明了,它并不能准确指出句子是在语法、语义、还是语用层次上的相似,这也给当前的研究工作带来很大的困难。本文以知网为基础,着重研究义原、概念、以及句子在语义层面上相似度,提出了一种基于分块的计算句子语义相似度的算法,该方法首先通过LTP平台分词和找到谓语中心词以及划分句子模块,然后借助知网丰富的概念定义和实例库扩充等进行消歧,消歧后句子中的词语和知网的概念一一对应,对句子每个分块划分不同的权值后进行相似度计算,最后通过相关实验,证明了本文句子语义相似度计算方法的实用性和有效性。本文就以下几个方面做出了创新性的工作:(1)在刘群、江敏、张振幸等提出的词语相似度计算方法基础上,进一步探索基于知网的概念间的相互关系,提出一种基于知网的概念相似度的计算方法,为下一步句子相似度的计算打好基础。(2)提出一种基于知网的词语消歧策略。该方法依据知网,将具有多个概念的词语提取出来,对其搭配进行扩充,并根据其在具体句子中的词性和前后词性搭配以及固定范例搭配,准确确定词语的概念,使得在计算句子语义相似度之前能将句子中的词语与知网的概念一一对应。(3)提出了一种基于分块的句子语义相似度的计算方法,该方法将每个句子看成一个统一的整体,对于两个需要计算语义相似度的句子,其所包含的信息量的比极大的影响着句子的相似度,并且将这种信息量比统一到块和概念相似度上来,使句子的相似度计算方法具有自上而下的一致性。
其他文献
本文以图里的描述翻译学为理论框架,对《爱丽丝漫游仙境》和《魔境梦游》两个汉译本的翻译策略进行了文本对比研究。这两个中译本分别取自中国大陆和台湾。文章主要采用了描
列车通信网络技术作为现代列车技术的重要组成部分,是列车高速化、自动化发展的产物,在国内外得到了广泛的应用。符合国际标准的列车通信网络设备具有着极其广阔的应用前景,
随着交通量的迅速增长以及重轴载车辆的增多,沥青面层由于层间粘结差而产生的开裂、推移、车辙等病害逐渐增多,如何改善层间粘结效果,并对层间粘结效果进行合理评价是保证沥
现代公司治理的一个重要特点是所有权与经营权的分离,股东不直接执行公司事物,董事负责公司的经营管理。董事作为公司的经营管理者,其是否勤勉尽责为公司最佳利益服务将对公
随着气候变化加剧,干旱缺水是世界农业生产亟待解决的问题,提高作物水分利用效率,实现农业水资源的可持续利用,是我国农业和经济可持续发展的重要保障。摸清农业水资源变化趋
为推进农业经济的发展,需要对基层的农业技术进行进一步改革和创新。围绕基层农业技术推广与应用展开分析和论述,介绍了当下基层农业技术推广与应用的发展现状及存在的不足,
没有哪个时代的摄影,像现在这么繁华,作品从一个展场出来,直接进入另一个展场,影像价格节节攀升,影像展集摄影创作、销售、消费三位一体,商业运营、资本炒作,其间谜局与内幕,伦理的底
采用数值模拟方法研究密闭空间内可燃气体爆炸,并与实验结果对比。分析气温和海拔高度对密闭房间内天然气泄漏后浓度分布及其爆炸传播的影响,并得出拟合公式。结果表明:当环
改革开放以来,中国青年志愿者组织在共青团组织的倡导和发动下快速发展,已经成为中国志愿服务事业中最具生机、最富活力、最为规范的重要力量,它所组织和开展的青年志愿者活
随着网络技术日新月异的发展和普及,网络聊天工具已经成为越来越多的人的沟通选择,而由这一沟通方式衍生的Q币也逐渐成为一种新的流行,引起越来越多人的关注,从而也引发了Q币