基于分层的中文句子相似度的研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:xiaobaihuo197992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机科学技术学科中,愈来愈多的研究领域涉及到对文本信息的处理问题,这些领域以文本信息处理为核心,文本信息处理的好坏制约着它们的进一步发展。文本信息主要由自然语言来表示,对文本信息的处理即体现在对自然语言处理之上。在我们日常汉语文本信息处理过程中,计算中文文本中句子的相似度是极端重要而且又非常基础的一项工作,也是研究人员关注的热点和难点。本文在对中文句子相似度的研究过程中,对于传统的句子相似度计算方法仅仅考虑句子某一方面的特征信息,提出了基于分层的中文句子相似度计算方法。该方法从句子的表层、中层和深层三个层次对句子相似度进行计算,综合考虑句子表层特征信息如句子长度、相同关键字的距离等,句子中层特征信息如句子结构信息,句子的深层特征信息如句子的情感倾向信息。该方法根据句子表层,中层,深层信息对句子的影响因子的大小,通过相应的计算模型来综合两个句子表层相似度,中层相似度和深层相似度,进而计算出句子间整体相似度。本文主要有如下几个方面的研究成果:1)、在本文中,将句子分成表层,中层,深层三个层次,我们认为句子的整体信息是由这三个层次句子的表层信息,句子的中层信息,句子的深层信息组成。其中句子的表层信息主要是由句中词语的信息决定,中层信息是句子结构的信息决定,深层信息是句子情感倾向决定。句子的表层特征信息和中层特征信息决定句子的主题,句子的深层特征信息决定了句子的情感倾向。2)、针对目前常见句子相似度往往是对句子的某一特征进行计算,本文采用分层的结构划分句子特征,并充分综合这些句子特征相似度计算的优点,取长补短。该层次结构即有利于基于分层的中文句子相似度模型今后扩展融合更优的句子相似度算方法,而且因为层次结构的低耦合特性,我们可以根据不同的应用环境选用合适层次的相似度计算方法。3)、本文引入句子深层次情感信息,从人类思维和认识的角度,使对于两个主题表达一致,态度相反的句子相似度衡量更符合人类的语言使用和语义理解习惯。
其他文献
随着计算机技术、通信技术和网络技术的迅猛发展,互联网已成为人们获取信息的一种重要途径。网络大数据背景下,互联网中文本数据的数量和价值呈指数增长,复制网络中文本的现象越
随着网络技术的日益发展,网络系统的安全性和可靠性已经成为网络用户所关注的焦点,对于校园网而言,由于用户数量大,安全隐患多,网络安全也越来越受到学校的重视。传统的网络安全防
协同过滤算法由于简洁的设计思想和优越的计算性能,一直是推荐算法研究领域中的一个热点。随着研究工作的不断深入,如何缓解协同过滤算法的稀疏性与扩展性问题,正逐渐成为人
数据库是数据的集合,数据库系统是现代社会生产、生活不可或缺的组成部分。其中关系数据库系统是迄今应用最广泛的数据库技术,它是基于关系模型的。关系模型拥有简单的数据结构
症状性渗出液相关紊乱(Symptomatic Exudate-Associated Derangements, SEAD)伴随老年性黄斑变性(Age-related Macular Degeneration, AMD)等视网膜疾病产生,本文针对频域光
人脸识别是生物信息安全领域的重要研究课题,而三维人脸比传统的二维人脸有着更多的生物信息。偏微分方程(Partial Differential Equation,PDE)是一种良好的几何曲面建模方法,有
本文主要研究基于视觉机器人的目标跟踪及误差分析,主要包括机器人系统设计、摄像机标定、视频稳定、目标跟踪与测距等内容,整个系统达到预期的效果。主要对以下几个方面做了
多目标检测与跟踪技术作为数字图像、计算机视觉领域的核心技术之一,受到越来越多的国内外学者的关注与研究,且取得了一定的科研成果,其成果在民用和军事上都有着广泛的应用,
近年来,运动捕获技术被广泛应用于电影动画、虚拟现实等领域,该技术按照一定的频率捕获表演者的运动轨迹,将每帧的运动信息保存起来,构成了运动捕获数据。目前的运动捕获技术
目前国际上已实现的入侵检测系统绝大多数使用模式匹配来检测入侵。随着网络数据量的增大,上述系统面临着一些难以解决的问题。为此,一些形式化的方法被提了出来并被应用到入