基于语义分析树核的句子相似度计算

被引量 : 0次 | 上传用户:she002ying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子相似度计算在自然语言处理领域的各个系统中具有非常广泛的应用,如:问答系统、自动文摘系统、信息检索系统以及基于实例机器翻译系统。因此长期以来,句子相似度计算问题,一直为人们所热衷。本文对相似度计算的各个层次进行了论述,重点论述了句子相似度计算。在研究汉语句子相似度的过程中,认为一个句子信息的完整表达,不但依赖于组成句子的词汇,而且还依赖于词汇之间的关系。因此,提出语义分析树核的相似度计算方法,对汉语句子的句法结构、词语语义、词形三个特征进行了研究,在使用这三个特征在计算句子相似度时各有侧重,互为补充。首先,将树核应用于汉语句法结构相似度计算。对于汉语句子的嵌套结构,最直观的表示形式是树状结构,因其更能体现句子结构信息。此外,在比较例句和候选句时,两种结构的相似度不仅体现在单个分支的句法结构,也体现在句子的整体结构上,使用树核能精确计算两个句子的句法结构相似度。其次,研究了句子的词语语义相似度计算方法。利用《同义词词林》提供的丰富语义信息,提取两个汉语句子中的关键词,并考虑词性对词语相似度的影响,去除句子中的冗余信息,计算关键词之间的词语语义相似度。再次,研究了两个句子形态上的相似度,以两个句子中所含相同关键词的个数占两个句子中的总关键词的个数来衡量,即词形相似度。最后,使用多特征融合的方法融合三个特征。句法特征、词语语义特征、词形特征分别反映了句子的结构、语义、表层词语方面的信息,通过设定各个特征的权值来调节它们对句子相似度计算的贡献。实验测试集为6000个句子,其中的5000句为噪音集,另外的1000句通过手工获得,构成标准集。在此测试集上使用本文所使用的方法,获得91.3%的查准率。
其他文献
伴随着无线网络的高速发展,其安全机制也越来越完善,同时越来越多的用户开始使用无线网络。但在这些用户中,有四成的用户还没有意识去设置无线网络的安全,所以导致其无线网络
介绍镇海电厂S109FA燃气—蒸汽联合循环发电机组的热力系统及设备组成,阐述了PG9351FA燃机的压气机、燃烧室及透平的特点,以及S109FA联合循环机组的特点,以及控制系统的特点
摘要:目的比较椎板开窗髓核摘除术和椎间盘镜下髓核摘除术治疗腰椎间盘突出症的临床效果及优缺点。方法:2001年12月~2003年12月总共有30例腰椎间盘突出症的患者用METRX系统治疗
目的:对成年大鼠背部乒乓球拍样窄蒂皮瓣局部注射重组人生长激素,通过对皮瓣成活过程中VEGF、CD34表达及新生血管的测定,观察其对皮瓣成活的影响,并探讨重组人生长激素在影响皮瓣
目的:调查手术室实施持续质量改进(CQI)对手术标本的保存、送检的影响。方法:成立科室质量控制小组,根据手术室手术标本质量管理中存在的问题确立改进目标,实施CQI。结果:实施CQI
介绍了国内最先进的9FA级单轴燃气—蒸汽联合循环机组中2大控制系统(GE的M arkⅣ与西屋爱默生DCS)通讯的方式、设计以及实现,简要分析了有关控制系统的控制原理和方法。
城市微气候循环的构建,以局地气候的良性循环实现建成环境对大气候环境的动态适应与优化,进而借助气候舒适度实现城市低碳节能的目的。本文基于微气候循环,一方面通过对重庆
球床反应堆的功率密度高、堆芯尺寸小、裂变产物完全包容,在空间核动力系统中具有广泛的应用前景。针对空间核电推进球床反应堆,开发了稳态热工水力分析程序,对堆芯进行了全
编者按:八十年代初,浙江温州柳市镇五金电器市场出现了“八大王”,1982年8月,他们作为重大经济犯罪分子受到严厉打击,或被关押,或潜逃在外。1984年,他们又奇迹般地被宣布无罪,恢复名誉,全部归还
中共中央总书记、国家主席、中央军委主席、中央全面深化改革委员会主任习近平11月14日主持召开中央全面深化改革委员会第五次会议并发表重要讲话。他强调,庆祝改革开放40周