基于领域词典的中文文本相似度匹配

被引量 : 0次 | 上传用户:msjzkdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算在信息检索、机器翻译、自动问答系统、有着广泛的应用,是数据挖掘的一项关键技术,许多重要的应用研究都与之息息相关。中文文本的理解和处理相比于其他语言更加具有难度,首先是中文中没有明确的词的界限,语义层次的分析也由于中文语法灵活带来许多挑战。本文研究了基于领域词典的中文文本相似度的计算,首先基于维基百科构建了科学领域的中文词典,通过对中文文本信息处理中的常用文本相似度计算方法进行比较,对其精确度和复杂度进行分析,针对其优缺点,提出了一个基于关键词(高频词汇的)语义相似度计算方法,并进行了验证。本文的主要工作包括:详细地介绍了相似度计算的几种比较常见的算法,并且分析了文本相似度计算的关键技术和存在的问题,在此基础上提出了相应的改进思路。提出了一种基于维基百科构建领域词典的方法,维基百科是一个开放性的知识平台,从中提取出系统性的领域词典,对中文信息处理中的许多应用都有很大的价值。提出了一种基于关键词的语义相似度计算方法。中文文本的相似度比较问题,由于汉语的特定的语言属性,从语义角度去理解汉语比从其他方法更加贴切。通过研究和对比,本文提出了先找两个文本的关键字,对关键字进行相似度计算,然后再对含有关键字的句子和段落进行相似度计算。力求最后的相似度计算在保证结果不会有很大偏差的情况下,复杂度能够尽可能的小。
其他文献
基于三阶非线性Kerr效应在光纤中产生非线性现象的理论,利用零色散位移光纤中的自发四波混频通过两种实验装置产生了纠缠光子:一种是采用脉冲光抽运由光纤构成的Sagnac光纤环
法律职业化是实现法治的重要条件,亦是各国法学教育欲实现的重要目标。法律职业化要求对大学法学教学的影响是全面的。大学法学教学应作出应对:在法学教育模式、法学教育培养
随着科学技术的进步和物质消费观念的发展,人类真正进入了“读图时代”。视觉媒介和视觉产品所形成的社会文化现象成为许多学者的研究对象,文学与图像的关系成为文学理论中的
水是生命之源、生态之基,是经济社会和人类发展所必须的资源要素。国家十分重视水资源管理,明确水资源开发利用总量红线,严格实行用水总量控制;明确用水效率控制红线,坚决遏制
综述了近年来穴位贴敷治疗慢性支气管炎的研究进展。从穴位选择、药物选择、机理研究、治疗时机和疗效等方面入手,为临床上应用穴位贴敷治疗该病提供理论依据及实践依据。并
“忏悔”一词源于佛教,本指对他人发露自己的过错,以求得容忍宽恕。在西方文化中,素有忏悔的传统,相对于中国传统文化,更具明显的忏悔意识。20世纪80年代以来,忏悔的话题引起
我国“十二五”规划提出24个主要指标,绝大部分的实施进度好于预期,但是氮氧化物排放减少量、化石能源占一次能源消费比重、单位GDP能源消耗降低量、单位GDP二氧化碳排放降低
公安机关在建立良好的警察公共关系方面,扩大了与社会各界和人民群众的交流,取得了群众对公安工作的理解和支持,但也存在不少问题,对此应从多方面强化公安宣传工作。
土壤中不同形态的无机氮与重金属的相互影响的研究对治理土壤污染有重要意义。研究表明氮肥中的无机氮主要通过硝态、铵态氮的根际碱化和酸化效应来影响重金属的活性:铵态氮
当前,在经济金融全球化以及国内经济转型的大环境下,国内商业银行正在经历一场关乎整个银行业未来发展方向的变化,商业银行零售业务正逐渐成为银行业竞争的重要战场。由于其