文本相似度计算理论与应用研究

被引量 : 0次 | 上传用户:huanxia185
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的相似度计算是信息处理领域中一项基础而又重要的工作,它是实现文本数据挖掘的关键技术,许多重要的应用研究都与它相关。例如在文本复制检测、文本分类、文本聚类、信息检索等领域中,文本相似度计算都有着广泛的应用,值得我们进一步研究和探讨。缺乏坚实的理论依据和不能完全拟合文本的特性,是现有的文本相似度计算模型的弱点。中文文本的理解和处理相对于英文文本,则更加具有难度。为了能对现有的算法进行改进,本文详细比较了中文信息处理中的各种文本相似度计算方法,分析其特点和不足之处,提出了自己的改进方法:一个分阶段融合的语义相似度计算方法。最后,本文从文本相似度理论、方法和应用结合的角度出发,结合文本聚类的特点,探讨了文本相似度计算在文本聚类中的应用。本文主要工作内容如下:1)现有文本相似度计算方法研究。本文讨论了现有的几种相似度计算方法,介绍了相似度计算的关键技术和存在问题,为后续研究做好了理论基础;2)提出了一种新的分阶段融合的语义相似度计算方法。从语义角度理解汉语,比基于统计的方法更贴切。通过研究和对比,本文提出了从句子、段落到文本整体分阶段进行的计算方法,结合每个阶段的特点,分别融入了对文本语义的计算因素,力求最后的相似度计算结果更为准确。3)以文本聚类为例,把本文提出的相似度计算方法应用到文本聚类中去,具体说明了文本相似度计算的影响和应用。实验证明改进后的算法取得了更好的效果。
其他文献
在改革开放的新时期,尤其是进入深化改革、扩大开放的新世纪,多元文化并存的局面,使我们划清“四个重大界限”的思想政治教育的任务变得更加艰巨,在我们不断探寻现实的理论依
体育与电影具有天然的近亲性。体育有狭义和广义两种含义,狭义指"身体教育,即以强身、医疗保健、娱乐休息为目的的身体活动,与德育、智育、美育相配合,成为整个教育的组成部
研究了酸、碱处理豌豆、大豆蛋白的添加对植脂奶油乳状液的表观黏度、搅打后奶油脂肪部分聚集率、搅打起泡率、泡沫稳定性以及流变性质、感官品质的影响。结果表明:豌豆、大
在中国当代,一些文学史上有影响的古今叙事文学作品,往往被改写成影视作品。剧作者利用题材多样的文学作品,在基本尊重原作精神的前提下,进行电影的二度创作,对名著、经典进
通过山东省不同微量元素的对比试验,分析了各种元素对玉米农艺性状及产量的影响。试验结果表明,土壤中微量元素含量较低的地块,施用锌肥和铁肥具有较好的增产效果,其中玉米施
随着运输、信息和通信技术的发展以及全球范围内贸易壁垒的降低和投资便利化程度的提高,要素资源在各国之间的流动加速;同时世界范围日趋激烈的竞争压力,也使得各国的生产者
在调查平潭综合实验区卫生资源的发展现状的基础上,分析了其存在医疗机构数量不足,高职称的卫生技术人才严重缺乏,财政收支不平衡,医保补偿不合理等问题。为此提出了建立和完
实战的现点是马克思主义哲学的首要的、基本的现点,认识和掌握它具有重要的意义.本文介绍了马克思主义实战观产生的渊源和意义,阐述了马克思主义实践观的内涵,并提出了实践在
我国是世界上水资源非常短缺的国家之一,人均水资源占有量仅为世界平均水平的四分之一。改革开放以来,我国经济社会快速发展,水资源的不足之处已经越来越凸显出来,尤其是我国
2012年气象业务改革调整后,地面实时数据文件新长Z文件的质量控制成为业务工作中的重点和难点。本文结合实际工作,对风、降水、气温、湿度、气压、草温、地温、积雪等气象要