基于语义指纹的海量文本快速相似检测算法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:donnastinsbt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法。在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能。另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档。通过与传统的Simhash算法进行实验对比,体现出该方法在准确率、效率等方面的优势。
其他文献
基于中国特色社会主义发展要求,农村贫困人力资源转移就业是必须要做好的一项工作,该项工作的实施不仅可以加快城乡化一体化建设步伐,同时也能优化配置城乡要素资源。贫困人
随着新型经济体制的不断改革,推动了企业内部的业财融合进度,这也对于企业的风险管理体系做出了新的要求.企业内部的风险管理主要是为了降低企业的投资风险,增加企业的经济效
采用排放因子法,对长江三角洲地区畜禽养殖业氨排放量进行估算和分布特征分析。结果表明,2015年长江三角洲地区畜禽养殖业氨排放量为21.45万t,其中,非规模化养殖氨排放量占14
现如今,地铁的建设不但节省了道路路面的空间,还很好的缓解了城市的交通压力,来更好的为人们出行提供便利,全方位分析评价地铁风险,并合理划分其中所存在的风险,为风险管理提
目的探讨彩色多普勒超声检测胎儿脐血流对宫内窘迫的诊断价值。方法选择2016年7月‐2017年5月在该院产检并分娩的孕妇94例为研究对象,根据新生儿Apgar评分分组,≤7分47例为窘
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
  目的:通过对在福建中医药大学附属第二人民医院体检中心体检确诊为非酒精性脂肪性肝病患者的体质调查,统计福州市区非酒精性脂肪性肝病患者的中医体质类型,分析非酒精性脂肪
在互联网金融快速发展的基础上,诞生了很多高收益、低风险的互联网金融产品,严重冲击了传统的理财市场,同时也对商业银行原有的理财产品造成了挑战。为了给小额投资提供相关
为建立快速、准确的鉴定和定量检测赤潮生物的方法,以圆海链藻为倒,以其18S rDNA序列为寻找种特异性引物的靶区域,通过分析18S rDNA序列,设计出适合用于RFQ—PCR的引物与探针,并通
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield