基于SimHash的文本相似检测算法研究

来源 :电子测试 | 被引量 : 0次 | 上传用户:zhengyicai2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用多线程的方式达到指定的运算量级,对准确率的问题使用折中点的方式去解决,长短文本使用不同的汉明距离去判定文本的相似性,同时运用TF-IDF算法与标注重点相结合的方式,使得确定权重的方式在基于TF-IDF的算法下适应于更多的文本,让不同的文本确定权重变得更加的灵活。
其他文献
目的探讨妊娠期低T_4血症与血脂代谢之间的关系。方法选择产检孕妇2 428例为研究对象,其中共检出亚临床甲状腺功能减退(简称亚甲减)孕妇425例(其中低T_4血症192例,作为研究组),非
BenBrode是暴雪《炉石传说》项目高级策划,以其独特的笑声闻名于炉石玩家。在最近的一次采访中,他谈到了新版本中最讨人厌的佛祖骑。暴雪依然坚持“随机性是比赛控制的一部分”
系统搜集近5年国外用户在线健康信息行为领域的研究文献作为样本数据,利用双聚类分析对样本数据进行处理,揭示该领域的主要研究方向,在此基础上,采用文本编码的方式进一步归
该文是个案研究系列之海河流域北京城市空间营造研究,对北京城市族群的更替叠累及城市空间营造进行了分析研究。
期刊
针对激光测距机在军事及民用领域的应用及其现场校准的实际需要,本文提出了用于激光测距机主要参数现场校准的技术方案.该装置主要是以电路脉冲周期和光速的乘积作为长度基准