【摘 要】
:
simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用
【基金项目】
:
国家自然科学基金(71561023);宁夏重点研发重点项目(2018BFG02003);宁夏大学生创新创业计划(2019107490762)
论文部分内容阅读
simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用多线程的方式达到指定的运算量级,对准确率的问题使用折中点的方式去解决,长短文本使用不同的汉明距离去判定文本的相似性,同时运用TF-IDF算法与标注重点相结合的方式,使得确定权重的方式在基于TF-IDF的算法下适应于更多的文本,让不同的文本确定权重变得更加的灵活。
其他文献
目的探讨妊娠期低T_4血症与血脂代谢之间的关系。方法选择产检孕妇2 428例为研究对象,其中共检出亚临床甲状腺功能减退(简称亚甲减)孕妇425例(其中低T_4血症192例,作为研究组),非
BenBrode是暴雪《炉石传说》项目高级策划,以其独特的笑声闻名于炉石玩家。在最近的一次采访中,他谈到了新版本中最讨人厌的佛祖骑。暴雪依然坚持“随机性是比赛控制的一部分”
系统搜集近5年国外用户在线健康信息行为领域的研究文献作为样本数据,利用双聚类分析对样本数据进行处理,揭示该领域的主要研究方向,在此基础上,采用文本编码的方式进一步归
该文是个案研究系列之海河流域北京城市空间营造研究,对北京城市族群的更替叠累及城市空间营造进行了分析研究。
针对激光测距机在军事及民用领域的应用及其现场校准的实际需要,本文提出了用于激光测距机主要参数现场校准的技术方案.该装置主要是以电路脉冲周期和光速的乘积作为长度基准