【摘 要】
:
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召
【机 构】
:
中国传媒大学信息工程学院,中国科学院自动化研究所数字内容技术与研究中心,北京电影学院未来影像高精尖创新中心
【基金项目】
:
国家重点研发计划资助(2017YFB1401000)
论文部分内容阅读
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
其他文献
目的:评价穴位埋线治疗单纯性肥胖的临床疗效。方法:检索中国生物医学文献数据库(CBM,1978—2010年)、中国知网(CNKI,1994—2010年),维普中文科技期刊全文数据库(VIP,1989—2010年),万方医
目的:了解17β-雌二醇对肾脏遭受缺血再灌注损伤后对肾间质的纤维化的影响。方法:将切除卵巢后的32只雌性SD大鼠随机分成分正常组(Control组)、缺血再灌注前雌激素干涉组(E2+
<正>御耕节御耕节是柬埔寨王国的传统节日,于每年佛历六月下弦初四(一般在公历5月)举行。根据柬埔寨的习惯,在国王主持举行御耕节仪式之前,农民是不得开犁耕种的,即使误了农
食品安全治理协同度是制约食品安全治理绩效的关键。在协同理论和食品安全治理内涵的基础上,确定了11项评价指标。运用黑龙江省31个代表性的市、县调研数据进行因子分析,找出