基于分布式架构的海量文本快速相似度检测研究

来源 :中国传媒大学学报(自然科学版) | 被引量 : 0次 | 上传用户:Silly728
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
其他文献
目的:评价穴位埋线治疗单纯性肥胖的临床疗效。方法:检索中国生物医学文献数据库(CBM,1978—2010年)、中国知网(CNKI,1994—2010年),维普中文科技期刊全文数据库(VIP,1989—2010年),万方医
目的:了解17β-雌二醇对肾脏遭受缺血再灌注损伤后对肾间质的纤维化的影响。方法:将切除卵巢后的32只雌性SD大鼠随机分成分正常组(Control组)、缺血再灌注前雌激素干涉组(E2+
<正>御耕节御耕节是柬埔寨王国的传统节日,于每年佛历六月下弦初四(一般在公历5月)举行。根据柬埔寨的习惯,在国王主持举行御耕节仪式之前,农民是不得开犁耕种的,即使误了农
食品安全治理协同度是制约食品安全治理绩效的关键。在协同理论和食品安全治理内涵的基础上,确定了11项评价指标。运用黑龙江省31个代表性的市、县调研数据进行因子分析,找出