基于数据摘要奇偶性的集合相似性近似算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:hu_411102992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在应用b位哈希函数近似计算两个集合的Jaccard相似性时,如果有多个元素与输入元素的Jaccard相似性都很高(接近于1),那么b位哈希函数不能对这些元素进行很好的区分。为了提高数据摘要函数的准确性并提高基于相似性的应用的性能,提出了一种基于数据摘要奇偶性的集合相似性近似算法。在应用minwise哈希函数得到两个变异集合后,用两个n位指示向量来表示变异集合中的元素在指示向量中出现的奇偶性,并基于这两个奇偶性向量来估计原集合间的Jaccard相似性。通过马尔科夫链和泊松分布两种模型对奇偶性数据摘要进行了推
其他文献
针对小样本数据条件下的贝叶斯网络结构学习,首先利用核密度估计(Kernel Density Estimation,KDE)对小规模样本数据进行拓展,然后引用云遗传算法(Cloud Theory-based Genetic Al
短信自动分类是短文本研究的热点问题。针对此问题,提出了关联强度和关联矩阵特征提取方法,并设计了基于关联矩阵的全监督学习算法。为了实现系统的自我学习,探讨了基于关联
针对无线移动传感器网络在目标区域的覆盖问题,提出了一种基于移动距离的局部分布式算法,利用Voronoi多边形的特征对目标区域进行有效的分割,运用力学的矢量概念,根据Voronoi
为实现防水性电子数显卡尺,提出一种用于调频式电涡流传感器的改进型电容三点式振荡电路,讨论电路各主要参数对振荡器电路起振特性、频率稳定性等性能的影响,结合Spice程序对
在集散控制系统中,如果控制节点分布广,敷设通信线路困难,通常采用成本较高的遥控遥测装置.文章介绍了一种利用微机打印并行口来实现PC和PLC间无线监控的系统.该系统具有低成