近似重复记录的自适应距离度量检测

来源 :西安电子科技大学学报 | 被引量 : 0次 | 上传用户：zixian007

【摘要】

：

提出了一种结合自适应字符串距离度量的记录相似度学习方法，用于多源Web数据集成中的重复记录检测．该方法首先使用最大熵分类器标注记录对中字段间的关联类型；然后根据每个字段

【作者】

：

黄健斌姬红兵孙鹤立

【机构】

：

西安电子科技大学电子工程学院,西安电子科技大学计算机学院,西安交通大学计算机科学与技术系

【出处】

：

西安电子科技大学学报

【发表日期】

：

2007年2期

【关键词】

：

近似重复记录检测记录链接实体匹配数据集成 approximately duplicate records detection record linkag

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了一种结合自适应字符串距离度量的记录相似度学习方法，用于多源Web数据集成中的重复记录检测．该方法首先使用最大熵分类器标注记录对中字段间的关联类型；然后根据每个字段对的关联类型，为其选择合适的距离函数；最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对．在不同领域的数据集上的实验结果表明，该方法能够提高重复记录检测的精度，且具有良好的噪声数据抑制能力．

其他文献

GF（q）上的广义自缩序列

给出GF(q)上生成密钥流的一种简单算法——广义自缩生成器．GF(q)上的广义自缩序列族B(a)具有群结构．这些序列之间具有很好的相关性．这些序列在一个周期之内是均衡的．族B(a)中不少

期刊

流密码广义自缩序列密钥流序列密码体制保密通信stream ciphermsequencesselfshrinking generatorthe

梯形图诊断复杂心律失常的价值

梯形图的发明和使用可以追溯到1934年。心电图大师Lewis发现，普通的心电图可以用语言来描述、表达，而复杂的心电图单靠语言无法表达清楚，他用4条横线分成三个区域分别代表心房、

期刊

梯形图心律失常心电图

基于多级维纳滤波器降维技术的波达方向估计

针对基于子空间分解的参数估计算法所存在的运算量大、信噪比门限高等缺点,提出了采用多级维纳滤波器进行波达方向估计的方法.该方法将波达方向估计和多级维纳滤波器相结合,

期刊

降维滤波器多级维纳滤波器波达方向Computer simulationElectric filtersInterference suppression

近似重复记录的自适应距离度量检测

其他学术论文