一种面向Deep Web数据源的重复记录识别模型

来源 :电子学报 | 被引量 : 0次 | 上传用户:renminjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同DeepWeb数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各DeepWeb数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从DeepWeb中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deep
其他文献
本文研究放大转发MIMO中继系统的天线选择,目标是最大化系统容量.针对最优天线选择算法的高复杂度,本文提出了低复杂度且性能逼近最优的快速天线选择算法.首先对MIMO中继系统
[目的]为今后深入了解茉莉酸诱导橡胶树乳管分化的分子机理奠定基础。[方法]根据bHLH转录因子基因保守区设计引物,以橡胶树树皮RNA反转录第一链cDNA为模板,获得橡胶树树皮组织b
针对多通道喷墨打印机,提出一种将打印色域划分并在分割后的子区域内实施色彩校正的算法.首先建立打印机的呈色模型,进而分析了高维颜料空间的光谱冗余及色域划分的可行性,在
针对WLAN,提出了一个基于多包接收的跨层资源分配方案.本文首先给出多个用户"共享"子信道的条件,并提出了子信道"独占"和"共享"混合模式的信道分配方案;然后,推导了满足用户QoS要求
针对认知超宽带与现存窄带系统干扰问题,采用Polycycle信号作为超宽带原始脉冲,使用Hermite矩阵特征向量方法设计了认知超宽带自适应脉冲,实现了干扰抑制.仿真结果表明,提出
[目的]对3个国外引进芦笋品种进行了比较。[方法]以UC-157、UC-800和阿特拉斯3个国外引进品种为研究对象,针对1年生植株。测定株高、茎粗、第1分支高度等形态指标和叶绿素、蛋
提出了基于多项式-厄米多项式变换(PHPT)的多项式相位信号(PPS)参数估计算法.其基本思路是将相位系数转化为泰勒系数的估计,并用PHPT实现泰勒系数的估计.该方法为线性算法,对最低
[目的]研究优良品种木薯“辐选01”无性系组织培养技术。[方法]以“辐选01”带腋芽的茎段为外植体进行组织培养,分别在无性培养系建立、芽的增殖、生根和移栽4个阶段进行研究
提出一种基于修正的最小生成树及其邻接谱的特征匹配算法.该算法利用两幅图像的特征点分别构造最小生成树,并对最小生成树进行修正,然后对修正的最小生成树的赋权邻接矩阵进行SVD分解,获得点的特征表示,进而利用特征值及特征向量来构造匹配矩阵,实现特征匹配.该算法的优点在于采用图的最小生成树(而不是整个图),可以减少多余信息的干扰,提高匹配精度,实验结果表明,该算法具有较高的匹配精度.
针对同时含有模糊和几何形变的图像,本文提出一种新的基于Legendre正交矩模糊和几何混合不变量的图像配准方法.该方法首先利用Harri-sLaplace算子检测出图像的特征点,然后构造Legendre矩混合不变量,并将其作为特征点的描述子获取特征点的对应关系,接着通过该对应关系估计图像间的形变参数,最后利用插值方法实现图像的配准.实验结果表明:本文方法能有效地解决含有混合形变的图像配准问题,并且