异构数据映射技术研究

被引量 : 0次 | 上传用户:l444715055
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集成是信息集成的基础。随着人们对信息综合利用要求的不断深化,大规模异构数据的集成已经成为当前信息集成领域的研究热点。异构数据集成的关键是通过映射技术建立异构数据之间的一致性,包括数据属性或模式的一致性,数据主体或元组实例的一致性。本文工作围绕大规模数据集成中建立模式和数据一致性的映射与匹配技术展开研究,利用机器学习、自然语言处理以及模糊理论对已有的模式映射、实例映射和失效映射检测方法进行发展与改进,并扩展了异构数据集成平台StarEAI,在实际应用中验证了本文给出的方法与技术的有效性。本文主要工作包括:1、在模式层面的一致性方面,本文提出了一种基于数据实例的多策略模式映射方法MSMA,首先针对实例数据具有良好的结构化特征的情况,根据大量样本特征信息,设计了数据格式、约束、均值、贝叶斯等基于实例结构的学习器,并产生预测分类模型,运用机器学习方法,抽取待匹配数据的特征信息,进行模式映射;进而改进了组合算法,将标签作为组合器的输入,有效降低了组合算法的的计算复杂度。实验结果表明MSMA方法的查全率最高达到89%,查准率到达93%,在模式信息缺失的情况下,较已有的著名映射方法LSD准确率提高7%。2、在数据层面的一致性方面,本文提出了一种基于聚类分析的元组实例匹配方法HIMA。首先从方法框架上,HIMA方法利用聚类算法,较一一匹配算法有更高的处理效率;在聚类算法中,采用基于条件概率分布的字符串相似性度量算法进行元素之间距离计算,能够有效的提高匹配准确率;此外,针对一些应用中实例描述冗长的现象,本文提出基于最大熵模型的关键词提取,有效去除无效信息。实验结果表明采用条件概率分布距离度量算法和关键词提取算法的匹配方法HIMA,其准确率达到83%,优于基于距离、基于令牌的算法,其准确率提高6%。3、在运行时模式映射失效方面,本文提出了一种基于模糊聚集算子的失效映射检测方法BMSD,研究了数值、趋势、布局等学习器之间结果融合的各种情况,加入了基于析取加权的模糊聚集算子,改善融合精度;在进行人工数据和真实数据训练结果融合时,引入变权方法,使得融合结果不但能够考虑到各因素的相对重要性的偏好,也顾及各因素状态均衡程度的偏好。实验结果表明BSMD方法的平均准确率达到85%,较已有的Marveric方法提高7%。4、在上述研究的基础上,对我院的国家863成果异构数据集成平台(StarEAI)进行了扩展,增加了自动模式映射功能、元组实例匹配功能以及运行时失效映射检测功能,拓展后的平台在网络监控数据集成项目和军队项目中得到成功应用。
其他文献
随着信息技术的发展,三维软件在建筑设计中的应用越来越广泛,由于每个软件都具有自己的功能优势,所以在室内设计中综合应用多种软件,实现信息共享,是将来建筑设计的发展方向
数控机床在解决复杂、精密零件的加工方面起到了重要的作用,是具有典型机电一体化系统的数控机床。基于PLC的数控机床电气控制系统是数控技术发展的必然结果。PLC数控机床在
清水混凝土又称装饰混凝土,因其极具装饰效果而得名。它属于一次浇注成型,不做任何外装饰,直接采用现浇混凝土的自然表面效果作为饰面,因此不同于普通混凝土,表面平整光滑,色
目的分析微创泌尿外科感染病原菌的具体分布情况与耐药性特征,为抗菌药物的应用以及临床感染预防提供指导。方法选取泌尿外科患者的资料进行分析,并在API检定方法与纸片扩散
目的探讨潮气呼吸肺功能检测及呼出气一氧化氮(Fe NO)检测在25岁儿童哮喘中的临床价值。方法选择2012年1月至2015年6月在第四军医大学西京医院儿科首次诊治的216例哮喘儿童为哮
目的:观察鲜益母草胶囊联合去氧孕烯炔雌醇(妈富隆)用于人工流产术后恢复的疗效。方法:选取130例人工流产术患者为研究对象,分为研究组和对照组各65例。对照组术后予以妈富隆
从凡·艾范发明油画开始,在油画几百年发展历史中,很多油画大师在艺术创作中不断对材料与技法进行创新。
教育很大的程度上是一项"良心工程",教师从教的积极性就显得更加重要。学校管理者应该充分调动教师从教的积极性,提高教育教学质量,提高人的综合素质。应该以"以人为本"。人
为了解决蓝相液晶,特别是聚合物稳定蓝相液晶实用化所面临的瓶颈,业内人士对聚合物稳定蓝相液晶显示器的各个方面,例如:新的电极结构和形状、单体在聚合物网络结构中的分布、
利用SRAP(Sequence-related Amplified Polymorphism)分子标记技术,于2009年5月对来自中国新疆、哈萨克斯坦、波兰等地区的31份杂花苜蓿(Medicago variaMartyn.)种质进行遗传多样