基于分类的数据集成方法

被引量 : 3次 | 上传用户:shize
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息技术的迅速发展导致数据库的数量激增,这些数据库一般是独立开发,各数据源具有自治性,数据模型对数据的描述或数据的存储结构均可能不相同,并且只服务于特定的应用领域,没有考虑信息共享与协作,例如一个企业会因为并购或者引入新的数据库系统而存在各种异构数据库。集成这些相关数据库意义重大,特别是在人工智能领域和数据共享等领域的应用中,集成多个异构数据源是一项非常具有挑战性的任务。数据集成的目的是将多个分散的数据源中的有用数据按一定的策略组织成一个整体,实现不同来源和格式的数据在逻辑上或物理上有机地集中,使用户能以透明的方式访问数据,从而为用户提供全面的数据共享。数据集成问题的集成方案有两类:虚拟视图方案和物化方案。在虚拟视图方案中,系统将接收到的查询发送到数据源,而物化方案中系统接收到的查询将直接作用于预处理好的数据。本文在对数据集成方案和机器学习分类算法研究的基础上,提出了一种基于分类的数据集成方法,并应用在基于产品信息结构化的WEB问答检索系统平台中,该问答系统为用户提供人性化的商品对比、信息咨询及自动问答功能,系统的数据源来自于网络,商品受限域为手机类电子产品,通过抓取网络上的信息构建数据源,对相关商品的基本信息、点评信息、提问信息进行预处理及初步的结构化处理。论文的主要工作是:针对数据集成领域模式匹配问题和数据整合问题进行了详细分析和研究,分析并比较现有集成方案的优缺点,阐述模式匹配预处理相关技术,如数据归一化和中文分词等,在此基础上研究基于实例层次的模式匹配方法。针对本文特定的课题研究背景,提出了基于分类的模式匹配方法,并通过引入MINHASH技术和LSH技术,降低距离计算过程中的时间复杂度,提高模式匹配的效率。针对各数据源中数据不一致、语义冲突、数据缺失和真值发现等问题,提出了解决这些问题的相关策略,将研究成果应用于基于产品信息结构化的WEB问答检索系统,实验结果表明本文所提出的方法能够较好地解决模式匹配问题,实现异构数据的整合。
其他文献
数学计算模型能够帮助人们更深层次的理解植物的生长发育过程。通过从现实到抽象,它提供了一种方式来测验我们对真实植物行为的假设,对所观察到的现象提供简单的解释,同时也
信息技术迅猛发展和网络空间的急速膨胀使得虚拟世界成为数以万计的人学习娱乐和社交的重要场所,20世纪90年代开始网络游戏进入了中国市场,占用了广大网友的休闲娱乐时间,经历20
语言是社会的镜子,每一句话、每一个词都生动地反映了社会的变化,而流行语较其他语言形式更具表现力,也更敏锐地表现了社会的变迁。随着时代的发展,有的流行语逐渐被人遗忘,但也有
手机探测车是一种全新的、具有巨大应用前景的交通信息采集技术。目前,手机探测车的定位技术集中在基于终端的全球定位系统(Global Position System,简称GPS)和手机切换定位
汉语中的“就”不仅词性复杂,而且每个词性下各义项分类也众多,其中最为广泛使用且较复杂的为表时间的副词“就”。在对外汉语教学中,时间副词“就”是较早接触到的,但是学生在使
小米富含碳水化合物、蛋白质、脂肪酸、矿物质元素、黄色素、多酚等。每100g小米含水分10.60g、蛋白质9.28g、脂肪3.68g、淀粉74.62g、Ca21.80mg、VB10.57mg、VB20.12mg、P26
古代汉语课程是高等师范院校汉语言文学专业的一门基础课,古代汉语古文今译教学是古代汉语教学的重要组成部分。高师的古代汉语教学不仅要提高学生的古文阅读古书的能力,而且要
视错觉运用到室内装饰设计是一个新颖的领域。随着社会物质财富的丰富,人们的要求从“屋的堆积”中解放出来,寻求室内各种物件之间存在统一整体之美。但是由于人们所受到的教
<正> 说来也怪,胡道静先生毕生不事稼穑,然而见到他的人,都说他长得颇似地道的中国老农。难道说,他长年伏案辑逸中国古农书要籍,探寻中国古农学史上的奥秘,宣传中国古农学的
本文针对自动化集装箱码头成组直接中转情况下岸桥的调度问题,研究了中转完工时间、岸桥等待时间、集装箱组数之间的关系。首先,以最小化中转完工时间建立了优化模型;接着,在