论文部分内容阅读
近年来,信息技术的迅速发展导致数据库的数量激增,这些数据库一般是独立开发,各数据源具有自治性,数据模型对数据的描述或数据的存储结构均可能不相同,并且只服务于特定的应用领域,没有考虑信息共享与协作,例如一个企业会因为并购或者引入新的数据库系统而存在各种异构数据库。集成这些相关数据库意义重大,特别是在人工智能领域和数据共享等领域的应用中,集成多个异构数据源是一项非常具有挑战性的任务。数据集成的目的是将多个分散的数据源中的有用数据按一定的策略组织成一个整体,实现不同来源和格式的数据在逻辑上或物理上有机地集中,使用户能以透明的方式访问数据,从而为用户提供全面的数据共享。数据集成问题的集成方案有两类:虚拟视图方案和物化方案。在虚拟视图方案中,系统将接收到的查询发送到数据源,而物化方案中系统接收到的查询将直接作用于预处理好的数据。本文在对数据集成方案和机器学习分类算法研究的基础上,提出了一种基于分类的数据集成方法,并应用在基于产品信息结构化的WEB问答检索系统平台中,该问答系统为用户提供人性化的商品对比、信息咨询及自动问答功能,系统的数据源来自于网络,商品受限域为手机类电子产品,通过抓取网络上的信息构建数据源,对相关商品的基本信息、点评信息、提问信息进行预处理及初步的结构化处理。论文的主要工作是:针对数据集成领域模式匹配问题和数据整合问题进行了详细分析和研究,分析并比较现有集成方案的优缺点,阐述模式匹配预处理相关技术,如数据归一化和中文分词等,在此基础上研究基于实例层次的模式匹配方法。针对本文特定的课题研究背景,提出了基于分类的模式匹配方法,并通过引入MINHASH技术和LSH技术,降低距离计算过程中的时间复杂度,提高模式匹配的效率。针对各数据源中数据不一致、语义冲突、数据缺失和真值发现等问题,提出了解决这些问题的相关策略,将研究成果应用于基于产品信息结构化的WEB问答检索系统,实验结果表明本文所提出的方法能够较好地解决模式匹配问题,实现异构数据的整合。