【摘 要】
:
随着数字化技术和互联网的发展,各种信息资源迅速膨胀,数据呈现出多样化的新特点。这些多样的数据已不再适合存储在单一的数据模型或传统的关系数据库系统中,因此人们引入一个新
论文部分内容阅读
随着数字化技术和互联网的发展,各种信息资源迅速膨胀,数据呈现出多样化的新特点。这些多样的数据已不再适合存储在单一的数据模型或传统的关系数据库系统中,因此人们引入一个新的数据管理模式——数据空间。用户可通过数据空间管理系统所提供的服务功能来对数据空间进行管理,如数据分类、查询、更新、索引等。数据空间不仅要能支持不同形式的数据的有效管理,还应具有自我进化能力,自动抽取数据模式,发现数据资源间的关联,使数据空间的操作更加高效。与数据库管理系统不同,数据空间采用pay-as-you-go的进化方式,逐步形成数据空间的模式,这个过程也是数据不断被交换和集成的过程。
本文研究数据空间实体模式匹配问题,首先介绍了课题组提出的一个数据空间管理系统的框架和它所采用的基于刻面描述的数据模型。为了在汉英双语的语言环境中分析数据空间中各资源的语义关系,本文提出了一个基于中文WordNet的中英文词义相似度计算方法,在WordNet同义词集(synset)的上下位关系图中,引入了距离、密度、深度三个因素来估计同义词集之间的相似度,并采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题,实现了一个可以计算英-英、汉-英、汉-汉词语之间相似度的算法。实验结果表明:本方法得到的结果比较符合人们对词语的理解。当用户将各种数据源加入到数据空间后,有些数据资源或许存在着语义关联,描述同一类型的实体可能存在着不同的模式。因此我们利用词义相似度算法和中文分词工具,从列名距离、数据类型、数据内容的词性成份等角度来建立同类实体不同模式之间的映射关系,增强数据空间的语义凝聚力。
其他文献
自IB方法提出以来,IB理论及其算法在各领域的应用不断地加深,随之也暴露出一些问题,其中之一是:IB理论所定义的相关变量必须与源变量以共现数据的形式出现,即IB算法需要事先得
频繁Web访问模式发现是Web使用挖掘的关键内容,能够从海量Web数据中发现有用的用户访问信息,从而帮助企业改善站点和服务器设计,提升用户服务质量。语义Web为当前Web上的内容
随着互联网的发展,网络中的用户和商品都越来越多。传统的推荐算法由于混入了过多干扰和无用信息,在为每个用户进行推荐时得到的准确率并不高。而流行性预测是一种利用商品在
近年来,信息安全日益引起人们的重视,网络攻防能力已成为信息化时代人们关注的焦点。然而,传统的防火墙、入侵检测等防护手段在现代网络对抗中使防守方显得十分被动。跳频技
全过程计算机辅助动画自动生成技术是由中科院数学所的陆汝钤院士提出的,结合了人工智能理论与现代多媒体技术的全新动画制作过程。它形成了一套自顶向下、逐步求精的方法,以
随着移动计算设备和无线传感器的大量出现,网络将成为人与周围物理世界交互信息的接口。Internet和移动通信技术的发展,移动IPv6为连接到Internet的主机用户提供了移动性支持
随着信息技术的发展,越来越多的图像数据需要被秘密传输,图像秘密共享改变传统单一加解密模式,将秘密共享技术应用于处理图像数据,能够分担责任,提高系统安全性和健壮性,在银
随着我国网民规模接近7亿,互网联页面数突破2000亿,信息爆炸般增长,从中获取有效信息也变得愈加困难。因此也有了许多个性化解决方案来对互联网信息进行筛选提供给人们符合所
现代高层建筑设计逐渐朝着快速、集约的方向发展,建筑公司为了进一步完善建筑施工系统,利用计算机辅助设计技术通过可视化的方式,来模拟仿真建筑工程施工的过程。借助这些技术的
随着国民经济的飞速发展,汽车的数量急剧增加,城市交通管理现代化水平的提高势在必行。汽车牌照识别系统作为智能交通系统中的重要部分,被广泛应用于智能停车场管理、违规车