一个基于流程的数据清洗框架的研究

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:wxjffh8gf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以往的数据清洗方法需要基于模式进行规则编码,费时、困难,而且后期难以修改规则。提出了一种新的相似重复记录的消除框架,可以使用户在无需编码的条件下简单地完成数据清洗工作。该框架具有开放的算法库、函数库以及基于模糊规则和成员函数的模糊推导系统,使其具有较强的通用性和适用性。最后通过实验验证了该框架的有效性。
其他文献
随着网络技术的飞速发展,空间数据的共享越来越便利,致使空间数据安全问题日益突出。作为空间数据共享的源头,空间数据生产部门亦提高了空间数据的共享门槛。为了解决空间数据的安全问题,促进即时共享,该文提出了一种面向空间数据文件的强制访问控制模型,并基于该模型实现了一套原型系统。该系统具有较高的安全性,并达到了空间数据文件使用可控性的目的,为降低空间数据的共享门槛提供一条有效的解决途径。
墨扩散效果的模拟是水墨画仿真的重要工作之一,在分析绘画材料特性和扩散形成机制的基础上,提出一个全新的基于遗传算法的墨扩散仿真模型系统。首先将笔迹和纸张离散化为笔元和纸元;其次借用遗传算法基本概念和原理,对给定的输入笔迹进行轮廓提取作为初始种群,通过种群个体间的选择、重组和变异等遗传活动模拟笔元的扩散过程;最后为了更好地模拟墨扩散方向,使用Ashikhmin算法合成各种宣纸的自然纹理,增强了真实感。
好像梦想就是打鸡血,每次大考之前猛灌鸡汤。而现实往往是,期末没考好,回家还要挨骂;喜欢了很久的人拒绝了自己,到最后坚持下去不知道是爱,还是不甘心。就像曾经梦想去中国传媒大学学新闻,写深度报道,到现在也没能实现。现在还能实现吗?也许能,可再也不是通过高考达成目标之于我的意义。人慢慢成長成熟,谁都没办法知道高三那个暑假打开薛定谔的箱子,里面的猫是死是活。坚持是一种选择,放弃也是。及时止损或许更能早些抽
概念的语义相似度研究,是知识表示以及信息检索领域中的一个重要内容。通过分析两种传统的语义相似度计算方法,对它们存在的问题进行改进,提出了一种综合的基于本体的概念语义相似度计算方法。该方法结合本体网络特征和语义距离计算中的多种语义影响因素,充分利用本体中概念的语义信息计算概念间的语义相似度。实验结果比较合理,验证了该方法的有效性。
利用单一的匹配算法对区域内的浮动车数据进行地图匹配,会出现浮动车点匹配到邻近路段上的跳跃现象。该文将区域划分格网,遍历待匹配点所在格网及其8邻域格网,筛选出候选路段、结点集合;根据候选路段、结点数量特征,自主选择合适的算法,计算几何距离和匹配度指标以评价匹配结果,确保匹配准确性。通过广州的部分区域数据进行算法验证表明:基于合适步长的格网划分能够提高匹配效率;与单一的最近点匹配算法相比,自适应综合匹
随着Internet技术的发展,Web 2.0已经改变了目前的互联网格局,其交互式的特点对传统的企业业务提出了新的挑战,Web 2.0环境下的企业社会化发展越来越受到业界的关注。在分析企业现有业务的基础之上,提出实现基于Web 2.0的企业社会计算的关键技术及其主要模块构造,用SOA框架实现Web 2.0服务和传统企业业务流程的交互融合,最后给出了实现框架并结合企业的典型业务流程进行说明。
扫盲区  高达是什么?  高达是一种动画模型,源于高达系列动画片。  高达模型(gunpla—gundam plastic model)一直是高达动画周边系列不可动摇的主导产品, 高达模型的出现将动画上的巨大的机械人立体化地展现。  高达的历史?  1979年,动画《机动战士高达》开始在日本上映,当时动画播出后,市面上只有出合金玩具;隔年六月,模型商BANDAI公司开始推出模型,第一台模型化的商品