Web大数据环境下的不一致跨源数据发现

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:fang514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
其他文献
目的:观察姜黄素对肝纤维化过程中活性氧(ROS)、丙二醛(MDA)的生成及转化生长因子-β1(TGF-β1)、血小板源性生长因子(PDGF)表达的影响,探讨姜黄素预防肝纤维化的作用机制。方法:采用四
2015年新修改的《立法法》新增了对行政规章的限制:没有上位法“依据”,不得设定权利义务关系。此处的“依据”应作严格解释,即有明确的法条授权。理由可见于《宪法》和《立法
用VHDL设计了一种32-bit数字相关器,测试和实际应用表明其性能稳定可靠.
汇丰最担心中国监管体系是否能与国际最高水准接轨,这句话背后的潜台词是:中国的政策风险深不可测。    如果为了让A股市场成为国际市场,而吸引外资企业上市,很有可能像印尼雅加达市场一样,欲速则不达;如果为了中国金融与资本市场的规范,为了人民币国际化,而允许外资企业在境内上市,则是妙招。  回归上海,当然不只是为了怀旧。这家决心成为所有市场的当地银行的金融机构,不仅在伦敦、香港上市,汇丰控股还在巴黎、