【摘 要】
:
万维网是一个海量的、动态的、非结构化的、异构的信息仓库,这些特性为现有的信息处理技术带来了一系列挑战.今年来一系列的研究相继出现和发展,并在某些领域获得不错结果,例
【机 构】
:
清华大学计算机系数据库实验室,北京,100084
论文部分内容阅读
万维网是一个海量的、动态的、非结构化的、异构的信息仓库,这些特性为现有的信息处理技术带来了一系列挑战.今年来一系列的研究相继出现和发展,并在某些领域获得不错结果,例如互联网搜索引擎技术(Yahoo,Google)已经成功地商业化.但海量数据的压力和用户巨量点击率,使搜索引擎只能对页面进行较简单的分析,提供给用户的查询方式也是基于传统的,本文探讨模式驱动的面向领域智能Web数据采集引擎.
其他文献
随着Web Services应用范围的不断扩大,不但需要对现有的Web Services进行合成,而且需要在合成过程考虑如何从功能相同的WebServices中选择其中某些Web Services来完成合成任
改革开放以来,我们所进行的一项重要工作就是建设法治社会.对于建设现代国家来讲,这项工作是非常重要的.因为现代国家需要有规范的经济秩序和规范的社会秩序,也就是自然人和
众所周知,财政审计是国家审计工作永恒的主题.财政是国家机器存在和运行的经济保障,是公共产品产出数量和质量的经济保障,是国有企业建立和发展的前提和基础.因此,财政收支能
具有深描海量特性的城市历史文化资源信息系统,可以利用数据库、WEBGIS(WEB Geographical Information System)、超媒体、遥感和虚拟现实技术,在田野调查法、历史文献调查的
本文介绍了一种针对CDN系统的负载均衡解决方案,概述了系统架构,详细讨论了方案中的重定向、实时调度策略和内容一致性问题,并对其实现技术做了简单介绍.该方案的实现系统以.
继“5·12”汶川大地震救灾款物全程跟踪审计取得满意效果之后,接踵而至的灾后恢复重建跟踪审计再次大显身手,阶段性成果显著,有力推动了灾后重建各项工作健康有序的开展.
在基因表达的过程中,蛋白质的合成主要分为转录和转译两个阶段.在蛋白质的转录阶段中,转录因子通常在相应的转录区域中具有相同的长度(大约8~20bps)和很高的相似性,因此把转录
关联规则挖掘在商场的顾客购物分析、商品广告邮寄分析、网络故障分析等领域都具有重大的应用价值.本文对关联规则挖掘算法Apriori进行了研究,提出了一种利用矩阵相乘,直接生
【目的/意义】文本自动摘要能快速获取文本主要内容,极大提高信息使用效率,帮助人们从信息海洋中解放出来。随着互联网大数据日益深入发展,文本信息的数量已经远远超出人工处
在西方有种通行的说法:公众投资者的成熟是基金业发展的动力,基金管理人的成熟是基金业发展的保证。我国投资基金虽然起步较晚,却发展迅速,由于投资基金的发展可以弥补银行