中文Deep Web的大小、质量及分布

来源 :情报学报 | 被引量 : 0次 | 上传用户:hr2037283
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术。以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:①Deep Web大小比Surface Web的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀。
其他文献
模型是模型管理的重要部分.本文提出基于自然语言理解的模型选择方法,实现模型的自动选择.该方法利用知识库中的规则选择模型,并运用词法分析进行变量提取,为模型实例运行提
目的:研究颞下颌关节盘前移位与颅颌面矢状向发育间的相关性。方法:纳入68例双侧颞下颌关节盘前移位成年正畸患者为关节盘移位组(DD组),27例同期就诊的双侧关节盘位置正常的
随着互联网上信息的迅速增长,信息过滤技术得到越来越广泛的应用.本文论述了一个基于反馈的内容信息过滤系统的设计和实现.它采用向量空间模型,使用类重心分类算法来形成用户
目的:探讨湖南地区口腔黏膜病病种构成和分布特点。方法:收集2017年1月1日~2017年12月31日期间我院接诊的口腔黏膜病患者资料,分析患者性别、年龄及疾病病种分布,并与4年前报
光子晶体由于其优越特性而有极好的应用前景,不仅可使光通信领域产生新的变革,同时将对光电子领域及其他相关产业产生巨大的影响,并越来越受到广泛关注.本文介绍了光子晶体及
如何根据不同用户的个人特点和所承担的工作任务,产生用户知识需求,通过集成管理来实现知识源的统一处理,获取相应的知识,并将其提供给用户是知识集成研究的关键问题。本文基于企
本文研究了如何基于信息检索技术和"知网"实现有效的话题跟踪和话题立场分类.话题跟踪任务就是给出话题相关的训练新闻报道,系统在后续报道中发现与这个话题相关的报道.它属
为了帮助用户有效地发现、过滤和利用信息,信息过滤技术应运而生.协作过滤作为其中一种技术也得到迅速发展,但传统的协作过滤算法存在矩阵稀疏性等问题,影响预测效果.本文给