论文部分内容阅读
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术。以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:①Deep Web大小比Surface Web的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀。