Web论坛数据源增量爬虫的研究

来源 :计算机工程 | 被引量 : 0次 | 上传用户:YINGWU2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
其他文献
以买麻藤(Gnetum montanum)为内参,测定5种常用裂解液(Tris·MgCl2、LB01、WPB、Otto’s、Galbraith’s)对桫椤(Alsophila spinulosa)细胞核的裂解效果,并通过比较桫椤和
模糊聚类是非监督分类中的一类重要方法。传统的模糊聚类方法应用于遥感影像的非监督分类时,均未考虑到邻域像元间的统计依赖关系即上下文信息。针对这一缺陷,在Markov随机场模型框架下,引入了空间隶属度概念,提出了一种顾及上下文信息的模糊聚类算法,有效地提高了聚类精度和抗噪声能力。针对需要预先指定聚类个数的问题,采用了一种兼顾类别内部紧密程度和类别之间分离程度的评价指标,用以检验聚类结果的有效性,从而找
利用2003年5—10月在环青海湖地区获取的典型天然草地与人工草地多时相地面高分辨率光谱数据,首先分析了最大似然分类法、支持向量机分类法、光谱角分类法、最小距离分类法和人工神经网络分类法所对应的最佳光谱变换方案;通过16个时相光谱数据的分类对比实验,分别确定了天然草地与人工草地分类、人工草地分类、天然草地分类的最佳时相;最后利用TM遥感数据对地面光谱数据分析结果进行了补充验证。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
<正>一、绿色印刷成为行业发展趋势随着绿色印刷由概念发展为趋势,国内关于绿色印刷的揣测越来越少,而实际行动则越来越多。十一月的第一周被新闻出版署确定为"绿色印刷宣传
鼎钧先生通过叙事抒情将西方天主和基督的博爱与东方儒、释、道的大任融入通篇哲理色彩之中,以其深刻的见识给读者以启迪。文章认为,洞识人生的真相,审视人性的真实底色,是鼎钧先
详细介绍了利用A/D转换器、温度传感器和单片机实现数字倾角测量系统的硬件和软件设计。该系统具有精度高、运行稳定、性能可靠、带温度补偿等优点,可广泛应用于宽工作温度范