基于版块的论坛增量搜集策略

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:li452546674
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。
其他文献
【摘要】:作为数学教师在培养小学生的独立思考能力时,应该从以下几个方面着手:在平时的教学中,要充分利用课堂教学注重培养学生的独立思考能力;课内外作业要有利于培养学生的独立思考能力;用冥想和画思维导图来培养学生的独立思考能力;让学生掌握独立思考的本领,在终身学习中发挥作用。  【关键词】:独立思考能力 课内外作业 思维导图人要获得一点知识,需要独立思考。人要有所发现有所发明有所创造,更得依赖独立思考
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研究的基础上,提出了基于蒙古语语序的汉语句子调序方法;同时