网络论坛爬虫的设计

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:dickensking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。
  关键词:论坛爬虫;网络论坛;信息聚合
  中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)03-0570-03
  网络论坛作为一种信息交流的平台蕴含着大量由用户发表的主题信息,目前互联网上出现了越来越多的具有较高信息聚合度的网络论坛,它们分散在互联网的各个角落,形成了新的“信息孤岛”。用户往往需要访问多个网络论坛来获取这些分散的信息。因此,有必要整合这些“信息孤岛”中的信息,为用户提供统一的访问接口来获取网络论坛中的信息。
  该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。
   1网络论坛分析
  为了整合多个论坛中的信息就需要对多个论坛的信息进行分析并抽象出共同的特征。目前,絕大数论坛都是由板块和帖子构成,即若干主题相关的帖子聚合形成板块,若干板块聚合构成论坛。每个论坛中的帖子地址和板块地址都具有相同的URL地址格式。帖子的URL地址显示了该帖子的内容;而板块的URL地址显示的是帖子标题列表,由于一个板块具有多个帖子,所以往往要划分为多个页面来显示,所以这里的板块URL地址是第一页,通过翻页地址可以链接到该板块的下一页。以“采购经理人论坛”网站为例,帖子的URL地址格式如下:http://bbs.purchasingbbs.com/forum.php?mod=viewthread
其他文献
现代计算机体系结构中广泛采用Cache来缓解处理器运行和存储器访问的速度增长之间的巨大差距,使得Cache已经成为影响处理器性能、功耗、价值的重要因素之一。文章根据Cache基
中国兽药生产全面实施良好管理规范GMP(good manufactory practice)已经一年多,广西的兽药生产企业处境如何,我们于2007年6~8月对广西某市辖区内兽药生产企业进行现场检查和
期刊