论文部分内容阅读
本文设计开发了一套政策文件采集、整理、检索系统。采用Scrapy框架实现对众多异构政府网站的信息采集及增量抽取、异常处理、日志记录、多任务等操作。基于Kettle对政策文件数据进行关键信息补充、去重、信息整合等数据清洗操作。数据应用提供了多维度的信息查询及检索服务。通过对17个政府网站政策文件的采集、整理入库,为政策对比研究、对标城市政策监测提供了有力工具。