论文部分内容阅读
以新闻、论坛、贴吧、微博等互联网社交媒体平台为研究对象,在对各平台进行领域建模、情报采集流程设计以及采集内容解析的基础上,设计了基于网络抓取开源工具Nutch的通用采集系统。根据各平台特点,分别将分类排名、分块解析、模拟登录方法应用于新闻、论坛贴吧、微博的采集工作中,以提高系统的通用性和性价比,实现对多源社交媒体情报的高效采集。