论文部分内容阅读
基于RSS的新闻采集是信息采集领域内一个新兴而有实用价值的方向。RSS技术作为互联网上的最新技术之一,已被广泛接受和应用,丰富的RSS站点资源正影响着互联网内容的浏览利用,它通过XML标准定义内容的包装和发布格式,使稳定、高效、实时、安全、低成本的新闻发布、接收和使用成为可能。论文在对RSS技术进行了深入研究的基础上,针对企业信息门户中的新闻来源多样化、新闻采集自动化、时效性强等需求,提出了基于RSS的新闻采集系统的设计思路,并介绍了系统的功能实现。
根据在新闻采集领域的长期研究以及国内外在新闻采集领域的发展,本文在综述了基本情况后,分析了现有新闻采集系统的现状和不足,提出了一个基于RSS的新闻采集结构模型,这包括RSS Feed解析、Web页面解析、链接的提取及处理、任务控制等一系列算法和步骤,分别给出了相关的处理算法和流程。针对研究过程中遇到的问题,提出了多个新的算法和规律:
①在分析了RSS和XML语法的基础上,给出了对RSS Feed中新闻链接、标题、摘要等信息的提取算法;
②对RSS Feed页面中各种链接进行了分析,给出了链接处理方法和提取流程;
③对信息采集技术进行研究,设计了利用网页特征值进行定位的新闻内容提取策略;
④在对各大新闻网站进行了研究分析的基础上,总结出了新闻内容在页面中的分布规律,确定了新闻网页定位的特征参数;
⑤在新闻采集控制过程中,利用多线程技术,设计了并行采集策略。
试验结果显示,在采集系统中利用RSS技术,可以将多个来源的新闻进行聚合,具有很强的实用价值,能够满足大型企业门户网站实现新闻采集自动化的需求。该系统的使用有助于克服现有新闻采集系统过多依赖人工与采集速度慢等不足,降低了人员的工作强度、提高了采集效率,有效的满足了新闻采集的及时性要求。