基于RSS的新闻采集系统的研究与应用

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:jakey17866747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于RSS的新闻采集是信息采集领域内一个新兴而有实用价值的方向。RSS技术作为互联网上的最新技术之一,已被广泛接受和应用,丰富的RSS站点资源正影响着互联网内容的浏览利用,它通过XML标准定义内容的包装和发布格式,使稳定、高效、实时、安全、低成本的新闻发布、接收和使用成为可能。论文在对RSS技术进行了深入研究的基础上,针对企业信息门户中的新闻来源多样化、新闻采集自动化、时效性强等需求,提出了基于RSS的新闻采集系统的设计思路,并介绍了系统的功能实现。 根据在新闻采集领域的长期研究以及国内外在新闻采集领域的发展,本文在综述了基本情况后,分析了现有新闻采集系统的现状和不足,提出了一个基于RSS的新闻采集结构模型,这包括RSS Feed解析、Web页面解析、链接的提取及处理、任务控制等一系列算法和步骤,分别给出了相关的处理算法和流程。针对研究过程中遇到的问题,提出了多个新的算法和规律: ①在分析了RSS和XML语法的基础上,给出了对RSS Feed中新闻链接、标题、摘要等信息的提取算法; ②对RSS Feed页面中各种链接进行了分析,给出了链接处理方法和提取流程; ③对信息采集技术进行研究,设计了利用网页特征值进行定位的新闻内容提取策略; ④在对各大新闻网站进行了研究分析的基础上,总结出了新闻内容在页面中的分布规律,确定了新闻网页定位的特征参数; ⑤在新闻采集控制过程中,利用多线程技术,设计了并行采集策略。 试验结果显示,在采集系统中利用RSS技术,可以将多个来源的新闻进行聚合,具有很强的实用价值,能够满足大型企业门户网站实现新闻采集自动化的需求。该系统的使用有助于克服现有新闻采集系统过多依赖人工与采集速度慢等不足,降低了人员的工作强度、提高了采集效率,有效的满足了新闻采集的及时性要求。
其他文献
随着互联网和信息技术的飞跃发展,作为信息过滤的一项重要解决方案,个性化推荐技术得到了广泛的研究与应用,各大互联网网站纷纷提供了个性化推荐服务以提高网站的核心竞争力
近几年来伴随着信息技术和互联网络的飞速发展,全国各地智慧城市建设如火如荼,使得视频安防监控系统在各行业的应用日渐广泛,视频流的播放、存储、传输作为视频监控系统的重
SOA是面向服务的体系构架,以企业的业务作为系统的构建单元。它的一个中心思想就是让企业应用彻底摆脱面向技术的解决方案的束缚,轻松应对企业商业服务变化、发展的需要。本
沥青路面是我国高等级公路的主要型式,沥青混合料的级配是影响沥青路面使用性能的主要因素,是沥青路面施工质量过程控制中的重要检测内容。传统的检测方法操作程序复杂、费力
随着计算机网络应用系统的发展,网上培训系统已经成为教育、企业、政府等部门提供教育的一种重要方式。然而,与任何教学方式一样,要提高网络培训效果,根据学员的基础和能力来
道路交通标志是一种包含了大量交通信息的道路设施,它对保证驾驶员的安全驾驶有着重要的指导作用,但通常由于驾驶员疲劳驾驶或者大意疏忽等原因忽略了道路上的交通标志牌而酿
Web已经成为如今人们获取知识的主要来源,但是随着Web上数据信息量的日益增加,人们从Web上搜索真正需要的信息已变得不再容易。因此,如何让计算机能够理解数据的含义,帮助人们方
中医药文化源远流长,至今已有五千多年的历史。中医药理论博大精深,积累了海量数据,却分散庞杂,且往往数据丰富但知识贫乏,这对中医药信息的充分利用、中医药诊疗经验的总结、中医
作为物联网系统的位置感知层设计,基于规模型无线传感器网络(WSN)的定位问题一直是非常重要的研究方向之一。大多数现有的定位方案基本可以分为基于测距的或无需基于测距的定
数字城市及数字地球技术正一步步走向成熟,百度地图、谷歌地图等应用软件一步步走进我们的生活,地理信息系统的重要性日益显现。空间数据索引技术在地理信息系统(GIS)中有着