RSS内容过滤算法研究及实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:sycloverock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的飞速发展,网络上的各种新业务层出不穷,随着业务本身的发展,人们的生活,工作方式也在改变,互联网史前年代出现的电子邮件,在今天的商务中被广泛使用,随着更多的人使用互联网,网络逐渐成为获取信息,知识,商机的重要渠道,诞生于二十世纪九十年代的RSS,在信息爆炸的今天,成为了网络中最重要的一种信息推送方式,本文针对日益广泛使用的RSS服务,提出了一种对其内容进行过滤的模型。本文对RSS的结构和规范作了介绍,并概述了当前流行的文本聚类和分类算法,针对目前流行的以关键词为主,对RSS进行过滤的方案,提出了一种新的对RSS内容进行过滤的模型:(1)本模型寻求构建一个满足RSS订阅者需求的最小核心内容集合,根据RSS内容的重要性来对RSS文档内容过滤,提出了基于分层思想的三层模型,核心层,中间层,外层。其重要性依次递减。(2)在模型中,有效地把聚类和分类算法融合起来,对首次获取RSS源的文档内容进行层次聚类,构建内容过滤模型,对后续获取的内容使用分类算法来满足订阅者的需求。(3)在过滤的机制上,根据RSS文档内容的特点,采用关键词组和向量空间模型相结合的方式,充分利用RSS文档的属性,例如标题,发布时间,发布源,作者等,有效地甄别了RSS文档的内容。(4)考虑到了中文的特殊性,尤其是中文分词造成的特殊性,在模型中引入了增删关键词的功能,并赋予其正向和逆向属性,也便于灵活更新分词词典,通过这种反馈,提高内容过滤的效果。最后对模型进行了实验,验证了算法的有效性。
其他文献
随着计算机、网络、机械电子、信息、自动化以及人工智能等技术的飞速发展,移动机器人的研究进入了一个崭新的阶段。同时,军事进步的需要和太空资源、海洋资源的开发与利用为移
焦炭是冶金生产不可缺少的原料之一,焦炭质量的好坏直接影响到冶金产品的质量。由于焦炉机械只能逐孔推焦、装煤,所以必须依据一定的推焦、装煤顺序制定合理的推焦计划,从而使整
随着社会经济的快速发展,我国环境水污染状况日趋严重,使得水污染控制规划越来越受到重视。水污控制染规划不是一般意义上的水污染治理,而是运用系统工程的思想和方法,协调环境、
业务规则是支持企业决策、影响或控制企业业务行为的规章条例。采用业务规则管理系统设计思想,可以方便地管理灵活、易变的业务规则。但是通常国外公司提供的业务规则管理系
随着信息化时代的到来以及人们对医疗保健需求的增加,医院传统的管理模式已经不能适应社会的发展。打破传统的医疗管理模式,简化患者就医过程,提高医院工作效率,改善工作环境,成为
计算机和网络技术的进步使得视频点播(Video-On-Demand,VOD)服务成为可能。由于其能够使用户按照自己的需求选择自己感兴趣的视频信息,近年来在娱乐、教育、广告等领域得到了广
配电网是电力系统中直接为用户分配电能的重要坏节。配电网自动化监控系统可以实现配电网运行情况下的监测、保护、控制、用电和配电网管理的自动化,对提高电力系统的可靠性和经济效益具有重要的意义。本文以韶关冶炼厂供配电系统为研究对象,研制了一个配电网集成监控系统。首先,按照分层分布式原则,本文设计了配电主站-子站-终端式配电网集成监控系统结构,其中,主站层采用光纤以太网双网结构连接,主站与子站之间采用光纤环
三维重建技术是把从CT,MRI等医学成像设备上的二维断层数据转换成三维数据,并将三维数据重建出人体组织的立体形态的技术。医学图像三维重建在医学诊断、手术规划、治疗计划
应用计算机技术和先进控制理论对复杂的工业过程和工业设备实施先进控制和优化,增效减耗,是工控领域关注的热点。基于过程的实际输入和输出信息获取对象的动态数学模型,是实施先
图像传感器已经广泛应用于工业、生活、医疗、航空航天等各个领域,为人和机器提供了无法直接触及的环境中的视觉图像信息,扩展了获取视觉信息的范围。然而,在强辐射环境下,由