网络动态内容挖掘与分类研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:king20051400
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网产业的飞速发展,新的互联网技术层出不穷,网络内容呈爆炸式增长之势。面对如此海量、繁杂的互联网信息资源,尤其是以RSS为代表的网络动态内容,读者的网络阅读行为模式与传统的阅读模式发生了深刻变革,传统的信息挖掘技术显然已经不能满足互联网动态内容高维度、大数据量、动态更新的处理要求。迫切需要针对网络动态内容进行高效整合,其中包括网络动态内容的挖掘、分类、监控、管理以及用户行为追踪与分析等环节。本文在深入研究信息挖掘技术、网络爬虫算法及中文文本分类技术的基础之上,设计实现了网络动态内容挖掘与分类管理系统。主要研究内容及结果如下:   ⑴设计并实现了基于爬虫算法的RSS挖掘系统,经实验证明可以对网络动态内容进行高效抓取。   ⑵利用文本分类技术和聚焦的抓取已分类信息多策略的分类模式解决了动态内容繁杂的问题,实现了对网络动态内容的有效分类和管理。   ⑶模拟生物成长过程对RSS种子生命周期进行监控和管理,解决了网络动态内容读物质量良莠不齐,缺乏合理的评估体系的问题。   ⑷对用户行为进行追踪和分析,为网络阅读形态的研究积累的宝贵的数据基础。
其他文献
由于历史的原因,高校各个部门于不同时期建立了各自的业务应用系统来管理信息资源。各业务系统在设计之时大多关注具体的业务应用需求而非数据集成需求,并且它们也采用不同部署
学位
自从1999年Napster的流行,人们对P2P技术的研究日益升温,呈现出迅猛发展的势头。P2P网络使Internet重返自由和平等的本质,极大地提高了资源的利用率,使得资源共享上升到了一
Web服务作为Internet上的一种开放的、模块化的应用,已经得到了工业界和学术界的广泛承认。然而,单一的Web服务提供的功能难以满足用户复杂的需求,使得Web服务自动组合技术成
随着移动互联网技术的迅猛发展,智能手机和移动应用已经融合到社会生活中;人们对移动应用的需求不再仅仅停留在功能和内容层面上,而是对产品的用户体验提出了更高的要求。可用
经过长期的数字化校园建设,许多高校完成了部门应用系统的建设。这些系统虽然功能完善,但是却不能有效的进行信息共享和服务共享。如何整合这些系统成为一个重要的问题。 而
学位
Godel语言是继Prolog语言之后出现的逻辑程序设计语言,它建立在多态多类的一阶逻辑基础之上,摒弃了Prolog语言中的非逻辑成分,集成了许多语言的有效成分和优点,引入了类型系统,这
柔性制造系统(FMS)是高度复杂的系统,具有耗资大、风险高、技术密集等特点,其设计和实现过程非常复杂。因此,在柔性制造系统投入实施和运行之前,需要利用合适的方法对其进行准确
本文作者针对中国象棋的计算机博弈存在一些问题,提出了一种利用象棋大师知识的新搜索剪枝算法,相关实验证明该方法在博弈树搜索中的有效性。对于残局阶段的计算机博弈,有学