论文部分内容阅读
随着互联网产业的飞速发展,新的互联网技术层出不穷,网络内容呈爆炸式增长之势。面对如此海量、繁杂的互联网信息资源,尤其是以RSS为代表的网络动态内容,读者的网络阅读行为模式与传统的阅读模式发生了深刻变革,传统的信息挖掘技术显然已经不能满足互联网动态内容高维度、大数据量、动态更新的处理要求。迫切需要针对网络动态内容进行高效整合,其中包括网络动态内容的挖掘、分类、监控、管理以及用户行为追踪与分析等环节。本文在深入研究信息挖掘技术、网络爬虫算法及中文文本分类技术的基础之上,设计实现了网络动态内容挖掘与分类管理系统。主要研究内容及结果如下:
⑴设计并实现了基于爬虫算法的RSS挖掘系统,经实验证明可以对网络动态内容进行高效抓取。
⑵利用文本分类技术和聚焦的抓取已分类信息多策略的分类模式解决了动态内容繁杂的问题,实现了对网络动态内容的有效分类和管理。
⑶模拟生物成长过程对RSS种子生命周期进行监控和管理,解决了网络动态内容读物质量良莠不齐,缺乏合理的评估体系的问题。
⑷对用户行为进行追踪和分析,为网络阅读形态的研究积累的宝贵的数据基础。