论文部分内容阅读
随着计算机网络的蓬勃发展,人们获取信息及知识的渠道也发生了很大的变化。传统方式的信息传播,如电视、报纸、广播等方式,逐渐退出了传媒的主流地位。互联网这一新兴的传播方式很快被人们所接受,中国网民目前数量大约6亿多(包含手机终端等),极致反映出互联网信息的重要性。虽然互联网是现在人们获得信息的一种常用且重要的手段,但是它是巨大的、复杂的、多样的和动态变化的。所以,在数以亿计海量的数据面前,如何快速且准确地获取用户感兴趣的信息与知识,是本论文的终极目标。在本系统中,我们运用的主要技术有话题爬虫、全文检索以及WEB文本挖掘。通过对这些技术研究与实现,有价值的知识和高层次的话题就能从相应的话题集合中抽取出来,从而使得凌乱、庞大的话题集为我们提供可靠且有序的知识支持与话题支撑服务;这个系统不仅能够查找出以往过期的话题(即历史话题),而且能够分析出哪个话题更具有权威性以及哪个话题与关键字匹配更密切,为用户得到更好的查询与体验效果提供了有力的支持。只不过,本系统中的话题来源于异常庞大的互联网,与常见的数据库和数据集合有很大不同。所以,我们首要任务要得到话题源,也就是从互联网上爬取相关的页面话题,然后进行处理,整理并过滤掉垃圾信息,为后面挖掘所感兴趣的知识提供基础数据支持,这个过程我们称之为话题爬虫。挖掘话题的实现是通过建立索引、分类话题以及检索话题来完成的。系统调用目前比较完善的全文检索系统Lucene所提供的应用程序相关接口,分析相应话题,构建索引,实现了通过关键词快速定位与实时查找的功能。用户通过查询模块的过滤与结果重排,来得到其感兴趣的内容。本论文结构紧凑,首先介绍本课题相关背景与意义,通过阐述所需要的基本知识与相关技术细节来引出本课题研究的重难点问题以及整体框架设计,然后详细说明本课题实现的各个功能模块设计与实现,最后给出本课题测试结果与总结。