论文部分内容阅读
随着Internet和网络多媒体技术的高速发展,远程教育信息资源日益丰富,成为人们获得知识的一种重要途径,远程教育资源不仅满足了广大学习者的学习新知识的需求,同时也为建设学习型社会和实现终身教育做出了巨大的贡献。但是随着数据量的不断增大,通过手动的浏览网页或者传统的搜索引擎在海量的网络资源中定位自己需要的资源也越来越困难。面向远程教育的主题搜索引擎正是在这样的背景下诞生的,它能帮助学习者快速的定位自己需要的信息资源。本论文以远程教育学院资源建设为出发点,以部分远程教育学院的网站为研究对象,设计并实现了一个面向远程教育的主题搜索引擎。面向远程教育的主题搜索引擎首先确定了远程教育专业词库的构建方法,提出一种基于Heritrix的主题网页过滤方法。其次,借助HTMLParser对抓取的网页进行信息提取,形成文本文件。最后,由Lucene完成索引和搜索,本文还对Lucene的索引过程进行了优化,提高了索引的速度,另外对Lucene排序算法进行了改进。通过试验测试,验证了本文设计的面向远程教育的主题搜索引擎各子系统的可行性,并与传统搜索引擎进行对比,在保证查全率的基础上能够更高效、更准确地进行信息资源定位。