论文部分内容阅读
随着Internet的快速发展,互联网已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。然而,在利用搜索引擎进行信息检索时,返回的搜索结果数目非常庞大,用户难以准确地寻找到自己所需的信息。与此同时,基于互联网的信息搜索和获取面对的已不再是单纯的静态页面,而是不断更新的动态页面,如博客、论坛类网站。因此,如何在众多的信息中准确找到自己真正需要的部分,以及如何及时获得新知识和新内容成为当前亟待解决的两大问题。本文围绕上述两大问题,通过分析RSS(Really Simples Syndication)信息聚合技术在信息更新、信息过滤方面的优劣势,结合Web信息抽取技术可以较准确地获取用户所需信息的特点,提出RSS信息聚合与Web信息抽取相结合的思想,并将其应用在BT种子的信息聚合与抽取中,设计开发了信息聚合与抽取系统,使得计算机能够自动完成BT种子信息的聚合以及有效信息的抽取,并呈现给用户一个完整的信息视图,从而取代大量的人力和时间消耗,提高了自动化程度,为山西易多科技公司研发的A380多媒体播放器系统提供了支持。本文主要工作如下:首先,分析了信息聚合技术的优缺点,对比了信息抽取的各种技术方法,研究了过滤的实现技术Lucene和抽取的主要技术HtmlParser。其次,设计了基于RSS的种子信息聚合与抽取模型,该模型分为四个基本模块:信息聚合模块、信息过滤模块、信息检索模块和信息抽取模块。信息聚合模块利用RSS技术聚合种子信息;信息过滤模块是在聚合信息的基础上,采用Lucene技术对信息创建或加载索引,再根据自定义过滤词库进行查询删除;信息检索模块是在上一步建立索引的基础上,根据用户输入的关键字进行查询;信息抽取模块是利用HtmlParser技术对网页信息进行信息块定位和预处理,再通过与参数特征库的匹配实现抽取功能。最后,开发实现了基于RSS的种子信息聚合与抽取系统,并通过实验测试系统的可行性,最后对实验结果进行有效性评估。本文设计开发的针对BT种子的信息聚合与抽取系统,增加了信息过滤功能,实现了有效信息的在线抽取和结构化存储功能,很好地满足了用户及时获取新内容、准确找到有效信息的需求。经过分析,系统过滤的有效性以及抽取结果的召回率和准确率都满足设计需求,验证了本研究的正确性,为将来进一步开发更专业、更广泛的信息聚合与抽取系统打下了基础。