论文部分内容阅读
随着Internet的快速发展,互联网已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具有价值的信息源。然而,在利用搜索引擎进行Internet信息检索时,返回的搜索结果数目非常庞大,用户常常还是难以快速、准确地从纷繁复杂的海量信息中寻找到自己所需的且比较一致的信息。Web信息抽取和数据融合是解决该问题的重要途径之一。Web信息抽取是对各种不同的文本包含的信息进行结构化处理,以定位、识别并提取出需要的信息点,表示成一种统一的、结构化的形式;数据融合主要对来自多个信息源的数据进行自动检测、关联及组合等的处理,扩展了时间上和空间上的观测范围,增强了数据的可信任度。本文对Web信息抽取和数据融合进行了深入的研究和探讨,提出了一种针对商品信息的抽取方法和相应的数据融合方法。该方法结合了Web商品信息的特点使用了商品信息在线抽取和权重系数法数据融合。并引入HtmlParser(网页解析器)和正则表达式等技术完成了相应的实现。其主要研究工作如下:1)给出了一种网页获取方法。此方法在Java程序中集成Google Web API实现网页的搜索和获取,同时通过构造正则表达式来实现在已获取的网页中匹配出更多相关的网页,这些网页将被存储到本地磁盘。2)了解商品参数以建立俱全的商品参数库,结合参数库匹配正则表达式以HtmlParser对商品信息进行快速准确的抽取。其中针对商品页面源代码的特点,只需依次解析页面中的table块和div块,提高了解析和判别的速度。3)对抽取出的特定数据集进行分析、统计,得出相应权重系数表并以此采用基于权系数的方法进行数据融合,将融合数据存入历史记录库并以比较完整的信息视图提交给用户。4)对基于Web的商品信息抽取与融合系统进行了总体设计,采用Java语言实现了该系统。经抽取多款手机信息的测试与分析表明,系统能够快速的抽取出几百条相关信息并对其进行数据融合,为将来进一步开发更专业、更广泛的信息抽取与融合系统打下了基础。