基于Web的商品信息抽取与融合的研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：mym890419

【摘要】

：

随着Internet的快速发展,互联网已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具有价值的信息源。然而,在利用搜索引擎进行Internet信息检索时,返回的搜索结果数

【作者】

：

王丽

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2008年期

【关键词】

：

信息抽取数据融合网页解析正则表达式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展,互联网已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具有价值的信息源。然而,在利用搜索引擎进行Internet信息检索时,返回的搜索结果数目非常庞大,用户常常还是难以快速、准确地从纷繁复杂的海量信息中寻找到自己所需的且比较一致的信息。Web信息抽取和数据融合是解决该问题的重要途径之一。Web信息抽取是对各种不同的文本包含的信息进行结构化处理,以定位、识别并提取出需要的信息点,表示成一种统一的、结构化的形式;数据融合主要对来自多个信息源的数据进行自动检测、关联及组合等的处理,扩展了时间上和空间上的观测范围,增强了数据的可信任度。本文对Web信息抽取和数据融合进行了深入的研究和探讨,提出了一种针对商品信息的抽取方法和相应的数据融合方法。该方法结合了Web商品信息的特点使用了商品信息在线抽取和权重系数法数据融合。并引入HtmlParser(网页解析器)和正则表达式等技术完成了相应的实现。其主要研究工作如下:1)给出了一种网页获取方法。此方法在Java程序中集成Google Web API实现网页的搜索和获取,同时通过构造正则表达式来实现在已获取的网页中匹配出更多相关的网页,这些网页将被存储到本地磁盘。2)了解商品参数以建立俱全的商品参数库,结合参数库匹配正则表达式以HtmlParser对商品信息进行快速准确的抽取。其中针对商品页面源代码的特点,只需依次解析页面中的table块和div块,提高了解析和判别的速度。3)对抽取出的特定数据集进行分析、统计,得出相应权重系数表并以此采用基于权系数的方法进行数据融合,将融合数据存入历史记录库并以比较完整的信息视图提交给用户。4)对基于Web的商品信息抽取与融合系统进行了总体设计,采用Java语言实现了该系统。经抽取多款手机信息的测试与分析表明,系统能够快速的抽取出几百条相关信息并对其进行数据融合,为将来进一步开发更专业、更广泛的信息抽取与融合系统打下了基础。

其他文献

基于Web的多语海洋叙词表的管理与可视化

随着海洋科学研究的进展,众多研究机构获取了大量有价值的数据。但是,用于描述这些数据的术语普遍存在着一词多义、多词一义和多语言等问题,增加了数据共享的难度,阻碍了国际

学位

叙词表大洋考察HTML5可视化

基于SEAndroid的安卓隐私保护系统

谷歌安卓占据巨大的市场份额且逐年增长。面对如此庞大的用户市场，安卓安全问题也变得更加严峻。在目前的各类恶意应用软件中，虽然扣费软件占据恶意应用的绝大部分，但是窃取用户

学位

安卓平台隐私保护系统访问策略安全标签

基于中间件技术的网管系统通信电源协议适配池的研究与应用

通信电源作为电信网络正常运行的关键,是企业本地网管监控系统重点监管网元设备之一。由于历史原因,在现有通信网络中实际存在“多厂家、多型号、多协议”的品种繁杂的通信电源设备。在构建网管系统时,需要针对不同协议的设备开发不同的监控数据采集模块,这将必然导致系统的开发周期长、升级推广困难。针对系统当前所面临的问题,依据中间件理论和面向对象技术高度抽象监控模块处理逻辑,设计并实现了通信电源协议适配池组件模块

学位

网管监控系统中间件通信协议动态链接库

道路交通安全致因分析虚拟场景设计与实现

近年来,尽管我国对交通基础设施投资巨大,但道路里程的增加仍满足不了快速增长的车辆出行需求;加之其它相关因素的影响,如驾驶员素质、道路环境、车辆性能等,导致目前我国交

学位

交通安全因素道路环境虚拟场景

基于AJAX的组件式WebGIS客户端框架的研究与实现

针对WebGIS客户端可复用性和功能可定制性要求,论文设计了一个基于AJAX的组件式WebGIS客户端框架结构,采用JavaScript语言实现了一个基于AJAX和组件的织女星灌区地理信息系统

学位

WebGISAJAX组件式开发

智能题库系统理论研究与实现

CAI是以人工智能科学、认知科学、计算机科学、教育学和心理学为理论基础发展起来的一种计算机应用模式。它是计算机应用技术的一个新领域,又代表了一种新的教学思想和教学手

学位

试题库智能组卷遗传算法知识点人工智能

仿真假体视觉下的物体及环境识别研究

学位

基于图象的广义隐写分析

隐写技术是将秘密信息隐藏在载体中,尽可能不引起第三方怀疑地通过公共信道发送出去;隐写分析是隐藏信息检测的一个重要分支,主要是针对图象、声音、视频等多媒体数据,在对隐

学位

数字隐写隐写分析BP神经网络图象质量度量标准

基于主题策略的网络爬行器算法研究

随着互联网的快速发展,人们越来越多地通过搜索引擎来实现信息的获取。从海量数据中获取信息越来越困难,搜索引擎最核心的技术是网络爬行器方法,对网络爬行器的研究、改进成

学位

主题策略搜索引擎网络爬行器算法启发式搜索蛙跳算法

.NET环境下基本业务系统生成平台的设计与实现

本文通过对代码生成技术的研究,设计并实现了.NET环境下基本业务系统生成平台,以提高业务系统的开发效率。文章在分析了平台的实现意义、功能需求的基础上,对生成平台进行了

学位

生成平台代码生成业务系统业务逻辑

基于Web的商品信息抽取与融合的研究与实现

其他学术论文