论文部分内容阅读
随着网络普及,电子商务的迅猛发展,出现了很多类型的电子商务网站。为了给用户提供便捷的商品导购比价服务,让用户在短时间内找到高质量、低价格、售后完备的商品,购物导航网站的开发势在必行。而Web网页已成为购物导航网站一个丰富的数据源,因此,如何从Web中抽取出完整的商品记录并进行合并去重已成为一个极具价值的问题。本文通过研究已有的Web记录抽取方法和系统,从中选择了使用DOM树模型的Webharvest工具作为数据抽取工具;接着,在分析了已有数据去重方法之后,在现有字符串距离度量的基础上,加入了前期的数据处理阶段,提出了基于距离度量的中文数据去重方法,并在实际数据中测试效果良好;最后,在数据去重方法的基础上设计并实现了两种将Web数据抽取和数据去重集成到一起的自动化方法,包括基于搜索引擎过滤的自动化方法和基于语义分词标注的自动化方法。通过对两种自动化方法的测试,基于搜索引擎过滤的自动化方法结果满足设计要求,实现了将Web数据抽取并去重,并存入本地数据库,为购物导航系统提供后台数据支持。