Web记录自动抽取与去重方法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xiwang452
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络普及,电子商务的迅猛发展,出现了很多类型的电子商务网站。为了给用户提供便捷的商品导购比价服务,让用户在短时间内找到高质量、低价格、售后完备的商品,购物导航网站的开发势在必行。而Web网页已成为购物导航网站一个丰富的数据源,因此,如何从Web中抽取出完整的商品记录并进行合并去重已成为一个极具价值的问题。本文通过研究已有的Web记录抽取方法和系统,从中选择了使用DOM树模型的Webharvest工具作为数据抽取工具;接着,在分析了已有数据去重方法之后,在现有字符串距离度量的基础上,加入了前期的数据处理阶段,提出了基于距离度量的中文数据去重方法,并在实际数据中测试效果良好;最后,在数据去重方法的基础上设计并实现了两种将Web数据抽取和数据去重集成到一起的自动化方法,包括基于搜索引擎过滤的自动化方法和基于语义分词标注的自动化方法。通过对两种自动化方法的测试,基于搜索引擎过滤的自动化方法结果满足设计要求,实现了将Web数据抽取并去重,并存入本地数据库,为购物导航系统提供后台数据支持。
其他文献
虽然IT经理一直面临着降低成本和最大限度地利用现有技术的难题,但同时他们还必须不断地努力,以期更好地服务客户,从而赢得更大的竞争力。IT业界面临着这样两个主题:异构和改变。
21世纪是信息社会,是数字社会,而信息安全是信息社会的基础。当前国家正在大力进行数字化建设,档案数字化是其中的一个重要方面。数字化档案被社会广泛利用的前提是档案的原始性
电信运营支撑系统(OSS)是电信运营商的一体化、信息资源共享的支持系统。作为快速开通业务、及时保障业务、优化管理网络资源的重要手段,电信运营支撑系统是电信网络运营管理
在压缩感知理论中,可以同时进行信号的采样和压缩,省去了高速采样时对获得的大量冗余数据进行数据提取和舍弃的过程,大大降低了传感器的采样速率和计算成本。信号重构作为压缩感
学位
曲流河是最常见和最重要的河流类型,不仅砂体成因类型最多,而且伴随着河道侧向迁移及频繁地决口改道、废弃,使得砂体时空分布极为复杂。这决定了对曲流河河流相的模拟就是在复杂
随着GSM移动通信网络的迅速普及和竞争的日益激烈,新技术、新业务的开发与应用已提到了十分重要的位置。短消息服务业务(SMS)作为GSM网络提供给用户的一种有别于语音传输的基
近年来,Internet网络一直处在爆炸性的发展中。许多新的应用不断涌现出来,基于组播技术的大规模多媒体视频会议系统、远程教学系统等流媒体应用得到越来越多的重视和应用。大
本文根据我国影院管理的自身特点,设计和实现了基于数据挖掘技术的影院管理系统。文章对关联规则中的Apriori算法进行了认真的研究,对其加以改进并应用到影院资料管理子系统中,
VoIP技术作为一种以IP网络为传输载体的语音和传真通信技术,以其高效的语音传输和低廉的资费,得到越来越广泛的应用,具有广阔的应用前景。由于IP网络的开放性和IP电话终端的