互联网网页去重技术问题研究

来源 :中国电子商情 | 被引量 : 0次 | 上传用户：ltc835634161

【摘要】

：

【作者】

：

张红霞郭小粉

【出处】

：

中国电子商情

【发表日期】

：

2014年12期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　引言：本文提出了一种基于关键词提取的网页去重算法。该算法考虑了文本的内容信息，其基本思路是：首先解析网页，提取每篇网页文档的标题关键词，以基于窗口搜索的方式寻找正文中与标题关键词相关度高的其它关键词以构成该项篇网页文档的关键词集，并根据关键词集中的所有关键词为网页文档建立倒排表，文档去重就是计算两篇文档的关键词重叠率，如果重叠率高于某个阂值时，认为两篇文档内容重叠。该算法的优点是考虑了正文中与主题相关度高的非高频词，避免了仅使用统计值依赖高频词去重的缺陷。
　　一、算法
　　目前对于网页去重的研究方法主要有基于聚类的方法、排除相同URL方法、基于特征码的方法等。
　　（l）基于聚类的方法是基于网页的文本内容进行的，它以6763个汉字作为向量的基，文本的汉字字频就构成了代表网页的向量。通过计算向量的夹角决定是否是相同网页。这种方法的优点是简单，容易实现。缺点就是对大规模网页聚类的类别数目大，难以确定，计算量大；只利用字频信息，没有利用文本的结构信息；实时性差，对于新网页需要重新聚类以决定是否重复。因此，在实际应用中难以适用。
　　（2）排除相同URL方法是各种元搜索引擎去重的主要方法。这种方法主要分析来自不同搜索引擎的网页URL，相同的URL认为是相同的网页，然后去重。这种方法的优点也是简单，容易实现，可去除一部分相同的网页。其缺点是只利用了URL信息未利用网页的文本内容，不能对转载造成的重复网页去除。
　　（3）基于特征码的方法是利用标点符号多数出现在网页文本中的特点，以句号两边各五个汉字作为特征码来唯一地标识网页。因为特征码的精确匹配可以与先进的检索系统联系起来，去重效率较高。
　　二、关键词提取算法
　　本文提出的网页去重算法是基于关键词提取的去重算法，该算法考虑了文本的内容信息，其基本思路是：首先解析网页，提取每篇网页文档的标题关键词，以基于窗口搜索的方式寻找正文中与标题关键词相关度高的其它关键词，文档去重就是计算两篇文档的关键词重叠率，如果重叠率高于某个阑值时，认为两篇文档内容重叠。
　　概括地说，基于关键词比较的网页去重算法分三步实现：解析网页，从每个网页中提取标题和正文内容。以标题关键词为种子点，以基于窗口搜索的方式查找正文中的关键词。计算两篇网页文档的关键词重叠率以确认两网页是否重复。
　　（l）网页解析。W亡b网页与普通文本相似，但其有自身的特点，这为网页分析提供了一些线索。
　　（2）搜索正文关键词。对解析得出的标题和正文，首先经过分词、去停用词之后形成一系列的词串，其中标题分词后形成的词串我们称为标题关键词集，正文分完词后形成的词串我们称为正文词集。采用基于窗口搜索的方式寻找正文词集中与标题关键词集相关度高的词（称为正文关键词）。基于窗口搜索的方式搜索正文关键的思路是：正文中如果几个词经常与标题关键词在同一窗口中共同出现，则认为它们与标题关键词在表达该文档上相关度很高，即它们是正文关键词。将所有的标题关键词和正文关键词统称为该网页文档的关键词。
　　（3）计算关键词重叠率。文档去重的过程就是比对两篇文档的所有关键词，为了避免文档间的两两对比，本文通过建立关键词倒排表，文档中的每一个关键词都在关键词倒排表中查询出现的文档号，并求交集。
　　三、实验结果
　　实验所用的数据是四大门户网站（sina，sohu，163，263）的娱乐体育新闻，为了验证上述算法，本文分别采用文献叫中算法（以下称Forman算法）、文献中的算法（以下称lyer算法）和本文算法从去重效果和速度两个方面做了比较。
　　评价去重效果时有两种情况：一种将不相同的两篇文档判定为相同文档，本文称为混淆错误 CE（Confused Error），另一种是将相同的两篇文档判定为不相同，本文将这种判定错误称为排斥错误 EE（Exclusive Error）。
　　混淆错误率计算公式：
　　四、实验结果分析
　　Forman算法是基于文档内容进行对比的方法，当文档中相同的文档块经hash映射后（这里采用MDS）相同的个数超过一定范围则认为文档相似，否则不相似。实验中如果两篇文档分块后做hash，如果80%的哈希值相同，则认为这两篇文档是重复文档。Iyer算法是基于关键词提取的用于论文剽窃检测的算法，同样认为树结构中有80%的哈希值相同，则认为两篇文档是重复文档。
　　从表2中可以看出，Forman算法的混淆错误率很低，因为该算法对文档相似的检验很严格，排斥错误率高是由于只根据语句判定相似，而没有考虑文本所表达的含义。Iyer算法混淆错误率较低，排斥错误率高的原因是当树的上层剪枝错误时去重算法失效。本文算法混淆错误率比Forman算法和Iyer算法高的原因是还存在不同的文档判定为相同文档的可能性，但由于本文算法在提取关键词充分考虑了文档正文所表达的含义，排斥错误率低。从综合评价指标F来看本文算法比其它两种算法效果更好。
　　为了对上述方法进行运行速度的比较，本文建立了大小为124个文档，1191个文档和10287个文档三个数据集。表3为去重判定时间比较。
　　从表3中可以看出，Forman算法运行所需时间最多，因为所有的文档都要进行分段后计算哈希值，计算后还要进行哈希值比较，因此耗时多。Iyer算法虽然对文档中每句话都抽取关键词，但是由于组成树状结构，比对过程中可以剪枝，因此速度稍快。本文算法以标题中的词为种子点只考虑与标题词相关的词生成的词汇集，去掉大量与主题无关的信息，因此速度较快。从实验结果可看出，在去重效果和运行速度上本文算法都具有一定的优势。
　　参考文献
　　[1]张海军，潘伟民，木妮娜，栾静. 一种自定义顺序的字符串排序算法[J]. 小型微型计算机系统.2012（09）.
　　（作者單位：河南农业职业学院）

其他文献

广东省中小企业商务网络应用现状分析

引言：随着科技水平日益发达，互联网已经渗透到了社会经济的各个领域，作为社会经济的主要组成单位中小企业自然也需要与互联网紧密融合，以求获得进一步发展的动力。本文从商务网络的基本概念出发，着重分析中小企业商务网络的应用现状，并进一步理清中小企业构建企业商务网络体系的主要任务和挑战。　　一、商务网络的概念　　商务网络与电子商务是两个不同的概念。电子商务指的是企业商务活动的电子化，停留在操作层面。商务网络

期刊

TEAMCENTER软件在核电站设计中的应用

引言：本文分析了核电设计行业数据管理和业务流程管理中存在的问题，分析介绍了TEAMCENTER软件对以上问题给出的解决方案，并对TEAMCENTER在核电设计行业中更好的应用给出了合理化的建议。　　前言　　目前，统一管理产品全周期并优化影响其运行效率的所有业务流程被视为提高企业效益的最有效的方法，TEAMCENTER就是这样一款基于SOA（面向服务架构）的PLM（产品生命周期管理）系统。　　一、T

期刊

国务院参事室中央文史研究馆专家调研座谈会

时间：2012年2月8日上午10时　　地点：北京凤凰岭美术馆　　主持人：韩国栋　　整理：北京凤凰岭美术馆理论研究部　　2012年2月8日，国务院参事室、中央文史馆专程到北京凤凰岭美术馆、凤凰岭书院调研，并召开座谈会。与会专家以“当前中国书画‘传承与发展’形势的分析与思考”为主题，就北京凤凰岭美术馆和凤凰岭书院的宗旨、定位、办学方针、教学模式以及学制、章程等，进行了深入而

期刊

使用Lotus Domino/Notes设计基于WEB结构的OA系统

引言：办公自动化系统对于企业的信息化建设有着重要的意义。本文主要介绍了使用Lotus Domino/Notes实现基于WEB结构的办公自动化系统，并以一个大型企业的机关办公自动化系统的构建为例加以说明。重点说明了关键模块-公文管理子系统的实现。　　一、引言　　目前，企业的信息处理能力越来越成为衡量自身发展能力的重要指标。办公自动化系统借助计算机实现了信息资源化，以公文管理、事务管理和档案管理作为核

期刊

Mysql中使用索引提高查询速度

引言：在web开发中，页面模板，业务逻辑（包括缓存、连接池）和数据库这三个部分，数据库在其中负责执行SQL查询并返回查询结果，是影响网站速度最重要的性能瓶颈。本文主要针对MySql数据库，通过使用索引来提升查询速度。　　索引用于快速找出在某个列中有一特定值的行。不使用索引，MySQL将进行全表扫描，从第一条记录开始然后读完整个表直到找出相关的行。　　一、mysql索引类型　　常用的索引类型有　　（

期刊

谈收尾工作在软件信息系统中的作用

引言：本文以该项目为例，探讨了信息系统项目收尾工作的主要内容：包括合同收尾和管理收尾，并给出了该项目的实施收尾的工作流程。还针对该项目在收尾过程中出现的一些问题，阐述了相应的解决办法；对于需求变更的问题，采取了版本控制、与用户沟通及争取用户领导协商的办法；对于用户不愿意签字的问题，在了解真实原因的基础上，对症下药；项目资金不能到位的问题主要是争取了公司领导和市场营销部的支持，共同攻关。最后还讨论了

期刊

基于Linux的文件系统监控技术研究

引言：本文以Linux系统为平台，深入研究了文件系统监控技术的方法，并通过inotify程序实现其对所监控文件的报警功能，为文件系统的安全保护策略提供供参考依据。　　一、引言　　随着计算机系统安全技术的发展，涉及企业商业机密以及决策信息的文件已成为安全监控的新目标。以往对文件系统采用的监控技术大部分属于“办公自动化方法”，将文件集中管理，对文件操作不便且不能有效监控和防止文件的对外传播。操作系统中

期刊

移动收银称

引言：近年来，移动互联网发展如火如荼，在大好市场背景下，一些创业家发现了潜在市场，一些创新型的产品应运而生，目前，移动收银软件在市场上寥寥无几，本文介绍了移动收银软件的技术及发展状况，并对市场应用前景提出了良好的预期。　　第一章收银秤简介　　收银称是一款，操作简单、快速、方便的一款收银软件，它是集电子秤与平板连接，商品称重后即可收银。减去称重后再去收银台结算的烦恼。减化了操作流程，提高了工作效率，

期刊

基于X3D的小区虚拟现实系统实现

引言：X3D技术是Web3D联盟提出的互联网3D图形的标准和规范，它整合了Java、流媒体及多媒体等技术，使其具有更好的跨平台性和动态性，更强大高效的3D计算能力、渲染质量和传输速度。　　前言　　X3D （Extensible 3D）是Web3D 联盟提出的新一代互联网三维图形标准（ISO/IEC 19775），它继承并发展了VRML 技术，整合了Java、XML、流媒体及多媒体等技术，使其具有更

期刊

基于VC++在数字图像处理中的格式转换和图像增强处理

引言：数字图像处理又被称为计算机图像处理，是指将获取到的图像信号利用计算机将其转化为数字信号的处理过程。随着计算机信息技术的不断发展，数字图像处理技术也得到了较快的发展，目前数字图像处理技术能够对图像进行编码、复原、增强、压缩等，使得其在国防领域、军事领域、图像传输领域等起着极其重要的作用。对于图像处理中的格式转换和图像增强处理，需要用户具有一定计算机程序方面和软件应用方面的知识，以下就简单的分析

期刊

互联网网页去重技术问题研究

与本文相关的学术论文