爬虫系统中标签删除功能的设计及优化

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:13439718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在用爬虫爬取到大型商品网站的大规模网页数据集后,要将网页数据集作进一步筛选以得到目标数据集,筛选之前要做的一项准备工作就是删除网页中多余的标签.为此,用递归算法的思想给出了标签删除的算法,提出了标签删除功能的软件设计思想,对设计进行了2次设计改进及性能优化,最终采用了1个缓冲区维系线程1个标签删除线程的双线程设计思想.实验表明,优化后的标签删除功能在单机上每1000个网页的平均处理时间只需19.7 s,处理20万个网页只需1.1小时.
其他文献
着重评述了细菌氧化法预处理谁没金矿的研究现状,并提出了对该工艺过程进一步强化的新思路.氧化周期较长的缺点限制了该法的大规模工业应用.生物冶金工作者们作了许多关于强化预
针对当前实体实验室建设成本高、开放时间不灵活等问题,设计了一种基于X3DOM引擎的3D虚拟实验室系统.该系统采用浏览器/服务器架构,其中,服务器端主要提供实验室场景、实验仪
介绍了一种基于调试系统的回放式自动化测试平台,可以自动化测试"魂芯"DSP配套软件单元.该测试平台以主机调试器为测试对象,通过主机调试器调试应用程序,间接地测试编译器、软
针对传统协同过滤推荐算法没有充分考虑用户属性及项目类别划分等因素对相似度计算产生的影响,存在数据稀疏性,从而导致推荐准确度不高的问题.提出一种基于用户属性聚类与项
<正> 东川芎(Cnidium Officinale Makino)是吉林省延边朝鲜族自治州栽培的东川芎原植物,其根茎系朝鲜族民 族药,多自产自销,具有活血行瘀、疏肝解郁、散气止痛等功效。有关东
Hub会对高维数据分析产生显著消极影响,现有研究分别采用了五种降Hubness策略以提高分类效果,但单个降Hubness策略适用范围有限.为解决这一问题,提出对五种降Hub分类器进行基
从主要金属品种,主要金属生产成本,主要非金属生产成本,宏观经济条件及人才资源等方面分析了加拿大矿业在国际上所处的竞争地位及其为改变目前矿业地位下滑所采取措施的可行性。