基于网络爬虫的网页大数据抓取方法仿真

来源 :计算机仿真 | 被引量 : 0次 | 上传用户:yidao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法。首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略。经计算得到数据关键特征,从而选择广度优先策略抓取数据信息,并利用相重新构建相空间的方式得到爬虫维度,引入关联维数值完成网页大数据抓取,对数据关键特征完成抓取任务。通过仿真结果表明,所提方法对网页大数据的抓取率更好、耗时更短,与其它方法相比具有较高的鲁棒性。
其他文献
非结构化数据存在差异性,对标注模型的构建存在不足,影响标注质量。提出基于多通道卷积神经网络的非结构化数据标注方法。建立Hive分布式查询框架,对其中与标注目标相关的数据进行相似性查找,同时建立众包标注集,确定相关标注概念。对标注集中的标注差异性,利用多通道卷积神经网络对其差异性进行确认,并确定标注任务函数。利用标注任务函数,建立任务标注模型,利用模型中求得函数解值完成标注任务。为了验证设计的非结构
针对目前算法在多节点信息资源分配推荐时,未对多节点信息资源进行相似性计算,导致多节点信息资源分配时间长,信息资源分配正确率和推荐列表覆盖率较低的问题,提出基于协同过滤的多节点信息资源分配推荐算法。采用协同过滤算法,整合处理节点信息资源,构建信息数据评分模型,运用评分模型,查找节点信息数据的最近邻居集进行预测评分,利用相似性计算,完成多节点信息分类。根据二部图网络结构,资源分配分类节点信息,生成推荐
针对深度确定性策略梯度算法(DDPG)中的经验回放机制,提出了一种综合了高优先级数据重播和高相似度数据剪枝,并对送入网络训练的样本数据进行处理的方法。针对先进先出存储方法和重放缓冲区中随机采样方式造成经验回放效率较低的问题,提出了解决方案:选择高优先级样本送入网络进行训练,同时移除缓冲区中的相似度较高的样本并保留一些罕见的样本。通过相关实验表明,方法不仅可以在更短的训练时间内达到更好的性能,而且可
针对AGV通信网络覆盖率资源不完善以及调度效率慢的问题,提出AGV通信的网络高覆盖率资源优化调度方法。根据AVG通信网络资源优化调度原理,获得网络调度中单一节点特征访问的控制模型,构造网络高覆盖率资源模型。运用网络高覆盖率资源模型计算资源分布式调度配置权值,综合考虑AVG通信网络的性能指标、服务质量和服务能力,建立综合评测模型,将测评模型融入到高覆盖率资源模型中,获得网络节点情况,预测任务的执行度
针对传统反馈信息识别方法背景信息分割目标存在无效特征,导致目标信息识别准确率低、识别结果不完整的问题,提出一种使用背景建模和阈值分割的多目标反馈信息自动识别方法。明确视觉图像背景目标的位置信息和颜色特征,结合欧式距离归一化处理背景多目标反馈信息;引入分类器概念分类区域场景图像目标;通过图像像素灰度与周围局部灰度的特性,确认像素的阈值,并有效提取视觉图像分割阈值;在此基础上,计算目标区域的周长、面积
由于传统图像序列识别方法受噪声因素影响,导致序列识别精度较低,提出一种基于低秩分解的异常步态活动图像序列识别方法。设定步态历史图像序列作为标准图像序列,根据矩函数的特征向量,列出Zermike矩提取图像序列特征向量数据。对步态图像像素点矩函数特征进行识别并转化为向量格式,利用低秩分解方法构建结构化矩阵低秩表示模型,去除序列特征向量数据噪声。对分解去噪后的数据进行Curvelet特征转化,得到形变约
在励磁装置系统中,三相桥式全控整流电路发挥着极为重要的作用。针对其整流电路中晶闸管的故障问题,提出了一种改进的卷积神经网络(CNN)故障诊断模型,与传统卷积神经网络相比,改进网络参数较少从而提高计算速度,使用BN层替代LRN图层利于网络的稳定和收敛,并使用Adam优化器进行权值迭代更新。利用开源深度学习平台TensorFlow进行实验,仿真结果表明,改进方法对晶闸管故障电压识别分类和三相母线电流识
针对传统低照度图像特征相似度检索方法存在计算复杂、效率低的问题,提出一种基于五叉树分解的低照度图像特征相似度检索方法。在主成分转变的基础上对低照度图像进行五叉树分解,将被检索图像划分成一系列子块图像,为构建特征直方图及计算相似度作基础;利用图像子块表达形式提取主要特征,得到颜色特征向量,使用归一化方式计算可视化相似度,即颜色相似程度;求得低照度图像特征相似度阈值,完成相似度检索。仿真结果表明,相比
随着电路规模的不断扩展,大规模模拟电路的故障诊断越来越难以实现,尤其是软故障的诊断,由于其存在不可数特性,导致当前缺乏对软故障的有效诊断方法,因此提出了一种基于改进LMD算法的大规模模拟电路软故障诊断方法。根据电路节点电压信号的变化及概率密度,判断电路发生的故障类型,同时利用分量积分推断故障概率。考虑到LMD在非线性信号分析方面的优势,对电路测点信号采取LMD分解,并针对LMD平滑过程中的相位变化
针对场景密集人群移动过程中存在遮挡和倒影问题,提出一种新的谱聚类算法用于人群聚类。首先构造一种新的邻接矩阵作为谱聚类的输入参数,然后再构造一种新的拉普拉斯矩阵,通过选取拉普拉斯矩阵的四个最小特征值组成特征向量。采用K-means算法对特征向量进行聚类得到人群聚类指数,并将聚类指数映射至图像。通过在CCD、CMD、MPT国际公开数据集上进行实验,上述算法较其它其他人群聚类算法得到更高的聚类纯度(Pu