基于遗传算法的聚焦爬虫搜索策略设计与研究

来源 :成都信息工程学院学报 | 被引量 : 0次 | 上传用户:zumei2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于或低于种群平均适应度的个体采用不同的交叉概率和变异概率来扩大爬虫的爬取范围、增加新个体,并通过改进遗传算子,提高聚焦爬虫的搜索效率。实验证明,基于自适应遗传算法的聚焦爬虫在一定程度上解决了传统遗传算法的“早熟”问题,而且能够爬取到更多主题相关的网页和相关度高的网页。
其他文献
对具有任意阶非线性薛定谔方程的行波解进行了研究。给出具有任意阶非线性薛定谔方程的精确解。利用行波变换和辅助函数法把具有任意阶非线性薛定谔方程最终转化为一个非线性
利用二重嵌套的非静力中尺度数值模式MM5对2005年7月28—29日的一次高原低涡过程进行了数值模拟,并利用模拟结果对此次低涡的结构进行了初步分析。结果表明:MM5模式对此次低涡
利用川渝地区34站1960—2006年共计47年的逐月降水量资料,采用经验正交函数(BOF)分解、旋转经验正交函数(REOF)分解、小波分析等方法详细讨论了川渝地区夏季降水量的时空变化特征
为了探索陕西暴雨天气发生发展的机制,采用天气学、动力诊断等方法对2011年7月5~6日陕西南部出现的暴雨过程进行分析。结果表明:中尺度对流复合体是造成此次暴雨的直接原因,强降
立体视频流在传输过程中,网络差错常常会引起整帧图像的丢失。由于视点间的相关性,立体视频右通道中的丢失帧可以利用左通道对应帧的编码信息对其进行掩盖。结合已有的立体视频
传统灰色关联度在分析构成因素系统时不能顾及因素序列分量占行为特征序列对应分量的比重,为此,通过斜率的相对变化率表征序列的发展态势,通过用紧邻均值化值的比来表征序列比重
针对核聚类算法与免疫网络聚类算法的不足,将免疫网络机制与核理论相结合,通过用核距离函数代替欧拉距离函数,设置反映抗体识别抗原数量的权重和引入人工免疫网络机制等解决样本
介绍了AprioriHybral算法,针对算法前期工作效率的不足,提出一种基于项目集矩阵的改进算法ISMa-trix-AprioriHybral(ISMA)。新算法(ISMA)主要从使用项目集矩阵生成一阶和二阶
网格技术的发展对网格资源管理模型提出了新的设计要求。传统的计算经济网格资源管理模型存在着资源调度能力弱和动态管理差的特点,显然不能适应新的网格资源管理需求。为了提
在长期演进项目的虚拟多输入多输出系统中,为了保证用户公平性的同时得到更大系统容量,在分析移动自组织网络和虚拟多输入多输出系统模型的基础上,提出了一种长期演进项目中基于