基于模拟退火算法的主题爬虫

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:frankxigua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题爬虫是主题搜索引擎的基础与核心,主题爬行策略的好坏直接影响搜索结果。为了搜索到更多相关的网页,通过利用模拟退火机制选择下一步要访问的链接,使那些蕴含“综合价值”高的链接在搜索初期有机会被选中,同时利用“隧道技术”扩大相关网页的搜索范围。计算链接价值时,综合考虑了链接所在页面内容的价值和链接提示文字的价值,根据它们对链接价值的影响程度不同,分别赋予它们不同的权值。实验证明,该方法对提高网页覆盖率和准确率都有很好的效果。
其他文献
Young people living inside informal communities around the capital of Honduras are easily recruited by gangs.These neighborhoods demand better quality architect
兴隆县位于河北省承德市南部,目前城市供水主要靠地下水。随着城市规模不断扩大,城市供水日趋紧张。中国地质调查局于兴隆县实施的承德生态文明示范区综合地质调查工程项目,
指出支天云的二进制可分辨矩阵约简算法存在的不足,给出简化的决策表定义和基于二进制可分辨矩阵的属性频率函数的定义。在此基础上,以核属性为初始约简集,以属性频率为启发式信
[目的]筛选出慈姑茎尖组织培养的最佳试验条件。[方法]以江苏省慈姑的主栽品种"宝应紫圆"的茎尖为材料,研究了不同培养条件对慈姑茎尖培养和匍匐茎诱导的影响。[结果]0.1mg/L6-
基于非一致性关系数据库的选择连接查询技术,提出了基于非一致性数据库多个关系上的聚集查询重写方法。该聚集查询重写方法先通过查询出多关系上的一致性结果,然后进行分组聚集
内存管理是一个一直值得研究和优化的问题。在TD—SCDIVIA高层协议栈软件跨平台技术的研究过程中,文中提出了一种内存管理方法:在软件和操作系统之间设立抽象层,抽象层的内存池
The “Monitoring City Walls” research project by the University of Pisa approaches planned conservation as a process that pursues an in-depth understanding of
这研究试图与降水和温度在中国的荒芜黄土的过渡地区分析规范的差别植被索引(NDVI )(1981-2006 ) 的关系。平均方法和关联功能在这研究被使用。结果显示在成长季节期间, NDVI
为消除津围公路K4段滑坡次生的地质灾害隐患,保障公路通行车辆和人员的安全,在充分收集并分析已有相关地形、地质资料的基础上,对津围公路北二线(K4+350-K4+460段)滑坡开展现