【摘 要】
:
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分
【机 构】
:
西安建筑科技大学信息与控制工程学院,西北大学信息科学与技术学院,北京师范大学信息科学与技术学院
【基金项目】
:
国家自然科学基金项目(60573179)
论文部分内容阅读
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。
其他文献
以大柳塔煤矿12404-2综采面初次来压前的深孔预裂爆破为例,介绍了大柳塔矿通过合理确定爆破参数、改进深孔装药方法、科学安排施工组织,实施综采面初次来压前的深孔预裂爆破,
战略性贸易政策理论是在20世纪80年代初提出并建立的,该理论有两个基本模型,即第三国市场模型和相互倾销模型.其基本结论认为:政府可以通过一定的干预政策改变本国厂商与外国
针对新建楼宇与楼宇改造工程中多种数据源并存的现象,提出了一种基于BACnet网关的数据同步方案以及实现方法,实现了企业内部异构数据库之间的数据同步,为企业内部信息的共享
多年前,笔者采访过一位在日本开料理店的华人女老板,对方谈起一件让人印象至深的事。女老板有一智障女儿,她说:“女儿的成长多亏了志愿者帮助,女儿上的是智障者学校,经常有志愿者来
配加焦粉炼焦的焦粉细度、配量对焦炭质量,尤其焦炭的热态性能的影响,进行了试验分析,明确了焦粉细度和配量的变化对焦炭质量的影响趋势,更好的指导配焦粉炼焦的生产.
通过对安溪县湖上乡岩溶的塌陷现状、危害和地质环境条件的调查,分析了岩溶地面塌陷形成条件,依据岩溶塌陷形成规模和强度等,采用定性和定量评价对岩溶塌陷易发性进行分区,划
在社会经济快速发展的大背景下,传统民居的地域性特征正在逐渐弱化,尤其针对商洛地区的传统民居,与其相关的地域性研究内容较为单薄,尚未形成系统性、综合性的研究体系。因此