基于链接回溯的地理信息更新主题爬虫研究

来源 :计算机技术与发展 | 被引量 : 5次 | 上传用户:xieyl2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的崛起为地理信息更新检索提供了一条新的途径,具有实时性强、成本低的优势。文中从实际出发,针对现有爬虫算法的缺陷,提出一种基于链接回溯的地理信息更新主题爬虫方法。首先,结合支持向量机分类技术,能够快速有效地找出一个网站中最有可能包含主题相关内容的链接方向;然后,回溯到这些链接后继续进行爬取,并通过地理信息变化要素知识库确定主题内容,从而优化爬取路径,减少低效率的爬取过程。实验结果表明,该方法可以找出最有可能包含地理信息的链接方向,大幅提高主题爬取效率,在其他主题方向也具有一定的可推广性。
其他文献
基于结构相似度(SSIM)的图像质量评价方法简单高效,准确性较高,评价性能优于峰值信噪比(PNSR)和均方误差(MSE),但SSIM模型不能较好地评价严重失真和交叉失真类型的图像。文中提出了一种改进的基于结构相似度的图像质量评价方法(HSSIM),该方法将直方图信息作为图像的主要结构信息,根据人眼视觉特性,利用直方图集中度来表示图像模糊度,最终计算得到图像的结构相似度值。实验结果表明,HSSIM比
在开放式的环境下一般由不同的组织和人员对一个领域的本体库的知识实例进行维护和添加,这就可能出现重复描述的实例的问题,会出现对同一对象的不同实例描述,甚至是相互矛盾的,从
为了让人们对新冠肺炎疫情有一个更加科学的认识,加强防护力度,本文对新型冠状病毒肺炎疫情报道的特点进行了分析,希望能够给相关的研究人员提供帮助。
文中构建了一种基于协作频谱感知的多天线频谱共享模型,为提高系统传输性能,采用了放大转发(AF)中继方式进行通信传输。文中提出的模型由一组多输入多输出主用户和多组多输入多输
文章介绍了高校实验室及设备管理机构设置及其改革发展,提出机构设置的基本原则及职能定位,并结合本校实际进行了论述。
摘要:当前,新媒体逐渐走入社会、生活的各个领域,在新媒体与传统媒体的竞争下,作为传统党媒,是党与人民沟通的喉舌,在重大主题报道中占据着至关重要的地位,党媒如何在新媒体背景下进行创新,也关乎着各大主流媒体的发展方向、形象塑造、媒体地位的一个重要着力点,党媒重大主题报道的创新举措也是衡量其媒体实力的一个重要指标。  关键词:全媒体;报道;创新  在全媒体时代,党媒如何做好创新?如何将新闻内容做优秀,如
超宽带作为一种高速无线通信技术,具有很多优势,但是其过高的带宽造成采样困难的问题。考虑到超宽带信号和信道固有的稀疏性且信道稀疏性未知,贝叶斯压缩感知提供了一种低速采样
文章在对我国高校实验室管理机构现状分析的基础上,结合中山大学多年的管理实践,探讨了高校实验室主管部门的定位和作用。提出高校实验室主管部门应准确定位,明确职责,理顺各方关
针对传统的应用软件用户界面开发方法存在的可修改性与可重用性差等一系列问题,提出了一种基于XML的通用界面自动生成模型-GIAGM。该模型主要包括界面配置、界面定制、界面生