网页标题分析对主题爬虫的改进

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:ben349408481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确的主题爬虫显得十分迫切。然而目前的主题爬虫所采用的两种基本抓取网页的方式效率比较低下。提出了一种通过网页标题分析对主题爬虫的改进方案,比较了引入标题分析前后的结果,论证了设计的可行性与可操作性,优化了主题爬虫对同类型特定信息的抓取。
其他文献
通过梳理和比较部分城市的综合管廊有偿使用政策,对定价方法、定价规则以及影响定价的相关因素进行分析,发现存在定价标准不明确、定价影响因素考虑不全面等问题。在此基础上
采用核磁共振技术,探究杭州钱塘江流域粉土和城西淤泥质土两类不同的土体试样,其初始含水率不同对土体孔隙率的影响。通过核磁共振试验的数据确定试样的孔隙体积,并与试样通
OSD是P2P机顶盒的重要组成部分,它是用户与程序之间交互的接口。DM6446平台虽然对显示硬件的使用提供有部分API接口,但不足以开发出良好的UI,因此文中基于该平台,通过对硬件抽象
在分析绿色屋顶的多重生态功能基础上.阐述了影响绿色屋顶生态功能的主要因素.并总结了对绿色屋顶生态功能进行定量计算的数值模拟方法,以期为城市绿色屋顶的建设提供理论和方法
如何准确、及时、全面地采集用户使用数据是Web使用挖掘的重要前提和基础。基于Web的基本结构,Web使用挖掘的数据源可以从web服务器端、应用服务器端、代理服务器端和客户端进
在东莞市城市更新工作推动下,通过文创产业与商户的入驻进行自发性、小规模及渐进式的街区改造形式,下坝坊的历史文化街区改造于2009—2014年取得阶段性的成功。经实地调研结
路由器是接入网络的关键设备,为了防止网络流量过大而造成网络拥塞的状况,设计了一种在路由器上的网络流量控制系统。DD-WRT是一种开源的路由器固件,对DD-WRT重新定制开发,可
在分析城市实行流动人口管控必要性的基础上,论述了有效落实疫情防控中流动人口管控的原则及方式,结合当前新型冠状病毒肺炎疫情治理实践,从疫情期间城市实行流动人口管控暴
突发性的大规模疫情,对经济的破坏程度甚至比金融危机和自然灾害更为严重、更加全面地影响国家、地区的经济、社会、生活等各个层面。本文从微观、宏观等方面分析预测新型冠