网络爬虫软件的研究与开发

来源 :软件导刊 | 被引量 : 0次 | 上传用户:sxz123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。
其他文献
学术性社团活动的开展有助于大学生专业知识的学习和运用,提升其创新实践能力水平。对四川大学学术性社团的实证研究表明,学术活动的开展频率越高,越有利于提升大学生创新实
建筑电气工程一般涵盖强电工程和弱电工程两个方面。随着社会的发展,人们对建筑电气的需求越来越高,为保证建筑电气的强弱电工程符合人们日常生活全部需求,提升建筑电气工程
<正>颈椎病的影像学检查方法很多,如何正确选择检查方法对颈椎退行性病变的正确诊断起至关重要的作用。根据临床症状和影像学表现,颈椎病可分为神经根型、脊髓型、椎动脉型、
本文运用公共经济学和微观经济学等有关理论对中等职业教育财政补贴进行了分析。财政补贴的重要依据是中等职业教育的准公共产品属性和外部性;财政补贴方式包括对学校间接财
针对永磁同步电机数字控制系统中,电机转速动态过程中出现的由于通常采用PI控制器串联校正来设计速度环而导致的超调和振荡问题,提出了一种速度控制器优化设计方法。在分析了
针对电机控制中外界的扰动因素,提出用干扰观测器来补偿扰动对伺服系统运行的影响。在对象的名义模型正确条件下,给出了干扰观测器和反馈控制器的设计方法。并从理论上保证了
文中概括介绍了此类电机的电磁和结构设计等技术。在整机设计方面充分考虑到采用空气离合器的因素,无刷励磁机是设计开发的重点。简要地对控制模块协调控制励磁电路,完成励磁
中西文化审美价值取向的差异主要体现在绘画、文学、建构、音乐四个方面。西方重客观、尚激情和雄健之美 ,体现出浓厚的宗教精神 ;中国文化强调感悟和体验 ,重视性与理的和谐
在解一些综合题时,常会遇到一些用常规方法较难解决的问题.这时,如果构造适当的图形来加以辅助,往往能促使问题转化,从而简捷地解决问题.对于有些求角度、求线段长度、证线段相等的
近年来,滕州市农村土地流转呈现出流转规模扩大化、流转主体多元化、流转范围广泛化、流转形式多样化的显著特点,滕州市推进农村土地流转的实践给我们带来了一些启示。