【摘 要】
:
随着互联网上的信息量越来越大,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等已日趋明显。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统
论文部分内容阅读
随着互联网上的信息量越来越大,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等已日趋明显。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统搜索引擎更令人满意的结果,这就是垂直搜索引擎。主题爬虫是垂直搜索引擎的核心部分。主题爬虫对网络带宽的利用率、硬件资源的使用以及搜索效率都有重要的影响,因此对主题爬虫的研究具有重要的意义。
本文首先介绍爬虫的基本原理,接着讨论主题爬虫的关键技术如中文分词,主题判断的方法以及主题向量的建立等,重点介绍了主题爬虫的爬行策略。本文详细介绍了每类爬行策略的代表算法,并对这些算法的优缺点进行了分析,并在此基础上提出了算法改进方法。
本文对传统向量空间模型特征词的权值计算方法进行改进:对文本中不同位置的特征词赋予不同的权重;对Hits算法中不合理的链接互相加强关系进行了改进:在扩展根集时,如果一个网站B上有n个其它网页指向另外一个网站上的某个网页A时,则将这些链接的权重设为1/n,其它链接的权重依然设为1;针对Shark-Search算法产生“近视”和Hits算法产生“主题漂移”的不足,将这两种算法的优点结合起来形成两种新的主题爬虫算法:S-Hits算法和MT-Hits算法,并实现了这两种爬虫算法。实验表明新的算法效果较好。
其他文献
蚁群算法是通过对自然界中真实蚂蚁的集体行为的观察、模拟而得到一种仿生优化算法,它具有很好的并行性、分布性。根据蚂蚁群体不同的集体行为特征,蚁群算法可分为受蚂蚁觅食
随着时代的进步和发展,人们对社会安全问题越来越重视。视频监控在其中发挥了重要的作用。随着计算机技术和硬件技术的不断发展更新,为视频监控技术的智能化发展提供了充分的
随着Web技术的发展,网络上现存的主观意见表述文本陡增。主观WEB文本不仅能给其他用户提供客观的参考价值,并且产品生产方也可以及时根据用户的意见言论来调正自己的产品设计
硬盘是迄今为止应用最为广泛的数据存储设备,其具有高速读写、大容量数据存储等特点,能够满足各种数据存储需求。但是,由于近年来电子技术的快速发展,硬盘逐渐不能适应一些新
图像融合是按照一定的规则,将两个或两个以上的传感器在相同或不同时间内获得的同一场景或同一目标的成像进行处理,最终获得更适合进一步图像处理的要求。多聚焦图像融合就是
数字图像处理和计算机视觉是近年来发展十分迅速的研究方向,目前正广泛地应用于军用和民用等各个领域,是智能机器获取外部信息和理解世界的重要途径。运动检测与目标跟踪是计
云计算是当前信息领域的热点,它的出现宣告了低成本提供超级计算时代的到来。在云计算时代,用户可在全球范围内动态租用计算资源。云计算整合了互联网“云海”中的“云岛”资
随着大容量、高速度计算机的出现,使计算机的应用范围迅速扩大,软件开发急剧增长,软件系统的规模越来越大,复杂程度越来越高,软件可靠性问题也越来越突出。原来的个人设计、
支持向量数据描述作为一种基于统计学习理论的单分类方法,在解决有限样本、非线性以及高维数据的模式识别问题中表现出许多特有的优势,已成为机器学习领域的又一研究热点。在
为了促进经济快速发展和社会不断的进步,在现有的统计数据资料基础上为各种商业和科研等活动做出决策分析,研究并认识事物内在的变化规律,对事物的未来发展进行预测已经成为机器