基于聚焦爬虫的web信息采集技术研究

来源 :北方工业大学 | 被引量 : 2次 | 上传用户:xwg1217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和WWW (World Wide Web)的迅速发展,Web信息呈现指数级的增长,用户在这个庞大的信息库中查找需要的信息越来越力不从心。针对这样的问题,在Web信息检索领域出现了针对主题的聚焦爬虫技术。聚焦爬虫是主题搜索的基础和核心,并且随着逐步的发展和技术应用的深化,目前逐渐的应用在个性化信息采集、链接有效性分析、网站结构分析、用户浏览兴趣挖掘等各种实践和研究中。基于聚焦爬虫的主题Web信息采集研究具有广泛的现实意义。研究了搜索引擎系统和网络爬虫的基本原理、工作流程,着重研究了聚焦爬虫的特点、页面主题分析、基于链接结构和内容的搜索策略算法等。在关键技术的实现中,对已采集页面进行主题相关性判定,提取主题特征,通过基于向量空间模型的网页主题相关度判定算法计算页面的主题相关度,提高了主题信息采集的准确率;对待抓取URL进行主题相关性预测,利用主题页面分布特性和扩展元数据进行URL的主题相关度计算,考虑了主题页面的tunnel特性,提高了主题信息采集的召回率;引入链接结构分析算法PageRank,提出了综合相关度和重要度的URL综合价值计算方法TPR (Topical PageRank)。最后通过实验测试了信息采集的技术指标,验证了技术改进的有效性。
其他文献
本文以大学非英语专业学生的阅读教学为切入点,介绍了图式理论及其分类并随即开展了相关的教学实践活动。根据图式理论,笔者对山西医科大学2010级本科临床专业学生进行了英语
目的 观察闭合复位经皮锁定钢板和交锁髓内钉治疗胫骨干中下段骨折的临床效果.方法 选取2015年3月至2016年10月收治的120例胫骨干中下段骨折患者,随机分为观察组和对照组,各60
近几年,农民专业合作社在国家政策的正确指引下蓬勃兴起,已发展成为重要的农村市场主体,对促进现代农业建设、农村产业化发展和农民稳定增收发挥了重要作用,但在快速发展过程中,也
<正>每座城市都想成为智慧城市。但是,智慧城市意味着更安全吗?是否智慧城市的犯罪率会降低,执法部门的执法活动会更完善,居民的生活品质会更高呢?近年来,商业公司利用"智慧
对不同年龄,不同出行方式,不同站点进行调查,并对调查数据进行统计分析得出了人们对地铁信息服务满意度的百分比。结果显示,人们对地铁信息服需求的满意度并不理想,为了提高
当前,我国社会正在向新阶段发展,在全球科技和产业变革加速进行的国际背景下,高等教育对高校及辅导员队伍建设形成了新挑战和新需求。针对高等教育发展进入大众阶段末期、辅
高校的教学改革一直在进行中,取得了一定的成绩,也还面临着诸多的问题。本文对高校教学改革的探讨主要是从高校课程设置、教师素质、实践教学和教学方式四个方面入手,分析了
一般认为,地球物理上的莫霍面是地幔和地壳的分界面。被海水覆盖的洋壳通常只有6~7km厚,相对于较厚的陆壳来说,洋壳不仅年轻得多,也活跃得多。然而,洋壳的地质结构以及莫霍面
开展农民工职称评定,可以有效改变其“有技术无地位”的状况,是提升其社会地位的有效途径,有助于其分享经济社会发展的成果,符合“体面劳动”的理念。新生代农民工日益成为农民工