基于主题的Web信息采集技术研究

被引量 : 82次 | 上传用户:shenbincool
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于主题的Web信息采集研究。根据我们在信息采集领域的长期积累以及国内外在基于主题的信息采集领域的发展,本文在综述了基本情况后提出了一个基于主题的Web信息采集结构模型,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。我们分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了多个新的算法、判定规则和规律:在Hub特性、Linkage/Sibling Locality特性、站点主题特性、Tunnel特性的基础上,总结出了主题页面在Web上的分布规律。在定义主题和提出分类主题的基础上,给出了主题选择的方法。采用Client/Server结构的Spider系统,允许多机同时采集,实现了全面、高效并且灵活的信息搜集。在分析了HTML语法的基础上,给出了对html页面的主题、链接、标题的提取算法。在URL与主题的相关性判定中,在扩展元数据方法RW、RWB和链接分析方法PageRank的基础上提出了IPageRank算法。在页面与主题的相关性判定中,应用在自然语言处理中比较成熟的基于关键词的向量空间模型计算页面与主题的相似度。试验结果显示,我们的工作是有效的,我们的系统有很强的实用价值,特别是URL与主题的相关性判定中的IPageRank算法,有较大的突破。
其他文献
随着我国加入世贸组织后面临跨国公司的全面进入和我国企业大规模走向国际市场,如何提高我国企业产品创新的管理水平,已经不仅关系到我国企业国际竞争力高低,而且事关我国产业结
本文从我国外贸出口政策协调性的重要性与复杂性入手,选择同向性、整体性与恰当性这三个衡量标准对亚洲金融危机以来我国外贸出口政策的协调性进行实证分析,揭示政府对市场化
早在1870年,工业革命之后经济腾飞的法国,60岁以上人口达总人口的12%,成为世界上第一个步入老龄化社会的国家。随之,瑞典、挪威、丹麦、荷兰、比利时、英国、美国、德国、日
形成性评价是教学评价的重要组成部分,已在我国不同层次的教育领域推进,但人们对其认知及推进过程仍存有问题,文章旨在介绍形成性评价的内涵、认知误区以及形成性评价的工作要素
从全球竞争的角度看,21世纪国际经济竞争的基本单位既不是企业,也不是国家,而是以中心城市为核心的大城市群。作为现代城市发展的一个新的空间单元,城市群必将成为21世纪全球化背
山体效应是地理地带性之外,在大尺度上影响垂直带分布的主要因素,山体基面高度则是山体效应的第一影响因子。青藏高原及其周边地区,雪线呈现出中心高、周围低,与山体基面高度
研究生教育成本分担与资助是研究生收费中保障公平、实现调控、优化结构的一个必不可少的环节和财政手段。近年来,随着我国本科教育大幅扩招,研究生招生规模也相应扩大,面对着日
后方军械仓库作为空军机栽弹药和军事装备储存的重要场所,虽然大多地处偏僻,但战时必将成为敌方重点打击的对象,特别是大量电磁脉冲武器的使用对军械仓库威胁很大;同时复杂多变的
企业年金制度是世界各国多支柱养老保障体系的重要支柱。自1991年国务院《关于企业职工养老保险制度改革的决定》要求发展企业年金,建立多支柱养老保障体系,并陆续出台相关鼓励
三聚氰胺氰尿酸盐(MCA)是一种重要的氮系阻燃剂,对非增强聚酰6(简写PA6)具有很高阻燃效率。但传统MCA在PA6加工温度下是不熔化的刚性粒子,在树脂基体中分散效果欠佳,使其阻燃性