基于语义分析的网络信息采集算法研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：zjyeling

【摘要】

：

近年来，随着Web信息多元化的增长，传统的信息采集系统(Scalable Web Crawler)已无法保证对信息的及时更新，并且由于其采集信息的主题范围过于广泛，较少考虑采集的信息是否与查询

【作者】

：

赵佳鹤

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2006年期

【关键词】

：

主题信息采集知网搜索策略扩展元数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着Web信息多元化的增长，传统的信息采集系统(Scalable Web Crawler)已无法保证对信息的及时更新，并且由于其采集信息的主题范围过于广泛，较少考虑采集的信息是否与查询主题相关，满足不了人们对个性化信息检索服务日益增长的需求。主题信息采集系统(Focused Web Crawler)采集信息的内容只限于特定主题或专门领域，在搜索过程中无须对整个Web进行遍历，只需选择与主题页面相关的页面进行访问，基本回避了传统信息采集系统信息指数膨胀的危机，成为近年的研究热点。本文以辽河油田科技部信息管理系统为研究背景。分析了网络蜘蛛的工作原理，按照评价链接价值所采用方法的不同将现有的搜索策略进行了分类，分析、比较了它们的特点和优缺点，并给出了一种基于语义链接分析的信息采集策略。结合该策略，设计了一个面向主题搜索的信息采集模型，并对模型的组织结构及各模块的功能进行了详细阐述。词义消歧是主题语义相关度计算的基础，本文结合两种基于“知网”的词义消歧策略：类别歧义消歧策略、基于语义相关度的消歧策略；给出一种基于“知网”的消歧算法，该算法利用词语义原中所含的四种关系，计算词语之间的相关度和词语与其上下文之间的相关度，进而达到词义消歧的目的。在URL的主题相关性判别过程中，以“知网”为基础引入了词汇的语义计算，从语义和概念层对文本进行主题相关性分析，将基于内容评价的搜索策略和基于Web链接结构的搜索策略相结合，给出了一种改进算法SPageRank(Semantic PageRank)，通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题相关性判定，则使用目前较为常用的向量空间模型进行计算。实验结果表明，基于SPageRank的信息采集系统具有较高的采集效率及精度。

其他文献

IP网络拓扑自动发现的研究与实现

随着计算机网络技术的发展和Internet在全世界范围的普及，计算机网络的规模日益庞大和复杂，计算机网络管理技术成为一个非常重要的课题。作为网络管理基本功能之一的网络拓扑发

学位

网络管理拓扑发现SNMPICMP

基于知网的词汇语义计算研究及应用

词语相似度、相关度计算一直是机器翻译、语义消歧、信息检索等领域的基础，本文介绍了目前国内外关于词语相似度、相关度计算的研究现状，阐述了几种具有代表性的词语相似度、相

学位

知网相似度相关度语境相似度概念-义原树

异构无线网络中安全计费协议研究

随着无线网络技术和信息社会经济的迅速发展,人们对移动通信及宽带无线接入业务的需求不断增长。一方面,不同的无线网络技术,如蜂窝通信UMTS、LTE、宽带无线接入技术(WiMAX)

学位

异构无线网络安全计费服务分片不可否认性自更新哈希链变色龙签名

主体间性视域下大学生志愿服务主客体间矛盾的消解

[摘要] 当前，我国大学生志愿者已经成为志愿服务事业的主力军，大学生志愿服务的社会影响力在逐渐扩大。但是受西方价值观渗透和工具理性膨胀的影响，大学生志愿者与志愿服务对象间的矛盾越来越突出，并且成为制约志愿服务高效发展的主要因素。本文将主体间性哲学理论与大学生志愿服务主客体间关系的研究相结合，旨在通过推进大学生志愿服务主客体间内在的对话沟通和完善大学生志愿服务外在环境来消解这两个主体间的矛盾，实现

期刊

主体间性大学生志愿服务主客体间矛盾消解

手写签名的多重数字水印及认证算法研究

数字水印是一种有效的对数字产品进行版权保护的技术,手写签名是一种广泛被大众所接受的传统授权认证方式。传统的水印大多是图标和序列号等标识信息,将数字水印和生物特征认

学位

数字水印在线手写签名认证K-L变换动态时间规整

基于Windows平台IPv6网络模拟器的设计与实现

作为网络性能测试工具之一,网络模拟器不仅要能够适应网络的快速发展,同时它还要具有易于使用和高效等特点。IPv6被视为下一代互联网络的核心,Windows操作系统也被越来越多的

学位

网络模拟网络模拟器WindowsIPv6NDIS

基于语义分析的网络信息采集算法研究与应用

其他学术论文