基于语义分析的网络信息采集算法研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zjyeling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web信息多元化的增长,传统的信息采集系统(Scalable Web Crawler)已无法保证对信息的及时更新,并且由于其采集信息的主题范围过于广泛,较少考虑采集的信息是否与查询主题相关,满足不了人们对个性化信息检索服务日益增长的需求。主题信息采集系统(Focused Web Crawler)采集信息的内容只限于特定主题或专门领域,在搜索过程中无须对整个Web进行遍历,只需选择与主题页面相关的页面进行访问,基本回避了传统信息采集系统信息指数膨胀的危机,成为近年的研究热点。 本文以辽河油田科技部信息管理系统为研究背景。分析了网络蜘蛛的工作原理,按照评价链接价值所采用方法的不同将现有的搜索策略进行了分类,分析、比较了它们的特点和优缺点,并给出了一种基于语义链接分析的信息采集策略。结合该策略,设计了一个面向主题搜索的信息采集模型,并对模型的组织结构及各模块的功能进行了详细阐述。 词义消歧是主题语义相关度计算的基础,本文结合两种基于“知网”的词义消歧策略:类别歧义消歧策略、基于语义相关度的消歧策略;给出一种基于“知网”的消歧算法,该算法利用词语义原中所含的四种关系,计算词语之间的相关度和词语与其上下文之间的相关度,进而达到词义消歧的目的。 在URL的主题相关性判别过程中,以“知网”为基础引入了词汇的语义计算,从语义和概念层对文本进行主题相关性分析,将基于内容评价的搜索策略和基于Web链接结构的搜索策略相结合,给出了一种改进算法SPageRank(Semantic PageRank),通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题相关性判定,则使用目前较为常用的向量空间模型进行计算。实验结果表明,基于SPageRank的信息采集系统具有较高的采集效率及精度。
其他文献
自强不息创佳绩山西省许堡煤焦管理站站长肖阔访谈录文/崔莹白利军九七年入秋后,全国各地认真贯彻党的“十五大”精神,一些亏损或效益不佳的中小企业纷纷被“放开”,以求再生的活
随着计算机网络技术的发展和Internet在全世界范围的普及,计算机网络的规模日益庞大和复杂,计算机网络管理技术成为一个非常重要的课题。作为网络管理基本功能之一的网络拓扑发
词语相似度、相关度计算一直是机器翻译、语义消歧、信息检索等领域的基础,本文介绍了目前国内外关于词语相似度、相关度计算的研究现状,阐述了几种具有代表性的词语相似度、相
地震发生后,从中央领导到十万大军迅速行动起来,奔赴灾情最前沿,全力投身抗震救灾。这样的领导和人民军队值得赞美。地震发生后,灾区广大的基层领导干部忍着失去亲人的心头巨
随着无线网络技术和信息社会经济的迅速发展,人们对移动通信及宽带无线接入业务的需求不断增长。一方面,不同的无线网络技术,如蜂窝通信UMTS、LTE、宽带无线接入技术(WiMAX)
[摘 要] 当前,我国大学生志愿者已经成为志愿服务事业的主力军,大学生志愿服务的社会影响力在逐渐扩大。但是受西方价值观渗透和工具理性膨胀的影响,大学生志愿者与志愿服务对象间的矛盾越来越突出,并且成为制约志愿服务高效发展的主要因素。本文将主体间性哲学理论与大学生志愿服务主客体间关系的研究相结合,旨在通过推进大学生志愿服务主客体间内在的对话沟通和完善大学生志愿服务外在环境来消解这两个主体间的矛盾,实现
数字水印是一种有效的对数字产品进行版权保护的技术,手写签名是一种广泛被大众所接受的传统授权认证方式。传统的水印大多是图标和序列号等标识信息,将数字水印和生物特征认
在现代企业人力资源管理和人才队伍建设中,通过培训提升员工队伍综合能力是保持企业活力与竞争力的主要手段.本文以国网福建省电力有限公司莆田供电公司构建“三张地图”培训
作为网络性能测试工具之一,网络模拟器不仅要能够适应网络的快速发展,同时它还要具有易于使用和高效等特点。IPv6被视为下一代互联网络的核心,Windows操作系统也被越来越多的
序号标准代号     标 准 名 称  报批发布日期 起草单位   标准起草人1MT/T308—92水力采煤泵1992.07.01发布煤科总院唐山分院顾天元2MT/T309—92水力采煤液控