【摘 要】
:
随着信息时代的到来,互联网上如雨后春笋一般出现了各种信息站点,给人们提供了大量的有用信息。但是出现了一个新的挑战,就是如何能让人快速定位到自己所需的信息,搜索引擎正
论文部分内容阅读
随着信息时代的到来,互联网上如雨后春笋一般出现了各种信息站点,给人们提供了大量的有用信息。但是出现了一个新的挑战,就是如何能让人快速定位到自己所需的信息,搜索引擎正是在这一背景下酝酿而生,用户可以通过它快速查找信息。搜索引擎由最开始的半机械半人工的目录式搜索发展到现在主流的全文搜索引擎和垂直搜索引擎,但就目前最成熟的全文搜索技术,在单个领域上的网页收集能力,还是有一定的欠缺,导致查准率和查全率达不到理想的目标。虽然垂直搜索技术在单个领域上的信息收集能力有所增强,但是依然像全文搜索一样,提供基于网页级的搜索服务,需要用户进行再次过滤。因此就出现了对象级垂直搜索这一新的搜索模式,它是提供基于特定领域的对象级搜索,提交给用户的查询结果是搜索系统经过一系列的抽取集成所形成的对象实体。但是目前现有的对象级搜索引擎在对象信息抽取模块,都属于半自动化模式,前期需要大量人力对部分网页进行标注,从而获取对象抽取的先验知识。因此本文针对这种情况,研究并改进了Road Runner全自动抽取算法,设计实现了对象级垂直搜索引擎中的自动信息抽取模块。本文主要在以下两个方面进行了改进:(1)改进了简单树匹配算法,提高了判断相似的准确率。原始的简单树匹配算法对网页DOM树结构中所有标签节点进行统一处理,并没有考虑到迭代标签的特殊性,改进后对迭代标签进行了一定的处理后再进行匹配比较。(2)改进了Road Runner算法的属性标注模块,利用不同包装器之间抽取对象的关联进行交叉标注,提高了抽取数据的属性标注率。Road Runner算法本身采用的属性标注技术是基于网页信息中属性值和属性名成对出现,而大部分网页中存在部分属性名缺失的情况。最后本文利用上述改进的算法实现了对象信息抽取系统,并在图书领域进行了抽取测试。
其他文献
近年来随着网络技术的发展,网络用户数量在日益增长。用户在上网的过程中会产生用户行为数据,这其中包括浏览网页,网络购物,观看视频等一系列的信息。数以亿计的用户产生的数
引文网络分析以其巨大的研究和应用价值受到了人们的极大关注。现有研究大多都仅关注论文引用数据的静态分析,对论文引用趋势发展的实证分析及其预测研究还相对薄弱。本文详
Peer-to-Peer(P2P)网络技术是目前国际计算机网络技术研究领域的一个热点,其主要目的就是从分利用互联网中所蕴含的潜在资源(包括计算资源、存储资源和文件资源等)。随着移动
本文以基于大学校园网网络教学系统的研制为背景,针对网络教学的需要,开展对多媒体网络教学系统的研究。在对目前已有的网络教学系统进行深入分析研究的基础上,构建适合于军队院
Web服务平台为我们提供了非常成熟的高度异构分布式系统间跨平台、跨语言的互操作技术,但缺乏对安全、事务、可靠性消息传输等服务质量支持的缺点,阻碍了Web服务在企业级任务
我国近海渔业安全救助通信网由于诸多原因停止运行已有数年,近海渔业安全救助通信网关系到广大渔民的生命财产安全,也是近海渔业日常通信重要平台,因此恢复和升级改造的要求
当今社会,随着信息技术日新月异的发展及大范围的应用,在教育领域中,对教育教学的形式提出了新的要求。传统教育的理念和传统教学的模式已不再能完全满足受教育人群不断变化的需
随着社会信息化的发展,越来越多的人融入到了信息化的潮流当中。而正是流媒体技术改变了网络多媒体信息的传播方式,数字媒体应用蓬勃发展,目前已广泛应用于视频点播(VOD)、电
生产调度系统是企业资源计划(Enterprise resource planning,简称ERP)的核心,也是目前我国ERP项目实施的瓶颈。在敏捷化、全球制造的新形势下,生产调度研究面临着许多新问题,迫切
轻量级目录访问协议(Lightweight Directory Access Protocol,LDAP)是当前网络上信息资源管理领域中应用非常广泛的协议,能够满足大量用户同时在线访问。为使达梦数据库具有