【摘 要】
:
随着互联网技术的迅速发展,社会各行各业都在通过网络与外界交互信息,Web信息呈显海量和多元化,并且仍在急剧增长。在越来越多的实际应用需要从Web中抽取有价值的信息加以利
论文部分内容阅读
随着互联网技术的迅速发展,社会各行各业都在通过网络与外界交互信息,Web信息呈显海量和多元化,并且仍在急剧增长。在越来越多的实际应用需要从Web中抽取有价值的信息加以利用。不同网站网页异构化和网页自身半结构化特征使得Web信息难以分析和直接利用,另一方面,人们除了关注大众新闻外,更多的是对一些与自己相关的特定领域信息感兴趣。面向领域的Web信息抽取技术在实际应用中变得越来越重要。论文分析了当前的Web信息抽取国内外研究现状及发展趋势,研究领域网站的特点并提出系统设计目标。本系统的特色是基于特定领域网站抽取用户关注信息,能够自动生成领域内不同网站的抽取规则,系统具有良好的抽取性能,并且容易扩展,可移植抽取不同领域网站。系统设计宗旨是努力提高系统的易用性,寻求在用户参与负担和系统抽取性能之间取得平衡。系统设计主要包括了数据采集模块、网页清洗模块、抽取规则生成模块、Web信息管理模块等。其中抽取规则生成模块为系统核心模块,采用全自动化包装器生成算法MDR算法和DSE算法分别用来抽取两类数据密集型网页:列表页和详情页。为了提高抽取结果的准确率,系统基于DOM树模型设计了两种方法过滤噪音:一种方法是根据领域网页中用户目标数据与噪音数据在结构上差异设计启发式过滤噪音,另一种方法是根据相同领域下网站的详情页文本相似特点利用kNN文本分类方法过滤噪音。本文结合Java技术以网上招聘行业网站信息抽取为示例,实现了一个完整的面向领域Web自动抽取系统。经对抽取结果评测表明,本系统具有较高的研究意义和应用价值。
其他文献
路径搜索是计算机游戏中最为常见的任务之一,搜索算法的质量很大程度上影响着游戏的趣味性与可玩性。A*算法是最典型的启发式搜索算法,在路径确实存在的情况下,它能够确保得到一
森林作为全球生态系统的重要组成之一,在生态、社会和经济上给人类创造了无穷价值。森林火灾的频繁发生给森林防护工作带来了很大压力,也严重威胁到了人类的生命财产安全。世
随着计算机网络技术和数字技术在全球范围内的广泛推广和使用,图像、视频等多媒体数字作品在网络上变得非常盛行。虽然数字作品在网络上传播方便,但是它有一些不安全性因素存在
汽车驾驶仿真系统是一种能够模拟三维虚拟环境及实际汽车驾驶情况的系统,对驾驶者的驾驶技能的提高、驾驶经验的补充及交通安全的维护有着极大的促进作用,其节能、安全、高效
SOA是“面向服务的体系架构”,它可以根据需求通过网络对松散耦合的粗粒度应用组件进行分布式部署、组合和使用。SOA架构是一种粗粒度、开放式、松耦合的服务结构,要求软件产
随着计算机和互联网技术的蓬勃发展,网络中信息量成指数增长,互联网步入大数据时代,信息过载问题日益明显。个性化推荐引擎能够帮助用户从海量的数据中辨别、过滤信息,主动给
随着互联网的快速发展,网上的信息数据呈指数级的速度迅猛增长。用户如何在短时间内获取自己所需信息变成为难题。信息检索是有效解决上述情况关键技术。它按一定方式组织信息
随着互联网的飞速发展,网上传播的数字内容存在着大量的盗版和侵权问题,因此对网上交易的数字内容进行版权管理和保护,这成为一个迫切需要解决的问题。但现在的数字版权保护
Timed-Release Encryption(TRE,译作“时释性加密”)的目标是“发送一个消息给未来”[1],即发送者加密一个消息,发送给接收者,接收者只有在指定的发布时间到达的时候才能解密这个消
随着军队信息化的建设发展,电子公文在网络间传输更需要唯一、合法,防非法复制、防非法篡改且可追溯,因此,本文研究设计了一个适用于军队办公环境的电子印章系统,在网络环境下实现