特定领域的Deep Web数据抽取与语义标注研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:litian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整受到了广泛关注,这些信息资源通常是由用户在Web查询页面提交查询请求后,以HTML页面为中介展示给用户的。学者们通常将这些信息资源称之为Deep Web资源。为了最大程度的利用这些Deep Web资源,需要通过各种技术手段将网页中的无结构或者半结构化信息抽取出来。同时为了使抽取到的信息具有更高的使用价值,应该对这些数据进行语义标注,使其能够被机器所理解。本文对特定领域的Deep Web的数据抽取与语义标注进行了研究,将节点的类型信息引入到数据记录的抽取中来,并基于本体实现了语义标注,最后结合自身参与的项目设计了一个原型系统。本文的研究工作主要包括以下几点:1)简要概述了信息抽取的发展历史、评价标准和所涉及的相关技术,并对现有的信息抽取方法进行了深入的分析。2)结合Deep Web结果页面自身的特点,利用页面布局的视觉特征和内容特征,提出了一种利用标签过滤器、视觉特征过滤器、内容规则过滤器的页面净化方法。实验结果表明,该方法可以有效提高后续数据抽取的效率与精度。3)提出一种基于节点类型的数据记录抽取方法,该方法首先将HTML标签节点分为块、样式、文本、图片四种类型,并对每一种类型赋予一个权值,其次根据不同的节点类型来计算结果页面数据记录中各属性节点的熵值,最后通过此熵值来确定代表数据记录的节点,实现数据记录节点的抽取。与其他方法相比,该方法具有更高的效率。4)将领域本体作为Web数据库所遵循的全局模式,通过核密度、K-L距离等方法来实现本体与模式间的映射,从而实现数据的语义标注功能。实验结果表明该方法具有一定的优越性。5)在上述研究的基础上设计了一个面向生物医药领域的信息集成平台。
其他文献
随着智能移动设备的日益普及,移动互联网技术的迅速发展,出现了各种各样的移动应用,而这些应用多数都是计算密集型的。为了获取良好的用户体验,移动设备就必须拥有较高的配置
加壳技术是保护软件知识产权的常用方法,但是常被恶意代码用来躲避杀毒软件的检测,因此对脱壳技术的研究是恶意代码分析的重要部分。当前已有很多有效的脱壳技术,例如定向脱壳技
聚类分析是数据挖掘的一个重要研究领域,已被广泛应用于统计学、生物学和市场营销等领域。目前学者已经提出了许多聚类算法。然而传统的聚类算法常常遭遇“维度效应",导致算
视频序列图像中对运动目标进行检测与跟踪是计算机视觉研究中一个相当活跃的领域,其目的是使计算机通过视频序列图像认知场景中的信息,并为图像分割、图像理解、行人识别、行为
当前,生命医学研究正处于后基因组时代。系统地分析和全面理解蛋白质之间通过相互作用完成生命活动的规律成为最热的研究问题之一。特别是,从大规模蛋白质相互作用网络中识别蛋
二维卡通动画以其丰富的表现力和独特的风格深受人们的喜爱,也广泛被应用于广告、教育、娱乐等领域。到目前为止,已有大量的二维卡通动画片被创作出来。二维卡通动画的制作是
工作流挖掘的目的是从事件日志中提取任务的执行轨迹信息,建立清晰的工作流模型。目前的算法大都采用局部策略,难以处理复杂的控制流结构,且抗噪音能力比较弱。而用于工作流
足球赔率是博彩公司根据其利用几年乃至数十年所积累的大量的、丰富的与足球比赛相关的各种数据数据,利用科学的、严谨的数学理论以及投注人心理研究等模型,通过计算得出的对于
无线传感器网络以其低耗自组、容错性好、易于大规模部署等优点,被广泛应用于军事、环境、工业和农业监控等领域。在无线传感器网络的应用中,节点的位置信息起到至关重要的作
随着科技的发展,视频图像的应用越来越广泛,视频图像中运动目标的分割是所有数字图像处理的重要环节,也是后续高级处理的基础,因此有关运动目标分割的研究就显得十分必要。运动目