【摘 要】
:
目前Web上的资源日益增多,为更有效地利用这些资源,近年来产生了垂直搜索引擎。它是面向专业或主题的搜索引擎,只采集与专业或主题相关的信息,这样就需要从Web页面等资源中抽
论文部分内容阅读
目前Web上的资源日益增多,为更有效地利用这些资源,近年来产生了垂直搜索引擎。它是面向专业或主题的搜索引擎,只采集与专业或主题相关的信息,这样就需要从Web页面等资源中抽取出特定的主题信息,本文的研究重点正是从Web页面中抽取与特定主题相关的信息。针对目前Web信息抽取方法实现复杂等问题,设计了一种基于标签序列的Web页面主题信息抽取方法。该方法通过设定的策略和样本建立抽取规则,构建规则库,借助规则库实现对页面主题信息抽取,这样降低了处理Web页面过程的复杂性,并减少了页面处理时间。通过应用本方法抽取部分网站的手机参数页面,表明该方法召回率和准确率都比较高。当需要抽取的Web页面结构发生变化而出现主题的新属性时,目前已有的方法建立的分装器并不能随着这种变化准确地发现主题的新属性。针对该问题,提出了一种基于可信度的Web页面主题新属性发现方法,通过对待抽取属性和已抽取属性的特点进行分析,引入可信度理论,通过一系列规则和证据,量化待抽取属性需要抽取的可信度,以判断待抽取属性是否为主题的新属性。并将其应用到部分网站页面手机参数主题属性发现中,实验证明该方法能够较为准确发现页面中主题的新属性。最后设计了一种垂直搜索引擎原型系统,主要完成了专业网络蜘蛛模块的详细设计,它综合了本文提出的Web页面主题信息抽取方法和Web页面主题新属性发现方法,以实现对页面主题信息的采集。
其他文献
全局优化问题,特别是组合优化问题,是科学研究与工程计算中最基本的问题之一,这类问题的求解一直是算法研究领域的热点问题。全局优化方法一般分为确定型和随机型方法,确定型
非线性科学是一门研究非线性现象共性的基础科学,其中混沌理论是非线性科学的一个重要分支。本文利用数值模拟的方法对混沌密码学进行了研究,主要内容如下:提出了一种基于一
经过近十年的发展,云计算正在当今的互联网络时代中扮演着重要的角色,它已经成为一场改变IT格局的划时代变革,颠覆性地改变着当今信息产业的发展方式,风起云涌的云计算发展浪潮正
人们生活的现代社会是由计算机信息网络、电话通信网络、物流分派网络、运输服务网络等等各种网络组成的一个复杂的网络系统。随着研究对象的日益复杂化,一些传统的基于精确
随着网络技术的迅速发展和J2EE平台的广泛应用,基于B/S的多层Web体系结构正在不断的发展完善,并逐渐成为Web应用开发的主流。但是,即使利用最先进的软件平台J2EE,开发Web应用
随着网络技术和多媒体技术的迅速发展,从网络上获得的多媒体信息的数量越来越多,如何从海量的媒体信息中迅速有效地检索出所需要的信息就变得越来越重要。由于音频信息是一类
网格安全是网格计算系统中必不可缺少的机制。由于网格系统的异构、动态、多域等特点,网格安全问题比网络的安全问题更加复杂。为了解决网格环境的动态性和不确定性带来的安
目前,嵌入式工业计算机PC104,凭借其体积小、功耗低、集成度高及模块化等一系列优良品质,已广泛应用于工业控制、通信、数控、自动化生产设备、数据采集等领域。PC机(上位机)与P
模型检测是近二十年来最成功的形式化自动验证技术之一。其因自动化程度高,效率高等优点而被广泛应用于并发系统的分析与验证中。与定理证明等其他形式化验证方法相比,模型检
基于动作捕捉数据的人体运动合成强调对现有捕捉数据的重用,是计算机图形学、计算机视觉等领域的重要研究内容。然而,由于三维人体模型的复杂性、运动数据的高维性以及人眼视觉