基于序列比对的动态Web信息抽取算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:Forest2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,网络已经进入信息爆炸的时代,成为人们发布和获取信息的主要平台。目前,网络中大部分网页是由服务器根据请求从数据库中选取数据并嵌入到通用模板而动态生成的,例如电子商务网站的商品描述网页等。该类网页不易被一般的搜索引擎搜索到,也被称作深网(Deep Web)网页。深网网页缺乏结构和语义信息,网页中的数据很难被其他应用程序直接使用。因此,如何将网页中的数据抽取出来就变得非常迫切。本文的研究内容就是如何自动地从深网网页中检测模板、抽取内嵌的数据。首先,本文对Web信息抽取的一些基本概念做了简要介绍,并简述了Web信息抽取技术的产生和发展。在此基础上,明确了适用于本文算法的Web页面的形式。其次,详细介绍了当前Web信息抽取技术的一些常用方法,并对这些方法进行分类,进而对这些方法进行对比分析,指出各种方法的优缺点。在分析了多种方法的基础上,讨论了未来Web信息抽取技术研究发展的方向。最后,本文对Deep Web网页的公共框架进行了定义,即同类网页共有的、附加在网页实质内容之外的信息,例如头信息、尾信息、广告、浏览导向条和flash等。在信息抽取算法中增加了公共框架检测阶段,采用序列比对算法提取公共框架。与原始网页数据相比,去除了公共框架的数据域信息对模板抽取更加有利。在来自真实网站的数据密集型网页集合上,测试和对比了序列比对算法中参数不同取值,以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响。实验结果充分证明了算法的有效性。
其他文献
随着小学基础教育的不断推进,小学中的数学教学也在不断进行改革,通过不断改变教学模式和教学方法,促进小学数学教学水平的提升。
目的探究大鼠尾腱细胞外基质制备方法及其复合脂肪间充质干细胞构建微组织,为组织工程法修复肌腱损伤所需生物材料提供实验基础.方法取20只150~200gSD大鼠鼠尾作为实验材料,
随着经济的发展,建筑行业逐渐兴起,建筑企业之间的竞争越来越激烈,加强工程质量的监督和管理具有重要意义。
岩溶又称为喀斯特地貌,岩溶地区地质情况复杂,地基处理施工难度较大。本文将结合某场地岩溶地质情况,对地基处理技术以及桩基施工技术进行详细探究。
超声引导下经皮肝穿药物冲洗治疗肝脓肿──附28例分析青海医学院附属医院超声科张凤岗超声引导下穿刺,不置管药物冲洗治疗肝脓肿,有其创伤小、痛苦小、费用低、不易出现其它并发
本文对178例尖锐湿疣,(含20例假性湿疣)的组织形态学进行光镜观察,其特点:①上皮呈乳头瘤样增生;②表皮角化不全;③棘层知胞增生肥厚;④基底知胞增生并见拔不规则深染;⑤表皮内有呈
本文验证了总血容量(TBV)与血红蛋白氧亲合力相关之假说。同种鼠血红蛋白氧亲合力用NaOCN处理;不同种鼠则以文献资料为依据。结果发现,种内及种间动物均表现TBV随血红蛋白氧亲
房地产市场发展对我国社会经济和居民生活有着非常深刻的影响,政府部门对房地产市场价格调控作为经济社会发展中不可忽视的内容之一,而货币政策作为房地产市场调控中常见方法之
本文观察了60例各型小儿病毒性肝炎的甲襞徽循环,查出甲襞徽循环异常者37例,以慢性、重症病毒性肝炎的微循环障碍发生率为高,且黄痘的深度与微循环障碍发生率成正相关。从理论上
通过构建地下均匀半空间获取视电阻率模型,确定模型中实测水平电场源在方向角φ角方向上的分量值,结合广域电磁法中包含视电阻率Eφ的表达式,采用迭代方法计算间接得到地下视