【摘 要】
:
随着Internet技术的快速发展,Web数据库得到了广泛应用。这些Web数据库能根据用户提交的查询请求,将存放在数据库的对象信息以HTML页面的形式动态呈现出来。对于传统搜索引擎
论文部分内容阅读
随着Internet技术的快速发展,Web数据库得到了广泛应用。这些Web数据库能根据用户提交的查询请求,将存放在数据库的对象信息以HTML页面的形式动态呈现出来。对于传统搜索引擎来说,这部分页面信息是不能被索引的,我们称之为Deep Web。最近几年的研究成果表明,Deep Web蕴含着大量有价值的信息。因此,Deep Web已成为一个研究热点,受到研究人员越来越多的关注。本文对面向Deep Web的数据抽取与语义标注技术进行了研究,主要研究工作包括:1)详细介绍了Web信息抽取的相关技术及评价标准,引入了Deep Web查询结果页的Web对象信息抽取问题,并提出了一个自动化的Web对象抽取系统架构。2)在对Deep Web查询结果页布局特征分析的基础之上,将页面的视觉特征与DOM模型相结合,提出了基于页面布局的数据区域发现算法PLDF。3)基于对查询结果页面生成模型的分析,提出一种通过查找数据区域节点下连续相似节点组来实现自动化数据记录抽取的方法。4)将数据项的语义标注过程看成是一个受其上下文影响的随机过程,在领域对象模式的支持下,提出了一种基于最大熵模型的语义标注方法。最后,对文中提出的方法和技术进行了相关的实验,通过对实验结果的分析进一步验证本文提出的算法的有效性。
其他文献
詹姆斯·埃尔金斯认为,在西方对中国传统视觉艺术的研究中运用帕诺夫斯基的图像学方法,和风格研究一样无法从根本上避免西方性和西方中心论,但他并没有对此进行充分论证.从美
摘 要:传媒语言规范化问题是一个引起社会关注的热点问题。台词语言在影视剧中肩负着传播知识信息和推广汉语普通话的作用,影响着今天的社会语言生活。本文以目前热播的影视剧《知否》为例,剖析影视剧中出现的语言问题的原因和对策,为纯净影视语言环境、传承语言文化奠定基础。 关键词:影视剧;语言规范;对策 作者简介:耿静静(1979-),女,汉族,山东青岛人,汉语言文学硕士,山东外贸职业学院讲师,主要研究方
目前,企业与企业间的竞争已经转变为供应链与供应链之间的竞争。如何提高供应链的整体运作效能,是供应链中每个企业所关注的问题。供应链企业间诚信关系对供应链企业间合作的顺畅与效能的提高有着重要的作用,它是供应链企业间合作的前提和基础,是保证供应链正常运转的支柱。因此,从理论上对供应链企业间诚信关系的演进机制进行系统分析和探讨,是现实的需要,也是理论研究的重要课题。本文借鉴国内外相关理论研究和多学科的研究
声乐表演艺术极具渲染力,通常会以演出等形式向观众展示声乐艺术的灵魂与独特魅力,而观众是否能够接受该艺术表现形式,往往和观众的审美观念与审美心理有着直接关系.该研究主
物流中心选址问题是一项复杂的系统工程。本论文以陕西省甘泉县为研究对象,运用系统的观点和分析方法,通过对城镇物流中心选址问题的研究和分析,提出了陕西省甘泉县城镇物流中心
中国艺术精神历经五千年历史传承至现在,不仅承载着民族特征与气概,其自身所体现出哲学思想更能够影响到当今社会发展潮流,增强国家文化竞争力.庄子美学思想内部蕴含的丰富美
知识经济时代,知识资本是各界学者关注的热点问题。我国处于转型期,要科技强国,就必须将重点放在知识资本的培育以及知识密集型产业上,而知识资本配置是引导区域科技和产业经