基于结构分析和实体识别的信息集成

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：litao343243581

【摘要】

：

针对海量的Web数据,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的Web文档信息内容.方法首先将半结构化的HTML文

【作者】

：

苏志华杨冬青唐世渭王腾蛟

【机构】

：

北京大学计算机科学与技术系,北京大学计算机科学与技术系

【出处】

：

计算机研究与发展

【发表日期】

：

2004年10期

【关键词】

：

信息提取信息集成 XML WRAPPER 实体识别 information extraction information integration XML wr

【基金项目】

：

国家重点基础研究发展计划(973计划)，国家高技术研究发展计划(863计划)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对海量的Web数据,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的Web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性.

其他文献

民主治腐败的第三条道路

周树志教授主编的<有序民主论--当代反腐建廉新战略构想>一书,是反映我国当前反腐败斗争和政治体制改革实际的一本理论著作.本书在理论上提出有序民主反腐建廉的新战略构想,

期刊

周树志廉政建设民主毛泽东

Web图像清洗技术的研究与实现

目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性

期刊

WEB图像清洗机器学习特征提取决策树图像处理图像过滤web image cleaning machine learning informat

从成语新译看解构主义对翻译的启示

采用文献研究和例证分析相结合的方法，揭示传统翻译观对翻译的制约，并依据解构主义理论，分析了成语在不同语境中实现最佳翻译的解构策略。结果表明：传统翻译理论中所谓的“忠实”

期刊

成语翻译解构主义Idiom translation deconstructionism

一个因素化SARSA（λ）激励学习算法

基于状态的因素化表达，提出了一个新的SARSA(λ)激励学习算法.其基本思想是根据状态的特征得出状态相似性启发式，再根据该启发式对状态空间进行聚类，大大减少了状态空间搜索与计

期刊

激励学习状态聚类因素化SARSA(λ)算法学习算法人工智能reinforcement learning state aggregate Marko

基于结构分析和实体识别的信息集成

其他学术论文