基于结构分析和实体识别的信息集成

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:litao343243581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量的Web数据,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的Web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性.
其他文献
周树志教授主编的<有序民主论--当代反腐建廉新战略构想>一书,是反映我国当前反腐败斗争和政治体制改革实际的一本理论著作.本书在理论上提出有序民主反腐建廉的新战略构想,
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性
采用文献研究和例证分析相结合的方法,揭示传统翻译观对翻译的制约,并依据解构主义理论,分析了成语在不同语境中实现最佳翻译的解构策略。结果表明:传统翻译理论中所谓的“忠实”
基于状态的因素化表达,提出了一个新的SARSA(λ)激励学习算法.其基本思想是根据状态的特征得出状态相似性启发式,再根据该启发式对状态空间进行聚类,大大减少了状态空间搜索与计