【摘 要】
:
目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,
【机 构】
:
中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,中国科学院大学
论文部分内容阅读
目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。
其他文献
介绍了美国研究生教育中导学关系的特点,即它是一种主体间性的存在以及教学相长、科研合作、经济资助等关系,并以立体互动的导师与研究生培养制度作为重要支撑。在此基础上,提出
语文是一门充满情感和灵性的课程,我们要摒弃那些重复的无效诵读、机械的记忆积累,推崇能激发学生内在的思维意识、唤醒学生灵感的方式,让语文学习成为一段充满探寻的心灵之
华东师范大学出版社主要是做教育出版,从幼儿教育到中小学教育,再到大学教育等。在做教育出版的同时,这两年也开始尝试做一些按需出版方面的业务。我们之所以做按需出版,主要
介绍了浪涌保护器的基本原理,分析了浪涌保护器常见的失效形式及对机车充电机组的影响,提出了相应的失效保护措施。
运用有限体积元方法分析求解大气污染模型问题,分别选取试探函数空间和检验函数空间为一次元函数空间和分片常数函数空间,并且给出L2估计和H1估计,通过数值实验与有限差分方
目的:分析经直肠超声引导下经会阴前列腺穿刺活检术的安全性。方法:收集2013年1月到2014年12月期间的1092例临床疑前列腺癌患者行经直肠超声引导经会阴前列腺穿刺活检术,统计
<正>2014年10月15日,我发了一条微博,配有3张图片,是读库团队为即将展开销售的《日课》系列图书备货的情景。一车车印好的书从印刷厂运到库房,一箱箱堆积在高大的货架上,颇具
目的:考察云南与新疆两种分心木提取物的急性毒性,为更好地认识分心木药用安全性提供实验依据。方法:昆明种小鼠灌胃两种分心木提取物,1次/d,连续14d,期间给小鼠称体质量并观
通过梳理国内外宜居城市基本内涵与评价指标理论,总结国内外宜居城市建设经验,以江阴为例,针对问题,结合需求,确定宜居城市评价因子,并对评价体系权重确值,评估江阴城市宜居