一种统一的Web新闻对象自动抽取方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：xulinsheng

【摘要】

：

提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取

【作者】

：

刘伟严华梁

【机构】

：

中国科学技术信息研究所,北京大学计算机科学技术研究所

【出处】

：

计算机工程

【发表日期】

：

2012年11期

【关键词】

：

WEB数据抽取视觉特征序列标注网页模板新闻属性新闻对象 Web data extraction visual feature sequence tag

【基金项目】

：

国家“863”计划基金资助项目（2008AA01Z421）, 中国科学技术信息研究所预研基金资助项目（YY-201103）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。

其他文献

基于Mining-SEC方法的电路等价性验证

针对时序电路的等价性验证难题，提出基于Mining-SEC的定界等价性验证方法。将待验证时序电路按时间帧展开为多项式符号代数表示的电路集合，利用时间序列数据挖掘方法挖掘其中的

期刊

时间序列数据挖掘多项式符号代数时序电路等价性检验可满足性模理论虚假验证time series data mining Polynomial Symb

微通道光管换热器的运行特性及影响因素

为了研究微通道光管换热器的运行特性,在R22制冷系统中将其作为冷凝器、在R134a制冷系统中将其同时作为冷凝器和蒸发器分别进行试验研究,并进行单根微通道光管外空气绕流数值

期刊

微通道光管换热器毛细管长度制冷剂充注量数值模拟运行特性

融合LWT纹理特征的图像复制篡改检测算法

在对局部沃尔什变换(LWT)提取图像纹理特征研究的基础上,提出一种融合LWT纹理特征的区域复制篡改检测算法。将待检测图像分成大小相同的重叠块,利用LWT提取每个图像块的纹理特征,估算整个待检测图像的纹理复杂度,对获得的每个图像块纹理特征向量进行字典排序,并根据估算到的纹理复杂度值选择合适的相似图像块判定阈值,按照预定的相似标准,检测且定位出篡改区域。实验结果表明,该算法在准确率和虚警率方面均优于经

期刊

篡改检测图像复制篡改局部沃尔什变换纹理特征特征向量纹理复杂度forgery detection image copy-move forgery Lo

被动式轮胎状态实时监控装置的设计研究

文中介绍了轮胎状态实时监控装置的作用，分析了目前市面存在的该装置的优缺点，指出被动式轮胎状态实时监控装置是今后的发展趋势，在此基础上研究开发出新型的汽车车轮状态监控与

期刊

监控轮胎胎温monitoring tire tire temperature

卷烟质量风险管理分析

随着生活水平的不断提升,人们对消费产品质量更加重视。卷烟企业在这种大背景下更应做好质量控制工作,以适应市场的变化需求,对卷烟质量进行风险管理。文章对卷烟质量风险管

期刊

卷烟质量风险管理

高校考试体系与教学方法改革探讨——基于形成性评估的视角

教学评估是高校教学工作中的重要环节,是提高学生学习质量的重要手段.文章通过对形成性评估与传统的总结性评估进行优劣势分析,阐述其反映出的建构主义现代教学理论,并结合实

期刊

总结性评估形成性评估应用价值summative assessment formative assessment application value

某高速公路局部软基段路面罩面设计

文中介绍了广东省西部沿海高速公路台山段局部软基段路面的加铺设计。在充分分析高速公路软基段运营通车后出现的各种问题基础上，对加铺方案的选择、裂缝的处理等提出了有效的

期刊

高速公路局部路面罩面设计highway local road surface cover design

非物理学专业的大学物理教学现状及改革建议

物理学对培养学生树立科学的世界观和方法论以及对培养学生的观察问题能力、分析问题能力、解决问题能力、对未知世界的预测能力、创新能力有着其他课程所不能替代的作用。本

期刊

大学物理教学现状改革

不同氧疗时间对妇科腹腔镜术后患者肩痛的影响

目的探讨不同氧疗时间对妇科腹腔镜手术(LG)术后肩部疼痛的影响。方法将160例行LG的术后患者随机均分为4组,A组给氧2～4h、B组给氧4～6h、C组给氧6～8h、D组给氧10～12h,观察4组术后

期刊

妇科外科手术腹腔镜检查氧肩痛

基于I/O缓冲区读写的控制台远程交互模型

在控制台程序远程交互时,使用添加远程通信模块的方法易降低控制台程序的兼容性,而重定向标准输入输出方法易降低系统软件的兼容性。针对以上问题,提出一种控制台远程交互模

期刊

输入缓冲区输出缓冲区控制台程序远程交互加载器兼容性input buffer output buffer console program remote

一种统一的Web新闻对象自动抽取方法

与本文相关的学术论文