Web News Extraction via Tag Path Feature Fusion Using DS Theory

来源 :计算机科学技术学报（英文版） | 被引量 : 0次 | 上传用户：jianghui123789

【摘要】

：

Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure o

【作者】

：

Gong-Qing Wu Lei Li Li Li Xindong Wu

【机构】

：

School of Computer and Information, Hefei University of Technology, Hefei 230009, China;IFLYTEK C0.,

【出处】

：

计算机科学技术学报（英文版）

【发表日期】

：

2016年4期

【关键词】

：

content extraction web news tag path extraction feature Dempster-Shafer (DS) the

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these reasons, how to design features with excellent extraction performances for massive and heterogeneous web news pages is a challenging issue. Our extensive case studies indicate that there is potential relevancy between web content layouts and their tag paths. Inspired by the observation, we design a series of tag path extraction features to extract web news. Because each feature has its own strength, we fuse all those features with the DS (Dempster-Shafer) evidence theory, and then design a content extraction method CEDS. Experimental results on both CleanEval datasets and web news pages selected randomly from well-known websites show that the F1-score with CEDS is 8.08%and 3.08%higher than existing popular content extraction methods CETR and CEPR-TPR respectively.

其他文献

蜂螫伤的临床观察及护理

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

腰椎间盘突出症的临床与CT诊断

腰椎间盘突出症诊断方法很多:传统的普通X线由于组织分辨力低、诊断不准确;磁共振成像(MRI)检查费用较高,患者不易接受;椎管造影属于创伤性检查且操作较复杂;CT扫描图像清晰

期刊

腰椎间盘突出症临床创伤性检查诊断方法密度分辨率磁共振成像椎管造影图像清晰检查费用诊断率无创伤分辨力组织扫描患者操作病变

“腰椎间盘后缘轮廓征”——一个X线平片显示腰椎间盘后缘的征象

目的 :探讨腰椎平片椎间隙后方软组织影 (腰椎间盘后缘轮廓征 )的解剖学基础和临床意义 ;方法 :10 0例感绿X线腰椎平片与CT或MR图像对照分析并测量平片椎间隙后方弧形软组织

期刊

腰椎间盘突出X线平片

名特水产养殖品种介绍

期刊

水产养殖

一次买10台,为何这位老板如此钟情徐工压路机

近日,10 台崭新徐工XS263JS压路机整齐摆放在河津用户黄总的停车场内,鞭炮声响起,黄总兴致勃勃地站在停车场内在徐工道路机械营销顾问的陪同下检验这批即将为他源源不断

期刊

我国鲟鱼养殖的现状、发展前景与对策

近年来，鲟鱼养殖热不断升温，目前，这一品种的养殖已成为我国淡水养殖中的一个“热点”。为使鲟鱼生产者尤其是准备从事鲟鱼生产者在决策前对鲟鱼养殖的现状、市场前景有一个充分

期刊

鲟鱼养殖生产者市场前景调查了解淡水养殖品种决策

Multispot M9相机的日常维护和常见故障处理

多幅相机是ＣＴ机必备的附属设备。它把图像电信号通过监示器转变为光信号 ,再通过光学透镜传送到胶片上进行曝光 ,以达保存和方便医生诊断之目的。ＭｕｌｉｓｐｏｔＭ9相机为ＳＩＥＭＥＮＳ公司生产 ,配置于ＳＯＭＡＴＯＭＣＲ型ＣＴ机

白城分行扶持特色农业发展效果显著/农行吉林白城分行与移动公司合作初见成效/农行吉林辽源分行对农村个人生产经营贷款实行穿透式督导

期刊

吉林白城分行特色农业发展农行移动公司合作农村生产经营贷款穿透

今年罗氏沼虾苗种销售行情预测

罗氏沼虾是我国引进品种中比较成功的种类之一，２０００年的总产已达１０万吨以上，位居世界第一。该虾自１９７６年引进大陆地区养殖以来产量一路缓慢上升，并在９０年代初期进入发展的高峰期，单产和总产逐

期刊

罗氏沼虾苗种销售养殖户增产不增收支柱产业引进品种养殖规模市场价格生产规模大陆地区产量高峰期风险单产

活体供肾切除术后肺不张的护理干预及体会

期刊

Web News Extraction via Tag Path Feature Fusion Using DS Theory

与本文相关的学术论文