一种基于噪音过滤包装器的Web新闻抽取方法

来源 :北京交通大学 | 被引量 : 2次 | 上传用户：hq10000002

【摘要】

：

井喷式增长的新闻网页造成大量新闻资源堆积在互联网上,由于这些新闻资源的异构性和缺乏统一的规范,无法使用传统的数据库技术进行处理,导致这些聚集在互联网上的新闻资源只

【作者】

：

孙梦

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2017年01期

【关键词】

：

信息抽取包装器新闻网页 ACME算法字符串标签路径比朴素贝叶斯分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

井喷式增长的新闻网页造成大量新闻资源堆积在互联网上,由于这些新闻资源的异构性和缺乏统一的规范,无法使用传统的数据库技术进行处理,导致这些聚集在互联网上的新闻资源只能够被浏览、被搜索使用。另外,海量Web新闻网页中的新闻,也是舆情监测、话题更新等研究的基础。基于传统正则表达式的抽取Web新闻的方法,具有难以适应HTML页面结构微弱改变,导致准确率骤降的缺点。因此对于Web新闻抽取技术这一课题的研究具有十分重要的实际应用价值。本文基于ACME算法抽取Web新闻的实验结果发现的规律,开展了以下研究:(1)本文提出了一种基于噪音过滤包装器的Web新闻正文抽取方法。在相似页面首标签对齐后,辗转对比归纳抽取包装器时,若两页面字符串对比失配,通过计算其字符串标签路径比,根据阈值aa,标记不同符号区分新闻内容和噪音,从而达到UFRE表达式抽取新闻正文时一种良好的去噪效果。在大量真实Web新闻网页组成的数据集和Clean-eval数据集上,基于噪音过滤包装器的Web新闻正文抽取方法(SLPR),与RoadRunner抽取技术、NFaS系统对比实验结果表明,SLPR方法有效克服了鲁棒性和可移植性不强的缺点,同时本文方法具有过滤噪音的特点,平均新闻正文抽取准确率达95.9%,高于其他抽取技术。(2)为了保持新闻抽取的完整性,本文提出了一种基于朴素贝叶斯分类器抽取Web新闻标题和时间的算法,通过组建训练集,对其提取多种标题和时间的特征元素,融合朴素贝叶斯分类器的计算原理,抽取Web新闻页面中的新闻标题和时间。在大量真实Web新闻网页组成的数据集上,与传统正则表达式抽取方法进行了对比实验,平均抽取正确率达到93.06%,最低抽取准确率仅为86.80%,验证了基于朴素贝叶斯分类器的方法克服了传统路径表达式网页结构的微弱改变而导致抽取结果准确率骤降的缺点,突出了该算法抽取Web新闻网页标题和时间的通用性和有效性。(3)设计了 Web新闻抽取原型系统,系统集成了以上两个抽取算法。对系统划分了五大功能模块,叙述了模块运作原理和用户界面的使用说明,并完成了 Web新闻抽取原型系统的开发工作。

其他文献

基于空间数据挖掘的热门景点及线路推荐研究

随着科技的发展和人们生活水平的提高,旅行已经成为越来越多的人生活中至关重要的一环,虽然现在有关旅行的应用系统很多,但真正能够满足用户实际需求的却很少,例如通过搜索引

学位

空间数据挖掘地理标签照片空间聚类P-DBSCAN协同过滤景点

面向疾病的心脏电生理建模与仿真研究

虚拟心脏利用数学模型对心脏功能进行系统的仿真,以揭示其内部的运行机制以及临床医学和实验中一些无法解释的生理现象本质。该研究是一个集心脏解剖学、生理学、分子生物学

学位

心脏电生理建模病理仿真心律失常机制k-近邻分类器

基于改进遗传算法的测试用例自动生成应用研究

随着计算机的快速发展,软件产品在人们的生活中扮演越来越重要的角色,软件质量的重要性不言而喻,软件测试作为确保软件产品质量的重要方法,在软件的开发流程中所占的比重逐渐

学位

软件测试遗传算法自动化测试测试用例

大幅面多CCD扫描仪图像处理模块的设计与实现

随着大幅面扫描仪在更多专业领域的应用，用户在扫描精度和扫描速度上对其的需求也越来越多，进而使得新一代大幅面扫描仪的研究和开发更具现实意义。本文所述的大幅面扫描仪采用

学位

大幅面扫描仪多CCD拼缝处理去网纹锐化

基于分布式框式交换机的邻居发现协议研究与实现

随着互联网技术的不断发展与普及,IPv4地址不足的缺陷日益明显,作为以解决地址问题为首要目标的IPv6技术,逐渐登上互联网的大舞台。邻居发现协议是IPv6协议族中一个较为重要

学位

Neighbor DiscoveryIPv6LinuxEPOLL

基于编译实现微线程的故障检测机制关键技术研究

近年来，随着容错技术的发展，软件容错技术作为一种提高软件可靠性的重要方法越来越引起关注。软件容错的主要技术包括：基于重复指令的错误检测技术（EDDI），基于数字签名的控制流检测

学位

微线程寄存器窗口RTL故障注入

提高小学数学应用题分词及词性标注准确率的研究

随着互联网科技的发展,人工智能在教育领域得到了广泛的关注与应用。通过机器解答数学应用题从而帮助学生提高解决问题的能力也是当前研究的热点,从更大范围上讲,教育机器人

学位

机器解答中文分词词性标注小学应用题

基于多示例学习的视频字幕提取算法研究

近年来，由于互联网及多媒体技术的飞速发展，使得人们所接受的大部分信息是图像或视频信息，但是由于图像的底层特征与高层语义之间存在着一条难以逾越的鸿沟，视频字幕提可以有效获

学位

视频字幕图像处理多示例学习机器学习

平面几何图像中实体信息的抽取与表示

随着现代教育技术和人工智能技术的迅速发展,对学科题目机器解答的研究再一次变得火热起来。相较于其他学科,数学是一门以数量和关系为基础的学科,研究数学题目的机器解答是

学位

机器解答平面几何图像信息抽取一致化表示霍夫变换RANSACOCR

基于Baldwin效应粒子群优化算法的研究

粒子群优化算法是一种基于群体搜索的智能优化算法，是一种以数学为基础，应用于求解各种组合优化问题的新型技术。近十几年来，粒子群算法受到越来越多学者的关注。由于算法设置参

学位

粒子群优化佳点集惯性权重系数Baldwin效应早熟

一种基于噪音过滤包装器的Web新闻抽取方法

其他学术论文