一种基于噪音过滤包装器的Web新闻抽取方法

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:hq10000002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
井喷式增长的新闻网页造成大量新闻资源堆积在互联网上,由于这些新闻资源的异构性和缺乏统一的规范,无法使用传统的数据库技术进行处理,导致这些聚集在互联网上的新闻资源只能够被浏览、被搜索使用。另外,海量Web新闻网页中的新闻,也是舆情监测、话题更新等研究的基础。基于传统正则表达式的抽取Web新闻的方法,具有难以适应HTML页面结构微弱改变,导致准确率骤降的缺点。因此对于Web新闻抽取技术这一课题的研究具有十分重要的实际应用价值。本文基于ACME算法抽取Web新闻的实验结果发现的规律,开展了以下研究:(1)本文提出了一种基于噪音过滤包装器的Web新闻正文抽取方法。在相似页面首标签对齐后,辗转对比归纳抽取包装器时,若两页面字符串对比失配,通过计算其字符串标签路径比,根据阈值aa,标记不同符号区分新闻内容和噪音,从而达到UFRE表达式抽取新闻正文时一种良好的去噪效果。在大量真实Web新闻网页组成的数据集和Clean-eval数据集上,基于噪音过滤包装器的Web新闻正文抽取方法(SLPR),与RoadRunner抽取技术、NFaS系统对比实验结果表明,SLPR方法有效克服了鲁棒性和可移植性不强的缺点,同时本文方法具有过滤噪音的特点,平均新闻正文抽取准确率达95.9%,高于其他抽取技术。(2)为了保持新闻抽取的完整性,本文提出了一种基于朴素贝叶斯分类器抽取Web新闻标题和时间的算法,通过组建训练集,对其提取多种标题和时间的特征元素,融合朴素贝叶斯分类器的计算原理,抽取Web新闻页面中的新闻标题和时间。在大量真实Web新闻网页组成的数据集上,与传统正则表达式抽取方法进行了对比实验,平均抽取正确率达到93.06%,最低抽取准确率仅为86.80%,验证了基于朴素贝叶斯分类器的方法克服了传统路径表达式网页结构的微弱改变而导致抽取结果准确率骤降的缺点,突出了该算法抽取Web新闻网页标题和时间的通用性和有效性。(3)设计了 Web新闻抽取原型系统,系统集成了以上两个抽取算法。对系统划分了五大功能模块,叙述了模块运作原理和用户界面的使用说明,并完成了 Web新闻抽取原型系统的开发工作。
其他文献
随着科技的发展和人们生活水平的提高,旅行已经成为越来越多的人生活中至关重要的一环,虽然现在有关旅行的应用系统很多,但真正能够满足用户实际需求的却很少,例如通过搜索引
虚拟心脏利用数学模型对心脏功能进行系统的仿真,以揭示其内部的运行机制以及临床医学和实验中一些无法解释的生理现象本质。该研究是一个集心脏解剖学、生理学、分子生物学
随着计算机的快速发展,软件产品在人们的生活中扮演越来越重要的角色,软件质量的重要性不言而喻,软件测试作为确保软件产品质量的重要方法,在软件的开发流程中所占的比重逐渐
随着大幅面扫描仪在更多专业领域的应用,用户在扫描精度和扫描速度上对其的需求也越来越多,进而使得新一代大幅面扫描仪的研究和开发更具现实意义。本文所述的大幅面扫描仪采用
随着互联网技术的不断发展与普及,IPv4地址不足的缺陷日益明显,作为以解决地址问题为首要目标的IPv6技术,逐渐登上互联网的大舞台。邻居发现协议是IPv6协议族中一个较为重要
近年来,随着容错技术的发展,软件容错技术作为一种提高软件可靠性的重要方法越来越引起关注。软件容错的主要技术包括:基于重复指令的错误检测技术(EDDI),基于数字签名的控制流检测
随着互联网科技的发展,人工智能在教育领域得到了广泛的关注与应用。通过机器解答数学应用题从而帮助学生提高解决问题的能力也是当前研究的热点,从更大范围上讲,教育机器人
近年来,由于互联网及多媒体技术的飞速发展,使得人们所接受的大部分信息是图像或视频信息,但是由于图像的底层特征与高层语义之间存在着一条难以逾越的鸿沟,视频字幕提可以有效获
随着现代教育技术和人工智能技术的迅速发展,对学科题目机器解答的研究再一次变得火热起来。相较于其他学科,数学是一门以数量和关系为基础的学科,研究数学题目的机器解答是
粒子群优化算法是一种基于群体搜索的智能优化算法,是一种以数学为基础,应用于求解各种组合优化问题的新型技术。近十几年来,粒子群算法受到越来越多学者的关注。由于算法设置参