论文部分内容阅读
井喷式增长的新闻网页造成大量新闻资源堆积在互联网上,由于这些新闻资源的异构性和缺乏统一的规范,无法使用传统的数据库技术进行处理,导致这些聚集在互联网上的新闻资源只能够被浏览、被搜索使用。另外,海量Web新闻网页中的新闻,也是舆情监测、话题更新等研究的基础。基于传统正则表达式的抽取Web新闻的方法,具有难以适应HTML页面结构微弱改变,导致准确率骤降的缺点。因此对于Web新闻抽取技术这一课题的研究具有十分重要的实际应用价值。本文基于ACME算法抽取Web新闻的实验结果发现的规律,开展了以下研究:(1)本文提出了一种基于噪音过滤包装器的Web新闻正文抽取方法。在相似页面首标签对齐后,辗转对比归纳抽取包装器时,若两页面字符串对比失配,通过计算其字符串标签路径比,根据阈值aa,标记不同符号区分新闻内容和噪音,从而达到UFRE表达式抽取新闻正文时一种良好的去噪效果。在大量真实Web新闻网页组成的数据集和Clean-eval数据集上,基于噪音过滤包装器的Web新闻正文抽取方法(SLPR),与RoadRunner抽取技术、NFaS系统对比实验结果表明,SLPR方法有效克服了鲁棒性和可移植性不强的缺点,同时本文方法具有过滤噪音的特点,平均新闻正文抽取准确率达95.9%,高于其他抽取技术。(2)为了保持新闻抽取的完整性,本文提出了一种基于朴素贝叶斯分类器抽取Web新闻标题和时间的算法,通过组建训练集,对其提取多种标题和时间的特征元素,融合朴素贝叶斯分类器的计算原理,抽取Web新闻页面中的新闻标题和时间。在大量真实Web新闻网页组成的数据集上,与传统正则表达式抽取方法进行了对比实验,平均抽取正确率达到93.06%,最低抽取准确率仅为86.80%,验证了基于朴素贝叶斯分类器的方法克服了传统路径表达式网页结构的微弱改变而导致抽取结果准确率骤降的缺点,突出了该算法抽取Web新闻网页标题和时间的通用性和有效性。(3)设计了 Web新闻抽取原型系统,系统集成了以上两个抽取算法。对系统划分了五大功能模块,叙述了模块运作原理和用户界面的使用说明,并完成了 Web新闻抽取原型系统的开发工作。