论文部分内容阅读
正文抽取是通过相关的技术或者算法从网页中获取网页核心内容或者主题内容的过程。随着互联网的快速发展,Web数据不断增加。在海量的数据中,如何通过正文抽取剔除掉与正文内容不相关的信息,得到“干净”的正文信息,在舆情监测、新闻追踪、情感分析、文本分类等领域都有着重要的意义。 随着网页技术的日益更新,正文抽取的挑战越来越大,主要面临的挑战如下: (1)网页的数据量较大; (2)网站的结构和布局通常不同; (3)网站板式的动态变化性; (4)网页噪音数据的多样化。现有的正文抽取方法,例如CETR和CETD,在一定程度上实现了正文抽取,但是在对网页正文抽取准确率和通用性方面还有待提高。针对上述问题,本文通过分析观察正文和噪音的特点、网页结构、关键词和正文的关系,在基于DOM树的基础上,主要研究内容如下: 1.提出了基于文本特征值的正文抽取算法。该算法通过遍历DOM树,计算DOM树节点下的文本长度和标点符号的权重,同时引入标准差来区分正文内容和噪音内容。为了解决短文本的抽取问题,该算法又引入了高斯平滑,对文本特征值进行平滑处理,降低了相邻节点间文本特征值的突变性,防止特殊正文节点因特征值太低而丢失的情况。在实验中,选取了10个主流新闻网站中近千个网页进行测试。实验结果表明,文本特征值算法在正文抽取方面具有较好的抽取效果和通用性,其在准确率方面达到了0.9353,召回率为0.9949,F值为0.9585。 2.提出了一种基于关键词匹配的正文抽取算法。该算法首先通过网页源代码Keywords标签中的内容或者网页的标题建立关键词标准库;然后将进行预处理后的网页构建相应的DOM树,通过层次遍历DOM树,统计节点包含有效关键词的数量;最后通过构建关键词权重公式计算节点的关键词权重值,和阈值比较后找出包含正文的节点,准确实现对正文的抽取。在实验中,同样选取10个主流新闻网站中近千个网页进行测试。实验结果表明,关键词匹配算法通过统计有效关键词寻找正文节点进行正文抽取,算法原理和文本长度无关,提高了正文抽取的通用性,其抽取效果有进一步的提高,准确率为0.9499,在召回率方面达到了0.9808,在F值方面达到了0.9627。