基于DOM树的正文抽取算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:mmcccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正文抽取是通过相关的技术或者算法从网页中获取网页核心内容或者主题内容的过程。随着互联网的快速发展,Web数据不断增加。在海量的数据中,如何通过正文抽取剔除掉与正文内容不相关的信息,得到“干净”的正文信息,在舆情监测、新闻追踪、情感分析、文本分类等领域都有着重要的意义。  随着网页技术的日益更新,正文抽取的挑战越来越大,主要面临的挑战如下:  (1)网页的数据量较大;  (2)网站的结构和布局通常不同;  (3)网站板式的动态变化性;  (4)网页噪音数据的多样化。现有的正文抽取方法,例如CETR和CETD,在一定程度上实现了正文抽取,但是在对网页正文抽取准确率和通用性方面还有待提高。针对上述问题,本文通过分析观察正文和噪音的特点、网页结构、关键词和正文的关系,在基于DOM树的基础上,主要研究内容如下:  1.提出了基于文本特征值的正文抽取算法。该算法通过遍历DOM树,计算DOM树节点下的文本长度和标点符号的权重,同时引入标准差来区分正文内容和噪音内容。为了解决短文本的抽取问题,该算法又引入了高斯平滑,对文本特征值进行平滑处理,降低了相邻节点间文本特征值的突变性,防止特殊正文节点因特征值太低而丢失的情况。在实验中,选取了10个主流新闻网站中近千个网页进行测试。实验结果表明,文本特征值算法在正文抽取方面具有较好的抽取效果和通用性,其在准确率方面达到了0.9353,召回率为0.9949,F值为0.9585。  2.提出了一种基于关键词匹配的正文抽取算法。该算法首先通过网页源代码Keywords标签中的内容或者网页的标题建立关键词标准库;然后将进行预处理后的网页构建相应的DOM树,通过层次遍历DOM树,统计节点包含有效关键词的数量;最后通过构建关键词权重公式计算节点的关键词权重值,和阈值比较后找出包含正文的节点,准确实现对正文的抽取。在实验中,同样选取10个主流新闻网站中近千个网页进行测试。实验结果表明,关键词匹配算法通过统计有效关键词寻找正文节点进行正文抽取,算法原理和文本长度无关,提高了正文抽取的通用性,其抽取效果有进一步的提高,准确率为0.9499,在召回率方面达到了0.9808,在F值方面达到了0.9627。
其他文献
超宽带穿墙雷达是一种能够探测到隐藏活动目标的新型雷达,在军事、反恐以及救灾等领域都具有难以估量的应用前景。它的这些应用也引导着超宽带穿墙雷达的不断发展。随着穿墙雷
合成孔径雷达(SAR)具有全天候、全天时、高分辨率的优点,无论在军事上还是民用中都具有非常重要的意义。将SAR和地面运动目标检测(GMTI)相结合,能够更好地监视场景中的静止和运动目
为了更好地开展武器弹药毁伤威力的评估工作,促进武器弹药的研制与发展,本文在LabVIEW平台下设计了毁伤威力场测试系统软件,配合本实验室研制的毁伤威力场硬件系统共同完成毁伤
光纤通信系统正朝着高速、宽带和大容量的方向迅猛发展。密集波分复用系统适应了这种发展需求,40Gbps的DWDM系统已经开始逐步商用。传输速率的提高,使系统的色散容限明显下降。
英语作为世界上使用范围最广的语言之一,它在中国与世界的沟通交流中发挥着至关重要的作用。然而英语中的语法学习对于英语学习者来说是一个困难而又漫长的过程,尤其在英语写作
随着无线通信的快速发展,超宽带UWB(Ultra Wide Band)技术已成为现代无线通信领域研究的热点。UWB技术具有短距离高速无线通信优势,UWB天线是超宽带通信系统中的重要组成部分,其
在说话人确认中,由于语音具有易变性,在说话情境(说话场景、通信信道)不同时,不管是主观听感还是客观频谱上,即使是同一个说话人的语音,都会表现出很强的差异性。如何针对不同情境的
随着现代城市交通设施的不断完善,交通工具数量日益增加,交通压力急剧增大,事故发生率显著上升,智能交通监控势在必行。道路交通智能化是电子信息技术在交通运输领域应用的前沿课
近些年来,无线通信技术的发展备受瞩目,天线作为无线通信系统的关键部件,一直以来是研究的热点。本文中重点研究了空间映射算法在天线优化设计中的应用。   空间映射算法是一