一种基于统计学特征和DOM树的网页去噪技术

来源 :重庆理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:jianbbk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。
其他文献
对聚丙烯基强酸性阳离子交换纤维分离富集痕量稀土元素La,Nd,Eu,Gd,Er和Yb及其电感耦合等离子体原子发射光谱(ICP-AES)测定进行了研究。优化了纤维柱吸附和洗脱稀土元素的条件,pH3的
通过指数变换将原方程变换为对流扩散方程,对变换后方程中的对流项和扩散项分别采用高阶迎风紧致格式和对称紧致格式进行离散,在时间上采用四阶龙格库塔方法进行推进,从而得到了
在中国一拖(以下简称一拖)的产品线上,不乏“高大上”的产品,目前成为古都洛阳街面上一道流动风景的环卫设备——抑尘车就是其中之一。
束形成区及预聚焦透镜是大屏幕彩色显像管电子枪的设计重点之一.本文通过计算机模拟的方法对几种大屏幕彩色显像管用电子枪束形成区及预聚焦透镜的特点进行了系统分析,比较了
小学生思维活跃、好奇心强,教师要因材施教,采取适合学生特点的方法,为学生创设良好情境,促进学生思维能力与理解能力的提高。在阅读教学中,优化情境,可以激发学生的求知欲望
【活动背景】:溧水区第二高级中学是率先在全区采取寄宿制管理模式的学校。这种措施的施行,究其原因:一是部分学生父母外出务工等,时间安排上不能尽善尽美;二是诸多乡镇学生