一种高效的新闻网页噪声过滤方法

来源 :微型机与应用 | 被引量 : 0次 | 上传用户:sharethesun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文的提取,也实现了新闻标题和报道时间的提取。试验证明,该算法有很高的处理速度,同时其提取的准确率也有了进一步的提高。
其他文献
针对Single—Sequence的集成电路布图.在SS编解码应用对芯片中各单元的摆放进行优化,从而达到芯片面积利用率最大化。重点介绍了利用SS序列解决不规则模块摆放问题,使得SS布图功
在EVRC高效固定码本搜索方法的基础上提出了一种二阶固定码本搜索方法。这种方法由两阶组成,在第一阶,利用快速连续搜索方法搜索出低质量的矢量码本;在第二阶,利用全面的脉冲替换
噪声是限制微弱信号检测系统的首要因素。对于微弱信号检测来说,如能有效克服噪声,就可提高信号检测的灵敏度。研究利用自适应滤波和小波分析来对微弱信号进行降噪,通过Matlab仿
在正交频分复用系统中,发射的信号在频域中经历了乘性衰落的同时还经历了加性噪声的干扰,从而影响了估计的质量。将小波去噪用于信道估计中以去除其中的加性干扰,然后基于奇异值
针对JVT-H017码率控制算法中跳帧策略没有很好地考虑图像的运动复杂程度,仍采用类似于MPEG-4Q2中的简单方法的问题,提出了一种基于运动复杂度的跳帧算法。此方法充分利用了序
介绍一种结合刻面分类描述和本体语义的类库管理和检索方法,通过刻面分类描述机制和本体的语义扩展与推理能力,有效地对类进行存储和管理,方便用户快捷准确地从类库中寻找适合自
针对实时视频图像的清晰度检测问题,提出了一种背景提取和Sobel算子清晰度检测相结合的方法。采用多帧图像叠加平均的方法获取背景图片,然后将边缘检测中经典的Sobel算子应用于视频图像清晰度检测。为提高评价值的精确度,计算模板由2个增加到4个。实验结果表明,此方法具有良好的检测效果,计算速率可以满足系统实时性的要求。
提出了线性规划的对偶问题,在影子价格基本理论的基础上,阐述了影子价格的经济含义与计算过程。结合具体实例阐述了如何运用影子价格理论指导企业经营管理,从而提高企业的经
针对工业生产中常用的反应釜,提出利用模糊自整定PID控制器实现聚合反应温度控制的方法,实现PID控制器参数在线自调整,提高PID控制器的性能和系统的精度。仿真结果表明,该模糊自
提出了一种基于FPGA的JPEG-LS的多路并行译码系统,运用VHDL语言实现,以提高图像的译码速度。系统主要分为检测模块、译码模块和码流分配模块三部分。在检测模块中提取和去除