【摘 要】
:
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博
【基金项目】
:
北京市教委科技计划面上资助项目(KM200810011008)
论文部分内容阅读
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。
其他文献
活动目标: 1 幼儿在认识红、黄、蓝的基础上感受颜色的美。 2 通过欣赏、做动作,丰富幼儿的颜色体验。 3 快乐涂鸦,增加幼儿对美术活动的兴趣。 活动准备 音乐动漫,颜色宝宝笑脸,红、黄、蓝广告色,白板纸。 活动过程 一、欣赏音乐动漫、看看颜色的变化。 师:你们都认识什么颜色?你认识的颜色会跳舞吗?我的颜色会跳舞,我们来一起看一看。 看完后提问:你看到什么了?颜色
<正>小班幼儿自我服务应从一些简单的劳动技能开始,如吃饭、穿衣、洗手、大小便等。在我班新入园的31名幼儿中,有3名幼儿不会嚼饭(吞饭),6~7名幼儿不会拿勺子,16名幼儿不会自
温室西葫芦是北方设施蔬菜栽培的主要品种之一,因其产量高,栽培管理便于操作,产品质量优良,深得辽西地区的农民喜欢。为了确保西葫芦产品质量,结合地区生产实际情况,在施肥上
<正>目前,随着经济和社会的快速发展与旺盛需求,培养更多、更好的高质量应用型人才成为高等院校的重要任务。结合目前建筑行业的发展动态,湖北第二师范学院建筑与材料工程学
工具材料:各种彩色墨水、吹泡泡玩具、白色铅画纸、油画棒、各种颜色记号笔。 范例:草地上的毛毛虫。