网页采集、净化与分类

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:yxjdyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展导致网上信息飞速增长,使得信息搜索变得非常困难。当前的搜索引擎在查找时仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,而且会返回大量无用信息。解决这些问题就要建立智能化的搜索引擎。搜索引擎有多个组成部分,主要有网页采集、网页净化、网页分类、网页聚类、网页信息抽取、索引、语义理解等。本文针对网页采集、网页净化、网页分类这三部分内容,完成了以下工作:(1)介绍了网页采集的基本原理,研究比较了各种面向主题的网络信息采集算法;(2)为了更加有效地获取更多的与主题相关的页面,提出了一种新的网页采集算法—基于Ontology的网页采集算法,该算法首先依据词典建立一个面向主题的Ontology,然后根据Ontology评价链接的相关程度和网页的相关程度,最后根据相关程度制定采集程序的采集策略。试验表明这种基于Ontology的采集算法不但能随时变换主题而且在相关率方面较好;(3)介绍了网页净化基本原理,研究分析了各种网页分块算法以及净化方法;(4)提出了一种新的基于VIPS算法的网页净化方法,该算法首先通过VIPS算法将整个网站内所有的网页进行划分,将划分后的网页块存入数据库中,删除只包含图片的网页块,然后通过判断各个网页块的相似程度统计各个网页块在网站中出现的次数,最后通过网页块出现的次数、网页块中文本的多少、网页块在网页中的位置和链接的数量来衡量各个网页块的重要程度,重要程度较低的即为噪声。并通过一个实例验证了该算法能很好的区分网页中的主题内容和
其他文献
新课程改革要求以学生为主体,学生能够自主选择学习方法、学习内容、学习伙伴;自觉地在知识的领域中积极地去接触、领悟、探索和实践。开放而有活力的语文课堂,能大幅度提高课堂教学效率。转变教学观念,和谐师生关系、培养问题意识,搭建解题平台,增强学生信心、创设宽松环境,充满人文关怀,体验成功快乐等是初中语文开放而有活力课堂的构建的关键因素。  语文教学在具体的学习过程中表现为学生乐学、想学、会学和坚持学。要
汉字记载着我们中华民族的物质和精神的历史,沉淀着中华五千年的古老文明。语文阅读学习,引领学生走进其中,去解读、品味、领悟、熏陶、仰慕……语文阅读学习,应让学生在阅读的过程中体验到语文学习的快乐。作为一名语文教师要学会充分挖掘教材的资源,创设宽松的教学环境,培养学生求异、求变、求活、求新的思维能力,让阅读成为学生的需要,在教学中应因势利导,循序渐进的提高学生的阅读能力。让每一个学生爱上阅读,喜欢阅读
期刊
为了切实减负,小学生的放学时间提前到了下午三点半,这个时间也就成了城市年轻父母不得不面对的艰难时刻。不论是三点半放学,还是五点半放学,对于加班到七八点的他们来说,本质上并无区别。于是,我们看到,三点半之后,孩子们涌入城市各处形形色色的辅导班,延续着白天八小时之外的上课任务。  孩子不能在赛道上漫步。有人替孩子选择了课外辅导班,继续刷技能和分数,还有人索性自己建立一个学习圈子,想替孩子一次性解决学校
期刊
管理信息系统的使用带来了管理理念的革新,它将信息资源与企业其他资源有机地融合在一起,对整个企业的管理产生着重大的影响。在管理信息系统的建设和完善过程中,人们普遍关注的
教师怕教作文,学生怕写作文,这是一直以来小学作文教学中存在的普遍问题。究其原因,主要是教师教学目的不明,要求过高;课堂教学形式单一,结构僵化;教学阶段脱节,训练无序。而学生处于被动作文,思维受阻;语言积累不足,入不敷出,造成言之无物,有物难言,言而不详的现状。在多年的作文教学实践中,我运用“小练笔” 这一形式,提高学生作文能力,取得明显实效。  一、随文小练笔  阅读教学中的随文练笔是进行语言文字
期刊