中文网页自动采集与分类系统设计与实现

被引量 : 12次 | 上传用户:alei1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息已经成为网络用户需要迫切解决的一大难题。因而基于Web的网络信息的采集与分类便成为人们研究的热点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,其中有相当大的一部分利用率很低,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。同时如何有效地对采集到的网页实现自动分类,以创建更为有效、快捷的搜索引擎也是非常必要的。网页分类是组织和管理信息的有效手段,它可以在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。随着Internet上各种信息的迅猛增加,仅靠人工的方式来处理是不切实际的。因此,网页自动分类是一项具有较大实用价值的方法,也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究目的和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、信息抽取技术、中文分词技术、特征提取技术、网页分类技术等。在综合比较了几种典型的算法之后,本文选取了主题爬虫的方法和分类方面表现出色的KNN方法,同时结合去重、分词和特征提取等相关技术的配合,并对中文网页的结构和特点进行了分析后,提出中文网页采集和分类的设计与实现方法,最后通过程序设计语言来实现,在本文最后对系统进行了测试。测试结果达到了系统设计的要求,应用效果显著。
其他文献
随着2009年全业务运营新环境和新竞争格局的形成,各运营商对市场和客户的争夺越来越激烈。当前各运营商都面临严重的客户流失问题。大量而频繁的客户流失给企业造成了巨大的
中国实行改革开放以来,经济发展速度令世界瞩目,城市化进程的步伐也随之加快,然而伴随着大规模的城市扩张和旧城区改造,城市房屋拆迁问题越来越受到关注。城市房屋拆迁是关系
建筑本是人类适应气候环境条件的自然产物。但随着经济的发展,建筑带来的各方面问题日益突出,现代建筑思潮及技术滥用导致能源的浪费,其根源是人们忽视了建筑与气候之间的关
党的十七大提出,提高自主创新能力,建设创新型国家,是国家发展战略的核心和提高综合国力的关键,2020年我国要进入创新型国家行列。要实现这一战略目标,关键靠培养大量的具有
建筑遮阳和自然通风是炎热地区两种传统的、有效的节能技术,是实现建筑节能、改善室内热环境的重要手段和方法。但另一方面,建筑外遮阳的存在,可能会造成窗口流入或流出的气
随着现代电子技术的发展,电子设备日益趋于便携化的同时对他们的供电电池也提出了轻便、高效的要求。锂离子电池正是以其能量密度高、供电电压高、无记忆效应、无污染的特点
在人类进入父权制社会的几千年历史之中,女性一直处于被压迫、被统治的社会地位。女性既是由父权制建构的,同时又是不被父权制所完全控制的,她们迫切渴望拥有把控自己命运航
发电机升压变压器,即主变压器(主变),是核电站电力输出的重大、关键设备之一。大亚湾核电站主变属于超高压、大容量的油浸式大型电力变压器。油浸式电力变压器的一般设计寿命
长沙地区夏季气候极为闷热,属于全国著名的“火炉”之一。建筑遮阳作为人们用来抵御太阳辐射的主要手段,它不仅是建筑功能发展的需要,也是节约建筑能耗的主要举措,更是表达建
亲属称谓语作为称谓语的一部分,在人们的日常交流中起着举足轻重的作用。同时,亲属称谓系统作为一个民族的文化组成部分,带有浓厚的文化特征。由于受中西不同文化的影响,中西