基于网页块划分的Web文本分类算法研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Rosa1201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前Internet已经成为人们获取信息的一个重要途径。随着Web信息的日益增长,如何在如此大量的数据中提取有用信息成为一个重要课题。为了能够有效地组织和分析海量的Web文本资源,针对Web文本的数据挖掘技术变得越来越重要。Web文本分类研究是Web文本挖掘中的一个重要研究内容。Web文本中存在噪音信息及其半结构化的特点,使得针对Web文本的分类技术与传统的纯文本分类技术有所差别。基于机器学习的文本分类技术由文本的表示、分类方法及效果评估三部分组成。向量空间模型是文档最常用的表示结构,特征选择和特征降维是影响该结构的两个主要因素。贝叶斯定理、支持向量机模型等机器学习方法常常用在文本分类器的构造过程中。大多数基于模板的商业网页包含与主题相关的内容块,以及诸如广告、导航栏、版权等噪音信息。这些噪音内容的存在影响了基于网页的信息处理领域,如信息检索、网页分类等。利用HTML网页中具有分块启发作用的一些特殊标记将网页分块,通过计算网页块在整个网页集中的出现频率判定其是否为噪音块,给出了一种网页分块算法ContentDiscoverer。实验表明,与同类算法相比,ContentDiscoverer具有更快的执行速度和更好的主题内容块识别效果。将ContentDiscoverer分块算法用在网页分类中,设计并实现了一个中文网页分类器。实验结果表明,进行网页块划分后,其分类的准确性有了较大的提高。
其他文献
随着计算机技术的广泛应用,对计算机安全的要求也越来越高。由于攻击手段的多样化和攻击技术的发展,传统的被动防御措施已不足以保证主机系统的安全。作为一种新的防御手段,
XML(eXtensible Markup Language)已经成为一种Web数据交换和信息集成的工具。随着XML应用的普及,解决好XML文档的存储、管理和查询等问题特别是查询问题,构造一个能在应用中
智能规划(AutomatedPlanning)是人工智能(ArtificialIntelligence)研究领域的一个重要分支,在各个领域得到广泛的应用。其主要思想是:对周围环境进行认识与分析,根据预定实现的
由于在分布式协作环境中进行设计工作时,要求不同的系统设计工具之间能够互相衔接与利用,使得完成设计任务的流程能够平滑的相连。因此,如何高效地集成系统设计工具成为首要
分类是数据挖掘领域中重要的研究分支,国内外己经取得了许多令人瞩目的成就。朴素贝叶斯分类器由于计算高效、精确度高,并具有坚实的理论基础而得到广泛的应用。然而,朴素贝
随着信息技术和网络技术的快速发展,面对海量信息的存储,如何构建高性能的分布式网络存储系统成为当前存储研究的重要课题之一。对分布式网络存储系统的访问接口进行了研究与
20世纪80年代以来,随着汽车产业的发展,交通问题变得越来越严峻。欧美等国家为了解决日益凸显的交通问题,结合电子传感、计算机科学等技术,建立了智能交通系统(Intelligent T
随着计算机和网络技术发展,INTERNET的普及,以及WWW的广泛应用,人们可以通过INTERNET方便、快速、准确的获得各种信息,人类社会已经进入信息时代。根据我国经济和社会发展的
利用计算机模拟现实生活中的场景与功能一直是人们追求的目标之一。针对传统展览的不足,本文在探索新的展览方式的情况下提出了三维展览的概念,三维展览通过计算机模拟展品的
学位