基于改进支持向量机的网页自动分类研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:daqscx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术飞速发展的今天,网络已成为人们日常生活中所不可或缺的工具。随着网络信息的海量增长,如何有效且快速的从中找寻自己所需要的信息已成为目前研究的热点,因此网页分类技术应运而生。网页分类是实现网络快速检索信息的一个非常重要的技术,它使用计算机并依靠机器学习实现的网页类别的自动标注。在众多的分类算法中,支持向量机以其出色的学习能力及其在高维问题中所表现的特定优势,越来越受到人们的关注。  首先,论文介绍了网页分类的基本流程,并对网页分类关键技术之一的特征提取进行了深入的研究和分析。分析了特征选择目前比较常用的“统计量算法”,并根据其忽略低频但可能具有类别代表意义词汇这一不足,提出了改进的统计量特征选择方法,增加特征词在类别中所占比率和特征词在所有文本特征集中所占比率这两个因素作为因子,综合考虑,实现了深层挖掘有意义的特征数据的目的。其次,对于网页信息,本文采用支持向量机学习算法构建网页分类器。在应用过程中,针对支持向量机的惩罚因子和核参数较难确定的问题,采用改进的免疫克隆算法作为支持向量机的参数选择优化算法,该方法具有很好的参数选择效果和很高的参数选择效率。  最后,论文将改进的支持向量机算法应用到网页分类过程中,并对其进行了实验。实验结果表明,该算法在分类准确度和分类效率上都有了提高。
其他文献
随着农村信息化技术的发展,我国农村信息化服务取得到了良好的实效。中部山区农村信息化的区域特殊性,使得它的信息化需求不同于其他沿海或发达地区的农村信息化。按其他地区的
随着计算机图形学及数字媒体技术的快速发展,三维图形技术被广泛应用于生物信息学、医学、计算机辅助设计、三维游戏等领域。与此同时,三维模型的数量呈指数级增长,面对如此
伴随经济的快速发展,各种自然的或人为的突发事件发生的几率越来越大,应对和处理突发事件的能力也要求越来越高,不管是何类突发事件,在处置过程中都需要保障资源,所以资源保
基于XML的异构数据集成中间件是解决企业异构数据库系统间信息孤岛问题的有效方法,该方法通过为用户提供统一的全局资源管理平台,使用户不必知道各个数据库的分布和组成结构
随着网络与信息技术的迅速发展,因特网现今已经成为人们获所需信息的重要途径之一,然而网络中存在的大量信息在给人们带来便利的同时也带来了许多的问题,愈来愈多对个性化信息的
随着信息技术的发展,互联网的应用得到了很大程度的普及,各种门户网站层出不穷,这虽然丰富了人们获得信息的途径,但同时也带来了一些问题。对于普通用户来说,从种类繁多的门
随着现代市场经济的迅速发展和物流技术专业化水平的提高,物流配送业已经迅猛发展起来,配送成本在整个物流成本中占有较高比例。在客户需求位置已知的条件下,遵循各类约束,安
平台认证技术是信息安全的一个重要机制,因为传统的安全解决方案只有在底层计算平台,特别是操作系统是安全的情况下才能正常工作。TCG组织为可信平台认证提供的解决方案称作
随着模型驱动架构(MDA)的提出,越来越多的学者和软件开发人员致力于该方面的研究。其中,模型到模型和模型到代码的转换是真正实现MDA方法的两个核心问题,是快速、全面、自动
作为分布式系统建模和分析工具,Petri网的应用领域越来越广泛。Petri网的变迁引发序列反映了Petri网的运行特征,一个Petri网产生的语言可以理解为由Petri网接受的所有变迁发