基于改进的支持向量机的WEB文本挖掘技术研究

来源 :南华大学 | 被引量 : 2次 | 上传用户:jerryhua1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,信息爆炸问题也随之产生。由于Internet的开放性、动态性使得用户很难快速、准确的从网上获取所需的信息。因此如何有效的从网络上获取有价值的信息成为当前研究的热点,Web文本挖掘技术就是解决上述问题的一种方法。Web文本挖掘采用数据挖掘、机器学习、自然语言处理、信息检索和知识管理等领域的技术来处理和分析非结构或半结构化的文本,从中提取有价值的知识。目前主要的文本分类方法有:最近邻分类、贝叶斯分类、决策树、支持向量机、向量空间模型、回归模型和神经网络等。本文通过分析现有的文本分类方法的不足,提出了基于SVM的改进的Web文本分类方法。首先,本文介绍了Web数据挖掘的基本概念、分类和方法,以及现有Web文本挖掘的具体过程和相关理论。其次,本文介绍了统计学习理论的主要内容和支持向量机的基本原理,阐述了支持向量机研究和应用的现状以及所面临的问题。最后,本文将并行SVM与主动Web文本分类相结合,提出了一种改进的基于支持向量机的Web文本分类算法。该方法与普通SVM方法相比,在保证SVM分类器性能的前提下,可有效减少学习所需的样本数量。
其他文献
在互联网高度发达的当代,云计算的诞生为人们的生活带来了极大的便利,它可以使用户能够即时方便地使用网络中的各种资源,使企业能够实现较低的成本和较高的性能解决海量信息存储
本文主要研究了一套用于测量电爆炸实验中电流的装置,并建立了电爆炸实验仿真模型,通过对仿真结果和实验结果的对比分析,得出不同参数对于电爆炸断路开关开断性能影响的规律,并验
随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研
本文针对现有的共享最近邻聚类算法,提出一种新型的基于共享最近邻的聚类算法,并将改进后的算法应用到真实数据集和零件的组合过程中。通过聚类结果和实验仿真表明,本文提出的共
随着Internet的快速发展,XML作为Internet上数据表示和数据交换的新标准,已经迅速贯穿于Internet应用的各个领域之中。然而,面对大量的xml文档,如何对它们进行存储、查询和分
跨层优化技术是针对无线网络的一种新的优化网络结构及传输性能的技术。与传统的分层优化技术不同,它不是针对开放系统互连(OSI)分层结构中某一特定的层来独立地进行优化,而
随着IEEE 802.11无线局域网技术的广泛应用,用户对网络功能和性能的要求也越来越高,其中一个非常迫切的要求就是对多媒体业务提供服务质量(Quality of Service,QoS)的支持。
软件复用被视为解决软件危机、提高软件生产效率和质量的有效途径。目前对于软件复用的研究已经得到了越来越多的重视。本文以软件复用作为指导思想,研究并实现了软件企业可
无线传感器网络是集无线通信、数据采集和信息处理功能于一体的新型分布式自组织数据采集网络。它充分利用了Ad Hoc网络动态自组、多跳的特点,其通信和感知节点可以移动、无
蓝牙技术是一种无线数据与语音通信的开放性规范,它以近距离无线连接为基础,即时地将个人电子设备组成自组织网。由于低功耗,低成本,高安全性等突出优点,蓝牙正成为个人区域