基于SVM的中文网页分类方法的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:lyzyk413026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的海量增长,尤其是万维网的普及,网络信息资源己经涵盖了社会生活的各个方面。通过什么样的方法和途径使网站的网页信息资源得到合理有效地组织,提高信息检索速度和准确度,是个让人们感兴趣的问题,也是国内外研究的热点。网页分类提供了处理和组织大规模文本信息的关键技术,使得网络信息资源得以合理有效地组织。  九十年代中后期,互联网才开始在中国起步并发展,因此中文网页分类技术相对落后,国内很多机构比如中科院软件研究所等近年来都致力于研究中文文本和中文网页的分类技术的研究,并取得一定的成果。目前网页分类算法中,支持向量机(SVM)是研究的热点。  在中文网页分类中,网页数量多,从网页中提取的特征词属性数量大,这样的大数据集必然会加长分类时间。实质上,在样本数量一定的条件下,只有部分特征属性对分类起作用,因此人们采取对特征空间降维的方法,减少数据量。传统上,主要采用主成分分析或者奇异值分解进行降维处理,这两种方法把线性相关的属性组合起来产生新特征,并按信息比例选取若干项作为新的属性集,虽然会失去一定的信息量,但是实现起来很容易,应用广泛。  支持向量机处理小样本分类时,能得到较好的效果,但应用于中文网页分类时,由于数据量大,其鲁棒性特点得不到发挥。PCA约简能降低原属性空间的维数,从而减少了用于支持向量机分类学习的数据量,可以提高支持向量机的训练速度和测试速度。此外,支持向量机主要用来处理线性数据,而实际上的样本数据往往都是非线性的,通过引入核函数,可以很方便地对样本进行映射,产生新的线性样本,然后进一步地处理,最终达到较好的效果。  本文采用覆盖歧义检测进行中文分词,用核主成分分析进行特征选择核属性约简,并结合SVM形成中文网页分类器。手动下载网页进行分类测试,可以看出此分类方法可以取得不错地分类效果,分类器的性能较好,有一定的实用价值。  
其他文献
对等网络以其大规模,自组织,以及健壮性等优特近年来受到学术界越来越多的关注。自第一代对等网络系统Napster开始,文件共享一直是对等网络的一个非常重要的应用。由于对等网
由于数据流具有实时性、连续性、无界性的特点,传统的数据库管理技术已不能适应对它的处理需求,数据流查询成为数据库理论研究的一个新领域。其中连接查询由于其应用广泛性和
互联网为用户提供了大量的学习教程,各种类型的教程网站层出不穷,为用户提供了丰富的学习资源,这些资源从很大程度上为用户提供了方便,人们在享受网络教程便捷性的同时,经常
无线传感器网络(Wireless Sensor Networks,WSN)是由一系列低功耗、低成本的微型传感器节点形成的自组织网络系统,在国防军事、医疗护理、农业监控等领域有着非常广泛的应用前景
当今针对公共场所的暴力恐怖事件时有发生,加强公共场所安全防护,依法打击犯罪,有效震慑犯罪分子,保障人们在公共场所的日常活动安全成为了各国政府关心的问题。公共场所中因其人
本文研究了基于S3C4510B的嵌入式通信控制器的设计与实现,从总体设计、HDLC通道驱动程序的实现、通信控制器应用软件的实现与测试来阐述。本文首先从分析设计要求出发,研究了
在20世纪90年代中期,Gartner提出了面向服务的架构(SOA)的概念。今天,SOA已经能够成功地运用到各大企业当中。但是我们发现:“组合服务”的发现和服务质量(QoS)的综合评估仍
非单调逻辑是人工智能研究领域的一个重要方向之一,为不同的逻辑规则提供相应的语义特征(即,建立表示定理)是非单调逻辑研究中的一个重要研究内容。本文探讨了算子在表示定理研究
形式规格说明语言基于严密的数学和逻辑,它是精确的,无二义性的语言。形式规格说明语言克服了非形式化语言的二义性,但是它并不能完全避免规格说明中的人为错误。本文研究的是形
面向方面编程(Aspect-Oriented Programming, AOP)是一种新的程序设计方法,旨在解决传统面向对象程序设计对于系统横切关注点的描述所存在的代码散布和纠缠的问题,使程序具有