论文部分内容阅读
随着互联网上信息的海量增长,尤其是万维网的普及,网络信息资源己经涵盖了社会生活的各个方面。通过什么样的方法和途径使网站的网页信息资源得到合理有效地组织,提高信息检索速度和准确度,是个让人们感兴趣的问题,也是国内外研究的热点。网页分类提供了处理和组织大规模文本信息的关键技术,使得网络信息资源得以合理有效地组织。 九十年代中后期,互联网才开始在中国起步并发展,因此中文网页分类技术相对落后,国内很多机构比如中科院软件研究所等近年来都致力于研究中文文本和中文网页的分类技术的研究,并取得一定的成果。目前网页分类算法中,支持向量机(SVM)是研究的热点。 在中文网页分类中,网页数量多,从网页中提取的特征词属性数量大,这样的大数据集必然会加长分类时间。实质上,在样本数量一定的条件下,只有部分特征属性对分类起作用,因此人们采取对特征空间降维的方法,减少数据量。传统上,主要采用主成分分析或者奇异值分解进行降维处理,这两种方法把线性相关的属性组合起来产生新特征,并按信息比例选取若干项作为新的属性集,虽然会失去一定的信息量,但是实现起来很容易,应用广泛。 支持向量机处理小样本分类时,能得到较好的效果,但应用于中文网页分类时,由于数据量大,其鲁棒性特点得不到发挥。PCA约简能降低原属性空间的维数,从而减少了用于支持向量机分类学习的数据量,可以提高支持向量机的训练速度和测试速度。此外,支持向量机主要用来处理线性数据,而实际上的样本数据往往都是非线性的,通过引入核函数,可以很方便地对样本进行映射,产生新的线性样本,然后进一步地处理,最终达到较好的效果。 本文采用覆盖歧义检测进行中文分词,用核主成分分析进行特征选择核属性约简,并结合SVM形成中文网页分类器。手动下载网页进行分类测试,可以看出此分类方法可以取得不错地分类效果,分类器的性能较好,有一定的实用价值。