论文部分内容阅读
随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web上信息资源已含盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。处理海量数据的一个重要方法就是将它们分类。网页的自动分类是信息检索(IR)领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。文本分类是一个特定的模式识别问题,在文本中使用模式识别的机器学习方法会取得比相关反馈方法更好的效果。如果说文本分类曾一度被看作信息检索问题,现在文本分类正越来越被作为模式识别的一个特例进行研究。大量经典的模式识别学习算法已经被应用于文本分类中,如近邻分类法,贝叶斯决策法,决策树,神经网络,支持向量机等。 本文对文本自动分类中所涉及的各项技术进行了全面的论述,并通过试验测试对文本分类研究中的两点关键技术——文本特征的获取和分类学习算法进行了深入的研究。本文主要做了以下几方面的工作:1.文本特征抽取技术特征选择是文本分类中的一个重要环节。由于文本特征集的数量非常庞大,一般的学习算法无法对其进行类别学习,使得进行特征子集的抽取变得十分必要。特征选择可以从两个方面提高系统性能:一是分类速度,通过特征选择,可以大大减少特征集合中的特征数,降低文本向量的特征数,提高系统运行速度。二是准确率,通过适当的特征选择,不但不会降低系统准确性,反而会使系统精度提高。我们通过对多种特征提取算法的比较,采用了CHI特征提取算法。同时分析了网页中对分类过程有贡献的结构成分,并针对网页的特点和网页标记作用的不同对权值进行调整,改进了TF-IDF公式使其更加适用于自动分类过程。2.文本分类算法 本文重点讨论了支持向量机的相关问题。概述了统计学习理论的主要内容,推导了支持向量机方法在文本线性可分和线性不可分情况下实现分类的数学公式,将学习问题转化为一个在等式约束和不等式约束下的凸二次优化问题,总结了求解的过程。针对超大规模文本库的训练与评估问题,采用分解算法,迭代求解,然后利用基于Leave-One-Out技术的ξα评估方法快速有效地计算错误率、准确率、召回率和F1指标。证明了分解算法的有效性,在实验系统中采取了五种加速训练的措施。我们以支持向量机为<WP=67>基础,进行了改进和扩展,采用组合结构实现N个类别的支持向量机多分类器,建立了基于SVM的结合链接信息的层次化多归属的分类系统Clearcut。 改进和扩展主要从三方面来考虑:单分类器融合成多分类器。人们从大量的实验和应用中发现,将多个分类器的决策结果结合在一起,往往可以得到比单个分类器更好的性能,如更高的识别率和更低的错误率。基本的SVM是只能判断两个类别的单分类器,为了能够判断出多个类别,我们需要把若干个单分类器结合成一个多分类器。我们研究了现有的多种分类器结合方法,并针对其不足之处进行了相应的改进。并利用阈值来确定文档所属的多个类别,使分类系统具有多归属的特点。层次分类。大多数分类系统都是假设各个类之间是相互独立的,不考虑类之间的概念层次关系,对所有的类一视同仁,统一进行训练。我们称这样的分类器为水平分类器。但是实际上,互连网上的数量庞大的网页所属的类别是具有层次关系的,我们可以根据实际情况考虑类间层次关系把水平分类器改进成层次分类器。主要有两大类层次分类法:一种是不具有纠错功能的直接法。另外一种是具有纠错功能的反馈法。为了能保证文档被分到小类,又能结合纠错法的思想我们提出了层次加权投票法来改进层次分类器。链接信息的利用。传统的网页分类主要考虑网页的内容,往往忽略了页面中的链接信息。然而大部分网页都包含链接信息(平均一个网页包含7-10个链接)。最近在超文本信息处理技术上的一些研究表明,合理的利用链接信息可以提高分类的准确率。单纯依靠内容进行分类的算法已经不适合超文本分类的需求,只有将超链结构等全局信息引入分类模型才能实现高质量的分类。本文分析了链接的种类,以及不同链接对分类所作的贡献的差异。从对数据集的分析我们发现,与同一文档具有链接关系的文档并非都是相关的,即存在一些“噪音”链接,它们及其所对应的文档若被结合进入分类模型,必将对质量产生消极影响。我们从两方面来去除噪音链接信息,以减少负面影响。 最后,本文通过两个标准数据集和一个实际数据集进行测试实验,通过对结果的分析,表明分类结果稳定,精度高,性能好。还有一些需要我们继续研究的问题。如处理大规模数据时,分类器的复杂度较高。Hwanjo Yu等提出聚类和分类相结合的思想,来减轻分类器的训练任务,而且,使之具有较高的准确性。我们以后将进一步研究分类和聚类相结合的问题,以提高分类精度。