论文部分内容阅读
[摘要]决策树(Decision Tree简称DT)和支持向量机都是目前机器学习领域的重要学习方法,均具备各自的优势。本文着重对决策树和SVM分类算法进行分析,同时根据科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信息进行词频统计分析建立分类器,并结合实际的文档集分别测试了决策树和SVM分类算法的性能,并给出了实验数据及分析结果。
[关键词]决策树支持向量机科技文献分类
1、引言
随着在线电子信息以几何级数的形式增长,截止2008年7月26日,Google搜索引擎建立索引的网页数量已经达到了一万亿幅。这些海量的信息来自不同行业,比如新闻资讯、娱乐消息、研究论文、数字图书馆等。为了适应因特网快速发展的需要,许多过去以印刷形式发行的报纸期刊也纷纷将自己的刊物搬到了因特网上,尤其是科技期刊的电子化和数字化图书馆的出现极大地丰富了网络空间的知识资源。研究如何实现电子科技文献的面向主题的自动获取、自动分类是Web资源开发与利用、实现个性化服务的一个很有意义的课题,其中一个很重要的环节就是文本的自动分类。现有的文本分类算法主要有:朴素贝叶斯算法(Naive Bayes),K最近邻居分类算法(KNN),类中心向量最近距离判别算法(Rocchio),聚类粒度原理的分类算法,决策树分类算法,以及SVM分类算法等。文本分类算法是分类系统的核心,所以在实现文本自动分类系统时,文本分类算法的性能是值得注意的问题。本文试图根据科技文献的特点,建立一种基于决策树和SVM算法的文本分类器,在此基础上进行实验研究,得出实验数据并进行对比分析。
2、决策树和SVM分类算法
2.1决策树分类算法
决策树也称为判定树,决策树学习是以示例学习为基础的归纳推理算法,着眼于从一组无次序、无规则的事例中推出决策树表示形式的规则。决策树归纳方法是目前许多基于规则进行归纳数据挖掘商用系统的基础,它在分类、预测和规则提取等领域运用最为广泛。到目前为止决策树有很多实现算法,1986年由J.R.Quinlan提出的ID3算法和1993年提出的C4.5算法,以及CART,C5.0(C4.5的商业版本),Fuzzy C4.5,SLIQ和SPRINT等算法[2-4]。
决策树学习算法是一种归纳算法,它采用“自顶向下、分而治之”的方法将搜索空间分为若干个互不相交的子集,通常用来形成分类器和预测模型,可以对未知数据进行分类、预测和数据预处理等。应用这种方法需要首先构建一棵决策树对分类过程进行建模,一旦建好了树的模型之后,就可以将其应用于数据集中的元组中去,并得到分类结果。图1就是一棵决策树的示意结构描述。在图上,每个非叶子结点代表训练集数据的输入属性,Attribute Value代表属性对应的值,叶子结点代表目标类别属性的值。其中,树的中间结点通常用矩形表示,而叶子结点常用椭圆表示。图中的“是”,”否”分别代表实例集中的正例和反例[5]。
2.2 SVM分类算法
SVM(Support Vector Machine,支持向量机)方法是由V.Vapnik与其领导的贝尔实验室的小组一起开发出来的一种机器学习技术。支持向量机(SVM)是一种在统计学习理论(SLT)的基础上发展起来的一种机器学习方法。支持向量机在模式识别已经有了一些应用,如手写体数字识别[12],人脸识别与人脸检测[13],以及文本分类[14,15]等各种领域。此外,支持向量机还很好地应用于时间序列分析和回归分析等领域的研究。例如,MIT、Bell Lab和微软研究所等已成功地将支持向量机应用于动态图像的人脸跟踪,信号处理,语音识别,图像分类和控制系统等诸多领域。如果一个训练集中的矢量能被一个平面无错误地线性分割,且距该平面最近的矢量之间的距离最大,则称该平面为最佳分类面。
3、基于决策树和SVM的科技文献分类系统设计
3.1科技文献行文规范特点
由于科技文献特有的行文规范,它的格式和行文都有一定的特点。科技文献一般由标题、作者、作者单位、刊物名称、关键词、摘要、正文以及参考文献等几部分组成。标题、关键词和摘要部分很精简的反映了文章的核心内容,同时与文档主题内容不相关的描述很少,以这些内容作为文献的分类标准能体现出文本特征的区分性,降低噪声信息。另一方面,科技文献的关键词是经过作者认真筛选、提炼出来的能够反映文档主题内容的核心词汇。如果收集待分类的类别在一定时间内、不同期刊科技文献的关键词作为文本分类词条集合,在此基础上建立同义词、蕴含词、近义词表,并以此作为文本分类的特征,将会在很大程度上降低非专业词汇科技文本分类的噪声干扰,直接利用关键词集扫描统计专业文本的词频,无需进行词条的切分处理。
3.2科技文献分类系统设计
本文采用的是基于机器学习的文本分类技术,首先是构建一个计算机领域的语料库。语料库共分成人工智能、数据库、神经网络、模糊控制和计算机网络五类。科技文献自动分类系统研究了传统文本分类技术的各个流程,对其中各个关键步骤的算法技术进行相应的分析以及对比,并针对具体应用进行了一定的改进。整个系统设计如图4所示:
预处理阶段:该系统的预处理部分包括采用中科院计算所汉语词语分析系统ICTCLAS对训练集和测试集中文本进行扫描分词,再使用lawstoplist去除停留词。特征选择阶段:从每一类文档的所有特征词中抽取那些能够反映和区分此类文档与其它类文档的特征项。决策树的经典算法C4.5R是采用基于信息增益的特征提取方法。文本的VSM表示阶段:系统采用语义空间来表示文本信息,因此必须对文本进行模型化处理。因为向量空间模型概念简单、相似计算直观易懂,因此选择VSM作为文本的表示模式。科技文献分类阶段:通过决策树(C4.5R)和支持向量机分类算法对科技文献进行分类,并将分类结果进行输出。
5、总结与展望
本文的突出特点是从实际应用入手,选择决策树的经典算法C4.5R和SVM作为分类算法,对比了两种算法在特定应用领域(即科技文献分类领域)中文本的分类性能,得出了实验结果,并给出了针对科技文献分类领域文本信息分类系统的设计方案和实现过程。
参考文献
[1]王强,沈永平,陈英武.支持向量机规则提取[J].国防科技大学学报,2006,28(2):801-805.
[2]王晓东.算法设计与分析[M].北京:清华大学出版社:2003.5-10
作者简介
黄华(1982-),男,硕士生,主要研究领域为数据挖掘,机器学习,文本分类。
[关键词]决策树支持向量机科技文献分类
1、引言
随着在线电子信息以几何级数的形式增长,截止2008年7月26日,Google搜索引擎建立索引的网页数量已经达到了一万亿幅。这些海量的信息来自不同行业,比如新闻资讯、娱乐消息、研究论文、数字图书馆等。为了适应因特网快速发展的需要,许多过去以印刷形式发行的报纸期刊也纷纷将自己的刊物搬到了因特网上,尤其是科技期刊的电子化和数字化图书馆的出现极大地丰富了网络空间的知识资源。研究如何实现电子科技文献的面向主题的自动获取、自动分类是Web资源开发与利用、实现个性化服务的一个很有意义的课题,其中一个很重要的环节就是文本的自动分类。现有的文本分类算法主要有:朴素贝叶斯算法(Naive Bayes),K最近邻居分类算法(KNN),类中心向量最近距离判别算法(Rocchio),聚类粒度原理的分类算法,决策树分类算法,以及SVM分类算法等。文本分类算法是分类系统的核心,所以在实现文本自动分类系统时,文本分类算法的性能是值得注意的问题。本文试图根据科技文献的特点,建立一种基于决策树和SVM算法的文本分类器,在此基础上进行实验研究,得出实验数据并进行对比分析。
2、决策树和SVM分类算法
2.1决策树分类算法
决策树也称为判定树,决策树学习是以示例学习为基础的归纳推理算法,着眼于从一组无次序、无规则的事例中推出决策树表示形式的规则。决策树归纳方法是目前许多基于规则进行归纳数据挖掘商用系统的基础,它在分类、预测和规则提取等领域运用最为广泛。到目前为止决策树有很多实现算法,1986年由J.R.Quinlan提出的ID3算法和1993年提出的C4.5算法,以及CART,C5.0(C4.5的商业版本),Fuzzy C4.5,SLIQ和SPRINT等算法[2-4]。
决策树学习算法是一种归纳算法,它采用“自顶向下、分而治之”的方法将搜索空间分为若干个互不相交的子集,通常用来形成分类器和预测模型,可以对未知数据进行分类、预测和数据预处理等。应用这种方法需要首先构建一棵决策树对分类过程进行建模,一旦建好了树的模型之后,就可以将其应用于数据集中的元组中去,并得到分类结果。图1就是一棵决策树的示意结构描述。在图上,每个非叶子结点代表训练集数据的输入属性,Attribute Value代表属性对应的值,叶子结点代表目标类别属性的值。其中,树的中间结点通常用矩形表示,而叶子结点常用椭圆表示。图中的“是”,”否”分别代表实例集中的正例和反例[5]。
2.2 SVM分类算法
SVM(Support Vector Machine,支持向量机)方法是由V.Vapnik与其领导的贝尔实验室的小组一起开发出来的一种机器学习技术。支持向量机(SVM)是一种在统计学习理论(SLT)的基础上发展起来的一种机器学习方法。支持向量机在模式识别已经有了一些应用,如手写体数字识别[12],人脸识别与人脸检测[13],以及文本分类[14,15]等各种领域。此外,支持向量机还很好地应用于时间序列分析和回归分析等领域的研究。例如,MIT、Bell Lab和微软研究所等已成功地将支持向量机应用于动态图像的人脸跟踪,信号处理,语音识别,图像分类和控制系统等诸多领域。如果一个训练集中的矢量能被一个平面无错误地线性分割,且距该平面最近的矢量之间的距离最大,则称该平面为最佳分类面。
3、基于决策树和SVM的科技文献分类系统设计
3.1科技文献行文规范特点
由于科技文献特有的行文规范,它的格式和行文都有一定的特点。科技文献一般由标题、作者、作者单位、刊物名称、关键词、摘要、正文以及参考文献等几部分组成。标题、关键词和摘要部分很精简的反映了文章的核心内容,同时与文档主题内容不相关的描述很少,以这些内容作为文献的分类标准能体现出文本特征的区分性,降低噪声信息。另一方面,科技文献的关键词是经过作者认真筛选、提炼出来的能够反映文档主题内容的核心词汇。如果收集待分类的类别在一定时间内、不同期刊科技文献的关键词作为文本分类词条集合,在此基础上建立同义词、蕴含词、近义词表,并以此作为文本分类的特征,将会在很大程度上降低非专业词汇科技文本分类的噪声干扰,直接利用关键词集扫描统计专业文本的词频,无需进行词条的切分处理。
3.2科技文献分类系统设计
本文采用的是基于机器学习的文本分类技术,首先是构建一个计算机领域的语料库。语料库共分成人工智能、数据库、神经网络、模糊控制和计算机网络五类。科技文献自动分类系统研究了传统文本分类技术的各个流程,对其中各个关键步骤的算法技术进行相应的分析以及对比,并针对具体应用进行了一定的改进。整个系统设计如图4所示:
预处理阶段:该系统的预处理部分包括采用中科院计算所汉语词语分析系统ICTCLAS对训练集和测试集中文本进行扫描分词,再使用lawstoplist去除停留词。特征选择阶段:从每一类文档的所有特征词中抽取那些能够反映和区分此类文档与其它类文档的特征项。决策树的经典算法C4.5R是采用基于信息增益的特征提取方法。文本的VSM表示阶段:系统采用语义空间来表示文本信息,因此必须对文本进行模型化处理。因为向量空间模型概念简单、相似计算直观易懂,因此选择VSM作为文本的表示模式。科技文献分类阶段:通过决策树(C4.5R)和支持向量机分类算法对科技文献进行分类,并将分类结果进行输出。
5、总结与展望
本文的突出特点是从实际应用入手,选择决策树的经典算法C4.5R和SVM作为分类算法,对比了两种算法在特定应用领域(即科技文献分类领域)中文本的分类性能,得出了实验结果,并给出了针对科技文献分类领域文本信息分类系统的设计方案和实现过程。
参考文献
[1]王强,沈永平,陈英武.支持向量机规则提取[J].国防科技大学学报,2006,28(2):801-805.
[2]王晓东.算法设计与分析[M].北京:清华大学出版社:2003.5-10
作者简介
黄华(1982-),男,硕士生,主要研究领域为数据挖掘,机器学习,文本分类。