论文部分内容阅读
随着网络技术和数据库技术的成熟,数据库系统逐渐普及。从文字分类搜索、到商业决策分析、更乃至前沿的生物工程。在数据库中储存的大量数据中隐藏着许多信息,这些隐藏的信息对于决策有着十分重要的作用。用作对这些隐藏信息进行分析处理的工具虽有了很大的发展,但是很多隐藏信息的许多重要内涵还远远没有得到足够的利用。数据挖掘作为一种新型的数据处理技术,数据挖掘的过程就是对数据信息的再处理再分析过程。首先需要收集各种相关数据信息,其次通过各项模型化处理方式如取样、分析、结论等获得符合目标的关键因素。所以,数据挖掘及其相关的技术和应用的研究和发展受到了业界的重视与长足的进展。从而研究一种更加高效的Filter型特征选择算法对各个学科领域都有着非常重要的作用。文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据分类、计算机学科,工科,信息学科、管理学等多个学科。至今,大部分的机器学习方法、统计方法、数据分类技术被应用到文本分类里。本文首先研究了贝叶斯网络、朴素贝叶斯分类器、Filter型特征选择算法的问题,然后在此基础上详细讨论了基于最小联合互信息亏损的最优特征选择算法,并基于文本分类的应用需求进行了最优特征选择算法在文本分类上的研究及设计。最后通过试验,验证了Filter型算法可有效应用于文本分类的领域。本文重点研究了以下内容:首先,阐述了贝叶斯网络与朴素贝叶斯分类的定义。根据特征的不同,归纳了其特点及模型,以及相关应用。其次,阐述了Filter型特征选择算法的含义和基本特征。根据特征的不同,归纳了现有Filter型特征选择算法分为以特征子集搜索为基础的最优特征选择法和特征排序法两种类别,并对每种类别加以深入剖析。力求获得每种算法的特点、基本原理以及存在的缺点。再者,通过文本分类的定义及应用的介绍,引出了特征选择算法在文本分类上的研究。并通过算法的代码及实验过程进行了深入的研究。从而验证了Filter型算法可有效应用于文本分类的领域,提高了文本分类的效率。