论文部分内容阅读
文本分类是信息处理领域中的一个重要的研究方向。随着信息技术的发展,特别是20世纪90年代基于机器学习的文本分类方法的逐渐成熟,文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用,而这些领域的发展,同时又推动了文本分类技术不断地提高。在基于机器学习的文本分类研究中,算法按照分类学习方式的不同,可分为有监督分类、半监督分类和无监督分类三种。有监督分类通常简称为文本分类(textcategorization,简称TC),它的主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别;无监督分类称为文本聚类(clustering),文本聚类是按照某种准则对文本集合进行组织或划分,使得相似的文本划分到同一簇中,差异较大的文本划分到不同簇中;半监督学习介于有监督分类与无监督分类之间,它主要关注的是当训练样本不足或者数据的部分信息缺失的情况下,如何获得具有良好泛化能力的学习机器,对文本类别进行正确区分。无论是哪种分类算法,对于高维文本来说,特征提取和特征选择作为降维的重要方法,是降低计算复杂性、提高分类器性能的重要手段。同时,它们也跟上述的分类算法一样,面临着海量数据、非结构化、维数灾难与数据集偏斜等方面的挑战。本文主要研究中文文本分类,重点就文本的特征提取、特征选择、分类和聚类四个方面进行展开研究。本文首先提出了基于句子成分的文本特征提取算法;接着,提出了特征索引与特征补偿的KNN分类算法。本文研究中主要的创新点包括:1、基于句子成分的文本特征提取。在文本特征提取中经常会出现一些跟主题无关的词条。本文根据不同的句子成分在表达主题中所起的作用不同,利用句法分析实现句子成分的标注,并由此提出了基于句子成分的文本特征提取算法。实验结果显示,该算法不但能有效地过滤一些跟主题无关的词条,而且避免了停用词表或词性过虑的局限性。2、均衡特征选择算法研究。针对目前关于数据分类的假设在实际中难以满足以及数据偏斜的问题,本文通过对文本分类目标函数的分析,提出了均衡的特征选择算法,理论分析与在公开文本集的实验表明,该算法能够有效地处理子类间的数据偏斜问题。对证明和验证该算法的正确性和有效性。3、KNN分类算法改进研究。为了减少未标记样本与无关向量集的比较以提高分类的速度,本文利用选择的特征集作为待标记文本分类的索引,提出了基于特征空间索的最近邻分类算法。实验表明,该算法分类时间受维数增加的影响较小。另外,为了提高分类的准确性,本文将未包含在特征空间中且具有区分类别能力的特征词作为分类的补偿特征集,提出了基于特征补偿的KNN算法。