论文部分内容阅读
在当今社会,人们身边充斥着大量的数据,特别是文本数据,使人目不暇接。面对如此海量数据,我们已经不能简单地凭借人工处理来得到信息,迫切需要计算机来帮助我们更好地发现和管理这些信息资源。如何从海量数据中挖掘出有用的信息已成为当今科学研究的一个重要课题。文本数据挖掘是应用数理统计方法及计算机技术,对文本数据进行信息提取的一门新兴学科。文本分类是文本数据挖掘的一个重要研究方向。文本分类的方法已经有很多,比如Na?ve Bayes,K-近邻,支持向量机,神经网络等等。但对于中文文本分类问题,由于中文文本本身的复杂性,一直没有得到很好的解决,中文文本分类是建立在汉字编码,词语切分,歧义词消解和新词的识别等基础上的一项技术。中文文本数据的处理是以语句作为研究对象,以词作为最小研究单位的,因此无论是在中文文本数据的语法研究还是计算数学模型上都存在相当大的难度,目前采用的方法主要有基于语法规则的方法,基于数理统计方法,以及语法规则与数理统计相结合的方法。本文是在采用反向最大匹配分词技术,消解歧义,以及添加新词的基础上,建立了向量空间模型。基于数理统计的方法,使用Na?ve Bayes分类器,并使用AdaBoost算法对分类器的分类效率进行提升,以达到提高预测精度的目的。针对本文提出的方法,将其应用到了“长春市市长公开电话”数据的分类问题中,分类精度得到提升,显示该方法的有效性及其重要的应用价值。