论文部分内容阅读
随着计算机技术的发展,大量的文档信息每天都在急剧增加。由于信息的快速膨胀,如何能够快速有效地利用这些信息已经成为一个面临的新问题。面对巨大的文本信息,采用传统的人工手段对这些信息进行分类由于效率太低而面临越来越多的困难,信息处理已经成为人们获取有用信息不可缺少的工具,所以基于机器学习人工智能技术的自动文本分类(Automated Text Categorization)已经成为一个重要的研究领域,其优势大大超过了传统的人工方法,不仅可以应用广泛,而且节省了人力还简化了工作程序。 本文基于解决长春市市长公开电话文本分类的实际问题介绍了自动文本分类的定义,文本分类系统组成,基于机器学习中的文本分类方法,主要介绍了朴素贝叶斯分类器(Naive Bayes classifier)和k-最近邻法(k-Nearest Neighbor method),并实现了两种算法的文本分类,解决了实际问题,对两种分类法方法进行评估,计算得到评估的各项指标,进行了比较讨论。