基于市长公开电话文本为背景的两种自动分类算法的比较

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:Tiger7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,大量的文档信息每天都在急剧增加。由于信息的快速膨胀,如何能够快速有效地利用这些信息已经成为一个面临的新问题。面对巨大的文本信息,采用传统的人工手段对这些信息进行分类由于效率太低而面临越来越多的困难,信息处理已经成为人们获取有用信息不可缺少的工具,所以基于机器学习人工智能技术的自动文本分类(Automated Text Categorization)已经成为一个重要的研究领域,其优势大大超过了传统的人工方法,不仅可以应用广泛,而且节省了人力还简化了工作程序。 本文基于解决长春市市长公开电话文本分类的实际问题介绍了自动文本分类的定义,文本分类系统组成,基于机器学习中的文本分类方法,主要介绍了朴素贝叶斯分类器(Naive Bayes classifier)和k-最近邻法(k-Nearest Neighbor method),并实现了两种算法的文本分类,解决了实际问题,对两种分类法方法进行评估,计算得到评估的各项指标,进行了比较讨论。
其他文献
本文中,我们给出了李三超系的一些基本概念和性质,讨论了交换的结合超代数与李三超系的张量积,然后讨论了可解和幂零李三超系的一些性质. 主要结论如下:定理1设李三超系T可以
微分方程振动性理论是微分方程定性理论中的一个重要分支,它在在控制工程、机械振动、力学和经济学中具有广泛的应用。因此,泛函微分方程的振动性引起了人们的广泛关注并取得了
本文讨论了两种群的食饵捕食系统.在第一章里介绍了两种群的食饵捕食系统的研究现状及研究意义.第二章研究了一类食饵—捕食者系统当食饵种群的增长率和捕食率都为非线性情形
本文给出了三维Minkowski空间中非类光曲线的从切可展曲面的奇点分类.所用的工具为曲线的法向距离函数.我们还建立了此函数诱导的奇点和曲线的几何不变量之间的联系,其中曲线
本文将Singhetal的两种模型进一步推广至分层抽样和不等概率抽样这两种复杂抽样中。在此基础上,给出了所有模型下总体中敏感性问题比例的无偏估计,估计的方差,以及其它的相关性
本文作者就工程地质勘察的岩土工程分析原则与方法,分析岩土工程的环境地质灾害滑坡的原因及防治措施。
期刊