论文部分内容阅读
文本自动分类作为自动信息管理的一项核心技术,其研究一直受到高度关注.本文从市长公开电话文本分类具体的实际问题出发,在真实数据集上展开研究,研究主要包括以下几个方面:为了能对市长公开电话的海量文本数据进行全面的统计分析,研发了信息综合管理系统控制平台.该平台是集开发与应用为一体的大型工具软件,内含笔者设计的独立的平台语言和大量的通用化功能模块,其代码的高度可重用性避免了大量低水平重复开发造成的巨大人力物力资源的浪费,它的研发成功为后续的众多统计分析提供了便捷的环境,也是后续所有工作能够顺利完成的根本保障.本文介绍了平台构建的原理及关键性技术,在平台之上建立了单位分类机和行业分类机、统计分析与预警预报系统.在文本预处理阶段提出了提取未登录词及套话的一种方法,在特征提取方面提出了一个基于加权的卡方统计量提取停用词的方法,删除停用词后的分类器效率有了显著提高.虽然仅删除了500停用词,但由于停用词占训练集总词量的43.7%,因而数据噪音得到大幅度降低.在低频词方面提出了针对每一类按一定比例删除低频词,分类效果增加了一个百分点,如70%,低频词由13909降为3445,向量空间维数显著降低.在分类器构建方面,针对市长公开电话的实际需要,笔者认为朴素贝叶斯分类器有其自己的特点,算法简单且速度快,更适合要求实时的分类数据,但正确率较低,在项目早期的实际测试中,通过对其进行改进,提出了一种基于多重假设检验的特征加权朴素贝叶斯分类器,其优点是在正确率有所提高的情况下速度更快,缺点是参数选择较为困难.鉴于实际数据的类别数目较多,单层分类提高性能较为困难,基于地域信息提出了一种文本分类层次结构模型,和特征加权朴素贝叶斯分类器相比较,该模型构建更简单、实用,同时误判率更低.考虑到工单派发的实际需要,将几个分类器有机组合提出了一种基于分类委员会的文本分类模型构成单位自动分类机,它极大地减轻了受理处和办理处的工作压力,同时使投诉受理量有了大幅度的增加,其直接派发率高达80.76%,派发准确率81.04%.