论文部分内容阅读
设计一个有效地基于朴素贝叶斯的中文海事文本多分类器。在文本分类的预处理步骤中,在中文分词上选取领域词典和停用词典有效地降低特征维数、选取IG特征提取方法、改进的TF-IDF公式中特征词权重的计算方法,以建立词频矩阵等,最后用选取的海事样本数据进行训练建立分类库。实验数据表明,本文的基于朴素贝叶斯的中文海事文本多分类器具有很好的高效性和准确性。