论文部分内容阅读
文章提出了层次分类模型,将类别按相似程度形成一棵树形结构,对文章分类时是一层一层逐层比较的,这样就使得文本分类时文本与类别之间的比较次数大为减少,同时由于大的类别的特征之间的区别比较明显,因此又能在一定程度上提高文本分类的精准率.考虑到一篇文章的标题和正文对决定文章所处的类别上所起的作用是不同的,文中将标题和正文分开处理.还有在进行特征选择时将TFIDF和MI结合起来,这也是该文的创新之处.实验结果表明,层次分类的方法在速度上比一般分类快15%左右,而精准率又有一定程度的提高.