论文部分内容阅读
本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务,一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度。在数据集Reuters-21578上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法。