论文部分内容阅读
我们提出了一种新颖的、基于最大关联的文本分类方法—SAT-MOD+。在文本分类中,以往的方法在挖掘频繁项集和关联规则的时候,往往是将整个文本看作一个事务来处理的,然而文本的基本的语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,SAT-MOD+把一篇文档里的某些句子作为一个单独的事务。通过在标准的文本集上的大量实验,证明了SAT-MOD+的有效性。