论文部分内容阅读
随着互联网的快速发展,网络上的多媒体信息快速的增长。如何有效的组织、管理、挖掘这些信息,是一项是非常艰巨的任务。文本分类作为一种处理文本信息的有效手段,在过去十几年的时间里的,得到了广泛的关注和快速的发展。目前的文本分类方法中存在两个问题。首先,特征权重不能反映出特征对不同类别的分辨程度,而且正面特征和负面特征也没有有效地区分;其次,语义角色标注在短文本分类中作用显著,但是FrameNet的词汇覆盖率低,限制了其在其在大规模文本上的使用。因此,本文重点研究了有监督特征加权和词汇单元规约。基于统计机器学习的文本分类技术,由于具有速度快、分类效果好的特点,而成为主流。基于统计的文本分类,通常采用向量空间模型,将文档表示为特征向量。其中两个非常关键的步骤是特征选择和特征加权。在传统的文本分类过程中,特征选择和特征加权是分离的。有监督加权则将特征对于分类的重要程度包含到特征的权重中。我们在前人的基础上提出了三种新的有监督特征加权方法。第一种和第二种方法将传统的特征加权方法tf-idf与“单侧”特征选择方法(即奇异率和相关系数)结合,有效地区分了正面特征和负面特征,提高了正面特征的权重,改善了分类性能。第三种方法是将tf与我们提出的特征熵进行结合,这种方法简洁而高效。特征熵度量了特征在不同类别的分布情况。在Reuters-21578数据集上实验表明,我们提出的三种方法优于传统的tf-idf和前人提出的有监督加权方法(例如,tf×CHI和tf×OR)。语义角色标注指的是识别句子中的语义角色,是一种语义分析任务。它被证明能够显著改善文本分类的性能,尤其是对于短文本。语义角色标注有两个主要的人工标注的语料库,即PropBank和FrameNet。由于FrameNet中,不同框架的语义角色都是有意义的名称,因而FrameNet更适合于文本分类。但是FrameNet的词汇覆盖率较低,所以限制了其在大规模文本上的使用。所以,词汇单元规约是语义角色标注中的一个非常重要的任务。词汇单元规约是将词汇单元分配到正确的框架。之前的研究主要是利用WordNet来识别词汇单元的正确框架。但是,之前研究使用的特征类型有限,不能处理形容词和副词。因此,我们提出了一种新的特征表示方法,引入了更多类型的特征,覆盖了整个开放词类。另外,我们利用SemCor更准确的计算特征权重。我们在测试语料上测试了我们提出的方法,实验结果显示,我们的方法明显优于其他方法。