论文部分内容阅读
近年来随着万维网甚至企业内联网内信息量的不断增加和人们对个性化搜索的需求的增大,文本体裁分类在计算语言学中的重要性逐渐得到体现,文本体裁自动分类问题已成为当前计算语言学及传统语言学的研究热点之。
识别文本体裁是一项复杂的工作。体裁属于形式的范畴,是人类思维的抽象归纳,要对其进行准确概括和表述都有一定难度;而且中文文本体裁分类交叉于汉语修辞学与计算语言学之间,需要有较深的语言学功底和计算语言学理论基础作为支撑,这些都是体裁分类研究道路上必须要克服的障碍。另一方面,体裁分类作为文本分类的一个研究分支,从计算机实现角度而言,它与目前发展较为成熟的主题分类在分类模型和分类算法等方面并没有本质的区别,两者的区别主要集中在分类体系的确定与特征选择方面,主题分类为体裁分类研究的展开提供了重要条件。整体来看,体裁分类研究尚处于全面探索阶段的初期,其技术还不够成熟。而且,国内汉语体裁自动分类的研究工作也刚刚起步。
本文参照英语体裁分类以及主题分类机制,结合主题分类在特征选择方面的研究成果以及体裁分类在汉语修辞学方面的特殊性对体裁分类中的特征选择展开了较深入的研究实验,包括较全面的选取特征项,将主题分类中的传统降维公式:卡方统计量法、相关系数法以及权重公式:tf.idf应用到体裁分类中、根据体裁分类的特性对这些传统公式进行改进,在体裁分类中尝试使用潜在语义分析技术进行降维等。最后采用在主题分类中取得了较好分类效果的支持向量机技术进行体裁自动分类。分类实验在包含应用文、新闻、记叙文、说明文、议论文5类典型体裁类别,共1500篇文档的中文文本体裁语料库上实现。作为中文文本体裁自动分类研究方面的尝试,实验结果显示了中文文本体裁自动分类的可行性,并获得了较好的分类效果,但仍有很多更深入的研究工作有待展开。