论文部分内容阅读
本文介绍了一个可应用于汉字输入法程序的文本分类器的设计。该分类器基于向量空间模型,对用户键盘输入的动态文字流进行分类,分类目标是指导输入法程序提示重码词条。 首先介绍了课题背景、课题内容和意义。概述了文本分类的相关概念和建立文本分类器的过程,并讨论了文本分类的相关技术。然后,给出了在现有静态文本分类器的基础上,尝试设计动态文本分类器的思路,详细描述了建立文本分类器过程中所采用的特征生成技术、特征提取技术和分类器构造方法,还介绍了模拟动态文本输入的方法。随后,说明了对分类器参数进行训练和对分类器进行测试的情况。最后简单介绍了设计分类器过程中有关程序的编码实现。 本文介绍的基于VSM模型的动态文本分类器,采用多分类器模式,对不同的类别建立起不同的特征子空间,并利用相似度计算方法进行分类器构造。汉字输入法程序利用这种动态文本分类器,可以降低重码率,或者有效调整重码提示次序,最终达到提高用户输入速度的目的。从这个角度看,尝试设计这样的动态文本分类器是很有意义的。