论文部分内容阅读
利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,根据K-最近距离算法判断测试文本的所属类别,实验结果表明该方法可行。