论文部分内容阅读
采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。