论文部分内容阅读
本文以信息资源管理中的网页、图书期刊的书目或题录信息等主要数字文本为对象,使用概率主题模型(LDA)建模,通过对比分析KNN、类中心向量法、SVM等三种常见的分类算法所产生的不同分类效果,研究数字文本资源管理中的自动分类特性。实验表明LDA模型下三种分类算法的分类正确率基本都能达到80%左右,SVM算法分类准确率相较另两种算法大约高0.7~22%左右。本文的结论可为数字文本分类系统使用LDA对文本建模时选择合适的分类算法提供一定的依据。