论文部分内容阅读
搜索引擎的查询结果和查询关键词与某一个文本类别应该具有一定关联.基于这样的假设,针对文本分类问题,根据小样本集提取特征词构建查询并从查询结果中下载网页样本,将下载的网页样本进行去重、去噪、提取正文等处理后,判断其类别并扩充到初始样本集,最终使用扩充后的实验样本集学习训练朴素贝叶斯文本分类器,并对分类器的分类效果进行了测试.实验结果表明,结合信息检索技术的半监督分类器的分类准确率相对于使用小样本构建的分类器具有较大的提高.更多还原