论文部分内容阅读
不良信息特征项的挖掘精度制约着不良信息鉴别与过滤的效果。文章从数据挖掘的角度对不良信息特征项的识别进行研究,提出了一种自动高效地挖掘文档潜在特征项的新方法:首先对文档进行必要的预处理,包括自动分词、无用项过滤、项标引以及项的分箱操作等,然后利用数据挖掘中的关联分析技术识别文档中的特征项。试验结果验证了该方法的可行性。