论文部分内容阅读
随着信息技术的不断发展,网页的数量也在成倍的增加,如何通过网页自动分类技术有效的组织和管理这些海量数据已经成为Web领域的一个研究热点。分类算法是实现网页自动分类的一个重要环节,它的优劣直接决定了分类系统的分类效率和分类精度。文本分类由文本预处理、特征空间的建立、分类器的生成以及分类结果的评估这四个部分构成。本文在网页自动分类相关技术的理论研究基础上,根据网页内容实现了网页分类,其中包括使用正则表达式完成网页清洗、对网页的正文分词、对照停用词表去停用词、通过基于文档频率的特征选择算法建立特征空间、使用向量空间模型表示网页、使用分类器分类和分类结果评估。重点研究并实现了最近邻分类算法和支持向量机算法,通过实验对比上述两种算法的分类性能。实验结果表明,最近邻分类算法的分类结果要优于支持向量机算法的分类结果,但是所花的时间也比支持向量机要长一倍。在对传统分类算法分析的基础上,针对它们各自的不足通过C#实现了相应的改进算法。针对传统的最近邻分类算法在训练样本数据分布不均匀的情况下会出现误判导致分类效果差的不足,本文实现了基于样本密度改进的最近邻分类算法,通过增大训练样本稀疏区的平均文本相似度,降低训练样本密集区的平均文本相似度,达到改善分类效果的目的;针对支持向量机在多类别分类中分类结果不理想的情况,本文实现了基于最近邻和支持向量机融合的分类算法,先对测试样本用最近邻分类算法进行粗判断,得到测试样本的候选类别,然后再使用支持向量机算法从候选类别中选出最佳类别,达到提高分类效果的目的。实验结果表明,基于样本密度改进的最近邻分类算法的分类效果和组合算法的分类效果均要比传统的两种分类算法的分类效果好,且组合算法的分类效果也要优于基于样本密度改进的最近邻分类算法的分类效果。最后本文在网页自动分类相关技术的理论研究和分类算法实验分析的基础上,设计并实现了基于文本挖掘的网页分类系统。系统包括训练和分类两个功能模块。