论文部分内容阅读
随着信息技术的不断发展,网页自动分类技术成为了Web领域的一个研究热点,它在信息检索、信息过滤等多个领域得到了广泛地应用。特征选择是实现网页自动分类的重要环节,它从初始特征空间中选出类别区分能力强的特征项以降低网页文本向量空间维数,提高分类器的分类效率和分类精度。本文在对中文网页自动分类相关技术研究的基础上,实现了分类系统中网页清洗、中文分词、去停用词、特征选择及权重计算生成向量空间模型等模块的基本功能,重点研究并实现了基于统计学习的文档频率、χ2统计量和信息增益特征选择算法。通过实验比较了上述三种特征选择算法的分类性能,实验结果表明基于χ2统计量的特征选择算法的分类性能要优于信息增益法和文档频率法,而文档频率法在特定特征项数目下与χ2统计量法分类性能相当,基于信息增益的特征选择算法虽然分类准确率不及上述两种算法,但其分类的稳定性与χ2统计量法相当,优于文档频率法。在对传统特征选择算法分析的基础上,本文针对它们各自的不足之处进行了相应的改进,并实现了改进的算法。针对传统文档频率法对全局高频特征项过分偏袒,致使特征优化选择出的特征项类间分布不均衡,导致部分类别分类性能低下的不足,本文实现了基于类内相对文档频率的特征选择算法,使用类内相对文档频率进行局部特征选择再取并集的方式取代传统的全局文档频率的特征选择算法。针对χ2统计量法当特征项数目递增到一定程度时对集中度高、文档频率较低、代表性不强的特征项倚重过大,从而导致分类性能骤降的不足,本文实现了将文档频率阈值与χ2统计量相结合的特征选择算法,去除了全局高频特征项和类内低频特征项,改善了传统χ2统计量法对低频特征项过分依赖的缺陷。由于信息增益法总体分类性能表现不佳,因此本文对其进行了全面改进,将类内词频、集中度和类内分散度综合考虑进信息增益法的评估函数中,并采取类内信息增益特征选择法取代了传统算法在类间取最大值的全局选择方式本文通过实现上述的改进算法,并将生成的向量空间模型带入分类器中进行实验,发现改进的特征选择算法对分类系统的性能均有不同程度的改善。