论文部分内容阅读
近几年来,随着互联网的蓬勃发展以及移动互联网时代的来临,人们的工作和生活越来越离不开互联网,互联网成为了人们获取相关信息和资讯的最主要渠道。所以需要更加高效的Web数据挖掘技术。网页分类是Web数据挖掘的基础技术,因而成为十分重要的研究课题。本文主要的工作围绕如何更加有效地对网页进行特征表示进行展开,分析了标签权重系数自动调优的必要性,介绍了各种优化算法的基本原理,详细分析了其各自的优缺点,着重介绍了差分进化算法,并设计了一种基于改进的差分进化算法的标签权重系数自动寻优方法,具体工作如下:(1)针对差分进化算法容易陷入局部最优解的缺点,提出了一种对差分进化算法的改进方法。与其他优化算法相比,差分进化算法具有更好的效率和全局寻优能力,但是其缺点也是显著的。差分进化算法的局部搜索能力较弱,从而使算法过早的收敛。为解决上述缺点,提出了一种对差分进化算法的选择策略进行改进的方案,并通过基准测试函数对其进行了验证,实验结果表明了改进方案的优越性。(2)针对现有的手工指定标签权重系数的缺点,设计和实现了一种基于改进的差分进化算法的标签权重系数自动寻优方案。网页中不同HTML标签的内容对网页的概述能力是不同的,在表述网页文本时,需要对不同的标签赋予不同的权重系数。现有的网页分类技术多基于个人经验对标签的权重系数进行手工指定,因而具有一定的随机性,且不能适应样本集的变化。因而,需要有效的优化算法对标签权重进行自动设定。本文设计的方案以一组标签的权重系数作为寻优对象,并使用本文提出的改进的差分进化算法作为调优方法,实验结果表明,该方案可以充分利用样本集的特性,可以有效地进一步提高分类的准确率。(3)设计了一个网页自动训练和预测系统,并在训练中加入了标签权重系数自动寻优功能。该系统包括HTML解析、分词、特征选择、特征表示以及分类模型设计等,同时包括本文提出的标签权重系数自动寻优模块。