论文部分内容阅读
近年来,随着网络通信技术的飞速发展,互联网逐步融入到日常生活的各个方面,网页数量更是呈现指数式增长趋势。面对海量且复杂的网页信息,如何高效地组织和管理这些信息日趋成为一个棘手的问题。网页分类作为互联网信息组织和管理的一个基础步骤,在搜索引擎、主题爬虫、恶意网页识别和维护目录式网站等许多应用中发挥着至关重要的作用。传统Web挖掘通常利用网页特征工程结合机器学习算法进行网页分类,然而随着网页结构的复杂化,网页的有效特征提取越来越困难,从而导致传统机器学习方法在网页自动分类上效果一般。因此,本文提出了基于深度学习的高效网页分类算法,针对网页的文本内容、标题等信息,利用深度神经网络,搭建一种多通道输入,复合特征抽取结构的分类模型。该模型能有效地提高网页分类的准确率,满足特定领域内网页的高效自动分类需求。本文的主要工作如下:1、分析了传统机器学习方法在网页挖掘中的优缺点并介绍了深度学习在网页分类中的特点和优势;阐述了网页数据的采集和存储技术;研究并分析了词向量技术;分析了注意力机制在网页分类问题上的可行之处;研究了卷积神经网络,循环神经网络的核心算法原理及科学应用。2、设计了基于深度学习的高效网页分类算法框架,包括数据采集和预处理;设计了词向量的预训练流程,为神经网络引入外部语义;针对网页标题、内容和结构设计了合理的神经网络特征提取模型,同时还将机器学习模型融入框架,设计了校正机制以提升分类效果。3、完成了基于深度学习的网页分类模型的训练和调优。利用了数据生成器和多GPU并行的方式对神经网络模型进行了高效训练,并在训练过程中实现了结果反馈机制;借助高效的训练方式,对算法模型进行了参数调优,并针对多次调优实验结果进行了详细分析。