基于深度学习的高效网页分类技术的研究与分析

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:jiekoala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络通信技术的飞速发展,互联网逐步融入到日常生活的各个方面,网页数量更是呈现指数式增长趋势。面对海量且复杂的网页信息,如何高效地组织和管理这些信息日趋成为一个棘手的问题。网页分类作为互联网信息组织和管理的一个基础步骤,在搜索引擎、主题爬虫、恶意网页识别和维护目录式网站等许多应用中发挥着至关重要的作用。传统Web挖掘通常利用网页特征工程结合机器学习算法进行网页分类,然而随着网页结构的复杂化,网页的有效特征提取越来越困难,从而导致传统机器学习方法在网页自动分类上效果一般。因此,本文提出了基于深度学习的高效网页分类算法,针对网页的文本内容、标题等信息,利用深度神经网络,搭建一种多通道输入,复合特征抽取结构的分类模型。该模型能有效地提高网页分类的准确率,满足特定领域内网页的高效自动分类需求。本文的主要工作如下:1、分析了传统机器学习方法在网页挖掘中的优缺点并介绍了深度学习在网页分类中的特点和优势;阐述了网页数据的采集和存储技术;研究并分析了词向量技术;分析了注意力机制在网页分类问题上的可行之处;研究了卷积神经网络,循环神经网络的核心算法原理及科学应用。2、设计了基于深度学习的高效网页分类算法框架,包括数据采集和预处理;设计了词向量的预训练流程,为神经网络引入外部语义;针对网页标题、内容和结构设计了合理的神经网络特征提取模型,同时还将机器学习模型融入框架,设计了校正机制以提升分类效果。3、完成了基于深度学习的网页分类模型的训练和调优。利用了数据生成器和多GPU并行的方式对神经网络模型进行了高效训练,并在训练过程中实现了结果反馈机制;借助高效的训练方式,对算法模型进行了参数调优,并针对多次调优实验结果进行了详细分析。
其他文献
介绍了医用气体对于医疗救治工作的重要性,从医疗空气机组、应急功能、氧气输送管路、氧气应急气源自动切换装置等方面分析了各环节存在的关键风险点并给出了相应的改进和优
手机定位服务的盛行的确给我们带来了很多便利,它精准的移动追踪功能让亲友能够随时了解机主的所在位置,但同时也给很多人带来困扰。例如喜好查岗的女友借由
女人为爱而生,为幸福而美丽,而身穿婚纱时的女人无疑是最美丽的。芳龄28的selena已经是标准的晚婚女青年,计划在今年踏上红地毯的她一跟小编说起婚纱可是头头是道,人也变得神采奕奕起来,那我们就来看看她的收藏吧。    iWedding  婚纱摄影机构其实是韩国若干摄影工作室的集合,每个工作室的风格都不尽相同。    婚纱  婚纱礼服本就是舶来品,西式的礼服其实并不适合每一个东方人,所以在婚纱中特别
在各种储能装置中,超级电容器作为新型的电化学电容器,引起了人们的极大关注。超级电容器显著特点为高功率密度、长循环寿命和快速充放电。本文以磺化石墨烯(SGO)为基底,用简单