论文部分内容阅读
现如今,互联网成为了人与人之间共享知识、分享内容的主要平台,大量的文本数据被互联网所记录,对于这些结构复杂且内容多样化的信息,如何被用户所查阅或检索成为了一项重要的工作。网络问答社区中包含了大量的文本信息,面对如此庞大的信息量,利用多标签文本分类技术可以对文本信息进行分类,帮助用户在最短的时间找到自己所需要的问题话题。
多标签文本分类技术是指为每个文本打上一个或多个不同的标签,使得这些标签可以大致反映出文本的内容与适用范围,用户可以根据这些标签判断文本的信息,或通过标签检索出所需要的文本。深度学习作为机器学习中的一个重要领域,越来越多的被应用于多标签文本分类任务中,深度神经网络可以无须人工干预,自动化训练出合适的网络模型。其中卷积神经网络可以更好的提取文本局部特征,循环神经网络可以有效的处理序列文本,获取上下文特征。
知乎网站作为一个网络问答社区,包含了各式各样的文本信息,其中知乎问答系统成为人们最经常使用的模块。提问者发布话题标题和话题描述,并对其打上合适的标签,用户可以根据标签找到自己感兴趣的话题进行回答或者查阅。因此,本文将结合深度学习相关知识,采用非人工标注的方式为话题打上标签,并通过知乎话题数据对网络模型训练,计算并对比出不同网络模型的准确度。
本文引入标签相关性理论,提出基于统计的标签相关性假设,对标签之间的关系进行划分,利用爬取的知乎问答数据集验证标签相关性假设的正确性。将标签相关性概率模型与深度学习网络模型结合,在原有模型基础上,使用全连接层或局部连接层为原有模型的输出权重添加标签相关性信息,并针对局部连接层采用条件概率排序和权值共享等方式提高网络模型训练效率,结合实验对比出不同网络模型之间的结果差异,通过对结果的分析,验证标签相关性模型的可行性与准确性。
本文通过对比五种网络模型结果,分析模型之间的差异,得到不同模型的优缺点与适用范围。根据局部连接网络模型证明基于统计的标签相关性假设的正确性,对模型结果进行分析,得出引入标签相关性信息可以提高多标签分类准确率。
多标签文本分类技术是指为每个文本打上一个或多个不同的标签,使得这些标签可以大致反映出文本的内容与适用范围,用户可以根据这些标签判断文本的信息,或通过标签检索出所需要的文本。深度学习作为机器学习中的一个重要领域,越来越多的被应用于多标签文本分类任务中,深度神经网络可以无须人工干预,自动化训练出合适的网络模型。其中卷积神经网络可以更好的提取文本局部特征,循环神经网络可以有效的处理序列文本,获取上下文特征。
知乎网站作为一个网络问答社区,包含了各式各样的文本信息,其中知乎问答系统成为人们最经常使用的模块。提问者发布话题标题和话题描述,并对其打上合适的标签,用户可以根据标签找到自己感兴趣的话题进行回答或者查阅。因此,本文将结合深度学习相关知识,采用非人工标注的方式为话题打上标签,并通过知乎话题数据对网络模型训练,计算并对比出不同网络模型的准确度。
本文引入标签相关性理论,提出基于统计的标签相关性假设,对标签之间的关系进行划分,利用爬取的知乎问答数据集验证标签相关性假设的正确性。将标签相关性概率模型与深度学习网络模型结合,在原有模型基础上,使用全连接层或局部连接层为原有模型的输出权重添加标签相关性信息,并针对局部连接层采用条件概率排序和权值共享等方式提高网络模型训练效率,结合实验对比出不同网络模型之间的结果差异,通过对结果的分析,验证标签相关性模型的可行性与准确性。
本文通过对比五种网络模型结果,分析模型之间的差异,得到不同模型的优缺点与适用范围。根据局部连接网络模型证明基于统计的标签相关性假设的正确性,对模型结果进行分析,得出引入标签相关性信息可以提高多标签分类准确率。