基于深度学习的跨媒体科技资源立体精准画像研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:chans413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着科技的飞速发展,科研成果的数量以一种爆炸式增长趋势持续上升,每天会有近万篇新的学术文献被公开发表。伴随着移动互联网的兴起,各大学术机构和相关数据服务公司都对外开放了大量的学术数据,相关的科技资讯也趋于井喷式的爆发,增加了在科技内容之间的曝光度。以上资源一般包含有多模态类型数据,例如有文本和图像类型。不同模态间的资源信息数据结构具有巨大的差异,一般是以非结构化的形式进行展示。这会导致即使投入精力,也只是获取到大量的无效信息。如何从这些海量的科技资源中挖掘分析其核心有效信息具有非常重要的意义。本文完成的主要工作如下:(1)提出了科技资源信息的数据采集方案与基于深度学习的跨媒体语义特征提取算法以实现对跨媒体科技资源信息的语义特征提取。采用分布式爬虫技术与海量信息存储技术进行对科技资源信息的数据采集,并利用深度网络模型实现对科技资源文本与图像的语义特征向量提取。(2)提出了科技资源实体信息与实体关联关系挖掘与发现方法,提出了基于BERT融合局部特征的注意力机制的科技实体抽取算法(BBLAC),实现了对科技资源信息中无效信息的过滤,对核心有效信息进行抽取。实验结果表明,在抽取实体信息实验中本文算法结果指标均优于对比算法。提出了基于多重维度的科技资源实体关键词相似关系判定算法(MDESJ),实现了对科技实体间相似关联关系的扩充,完成对科技资源的立体画像。(3)提出了科技资源实体的跨媒体语义关联关系分析与抽取方法,提出了基于生成对抗网络与共享语义结构的科技资源跨媒体语义关联算法(SSGACA),使用跨媒体检索技术实现文本对图像的检索,以更为直观高效的图像方式展示出多模态信息,实现对科技资源立体画像的多媒体资源内容的补充。(4)设计并实现了基于深度学习的跨媒体科技资源立体精准画像系统。系统主要包含以下几个模块:基于深度学习的科技资源实体的跨媒体语义特征提取与表达模块、科技资源实体信息与实体关联关系挖掘与发现模块、科技资源实体的跨媒体语义关联关系分析与抽取。主要实现了以下几个功能:数据采集、科技资源立体画像、跨媒体科技资源检索与展示。并对系统进行了测试与验证。
其他文献
随着图像识别技术的快速发展,人脸血缘关系认证由于其重要的应用价值逐渐受到越来越多研究者的关注。作为一项新兴的生物特征识别技术,它具有许多潜在的应用价值,包括失踪儿童搜索、家庭相册管理和社交媒体分析等。不同于传统人脸识别问题,人脸血缘关系认证面临着更大的挑战,主要表现为相似性特征提取难度大、现有数据集规模较小。本论文从特征与数据这两个角度出发,提出了提升人脸血缘关系认证性能的多个方法,并设计可视化界