论文部分内容阅读
近年来,随着科技的飞速发展,科研成果的数量以一种爆炸式增长趋势持续上升,每天会有近万篇新的学术文献被公开发表。伴随着移动互联网的兴起,各大学术机构和相关数据服务公司都对外开放了大量的学术数据,相关的科技资讯也趋于井喷式的爆发,增加了在科技内容之间的曝光度。以上资源一般包含有多模态类型数据,例如有文本和图像类型。不同模态间的资源信息数据结构具有巨大的差异,一般是以非结构化的形式进行展示。这会导致即使投入精力,也只是获取到大量的无效信息。如何从这些海量的科技资源中挖掘分析其核心有效信息具有非常重要的意义。本文完成的主要工作如下:(1)提出了科技资源信息的数据采集方案与基于深度学习的跨媒体语义特征提取算法以实现对跨媒体科技资源信息的语义特征提取。采用分布式爬虫技术与海量信息存储技术进行对科技资源信息的数据采集,并利用深度网络模型实现对科技资源文本与图像的语义特征向量提取。(2)提出了科技资源实体信息与实体关联关系挖掘与发现方法,提出了基于BERT融合局部特征的注意力机制的科技实体抽取算法(BBLAC),实现了对科技资源信息中无效信息的过滤,对核心有效信息进行抽取。实验结果表明,在抽取实体信息实验中本文算法结果指标均优于对比算法。提出了基于多重维度的科技资源实体关键词相似关系判定算法(MDESJ),实现了对科技实体间相似关联关系的扩充,完成对科技资源的立体画像。(3)提出了科技资源实体的跨媒体语义关联关系分析与抽取方法,提出了基于生成对抗网络与共享语义结构的科技资源跨媒体语义关联算法(SSGACA),使用跨媒体检索技术实现文本对图像的检索,以更为直观高效的图像方式展示出多模态信息,实现对科技资源立体画像的多媒体资源内容的补充。(4)设计并实现了基于深度学习的跨媒体科技资源立体精准画像系统。系统主要包含以下几个模块:基于深度学习的科技资源实体的跨媒体语义特征提取与表达模块、科技资源实体信息与实体关联关系挖掘与发现模块、科技资源实体的跨媒体语义关联关系分析与抽取。主要实现了以下几个功能:数据采集、科技资源立体画像、跨媒体科技资源检索与展示。并对系统进行了测试与验证。