论文部分内容阅读
随着国家加大力度推进科学仪器设备的自主创新研发,科学仪器领域的信息服务支撑工作受到更广泛的关注。目前我国现有的信息化服务平台在信息共享和提高资源利用率方面取得了显著成效,但针对科学仪器领域的适用性、服务深度以及信息数据处理能力方面仍有所欠缺。本文依托国家科技部创新方法工作专项“科学仪器设备自主创新方法体系构建和保障研究”项目,针对上述问题,开展科学仪器领域知识服务的理论及技术方法研究,构建基于该领域的知识服务体系,整合、组织相关信息资源,以求推动领域知识服务工作的研究进展,为科学仪器设备自主创新提供全面的、高效的信息服务。科学仪器知识服务主要包含三个方面的内容:一是知识体系框架的搭建,为知识服务提供数据结构模型;二是知识内容的挖掘与组织技术,为知识服务体系框架提供准确、全面的数据资源,丰富框架内容;三是高效的分布式计算框架,支撑整个知识服务系统的数据处理与挖掘。因此,本文围绕上述三个主要内容展开研究。(1)科学仪器领域知识服务体系研究知识体系框架的构建是知识服务的核心内容,直接决定所提供服务的全面性和准确性。针对当前科学仪器领域知识服务体系研究相对薄弱的现状,构建科学仪器知识服务的体系框架,从科学仪器的学习、研发、生产和应用等多个角度组织科学仪器相关文献与信息资源,明确知识信息的组成结构和知识间的关联与映射关系,提出构建通用、可扩展的科学仪器知识库与设备库的数据模型,为知识服务提供原理框架支撑。按照框架设计的格式,将分析加工后的知识信息填充进框架当中,最终形成系统有效的科学仪器知识服务体系。(2)深度学习技术在知识服务中应用在对知识分析、提取的过程中需要应用到自然语言处理和图像识别技术,常见的技术手段依赖于人工干预和先验数据,并且提取知识高阶特征表示的性能有所不足。针对上述问题,通过将深度学习技术引入到知识服务的数据处理过程中,并且根据不同的应用需求改进传统深度学习模型,实现提升模型训练效果:提出一种应用于自然图像文字定位与识别的改进型降噪自动编码神经网络模型,自动编码阶段加入了神经元相互作用机制,增强了神经网络模型的识别能力,该方法在识别准确性上具有一定优势,并具有良好的通用性;针对信息资源中的中文文本进行分词,采用深度神经网络结构进行分词训练,与传统分词技术相比提高了分词的准确率;针对科学仪器领域中文文献的命名实体识别和语义分析问题,提出一种改进型Hierarchical Log-Bilinear深度神经网络统计语言模型,将无监督学习与有监督学习相结合,利用多层受限玻尔兹曼机训练文本词向量,并将训练好的词向量输入到前馈神经网络进行有监督训练,完成对中文文本内容的机器学习,有效提高语言模型的学习能力。(3)云计算技术在知识服务中的应用为提高知识信息大规模并行计算的执行效率,许多并行计算方法被提出,但在执行效率和扩展性方面仍存在提高的空间。针对此问题,通过搭建基于大规模集群的云计算框架,并采用分布式内存计算的方式,提升了平台的计算能力:为提高深度学习技术并行化学习效率,设计一种面向计算机集群的分布式内存计算框架,建立数据分片处理和多任务调度机制,使模型参数和神经元节点的计算并行地运行于该环境当中,避免了磁盘I/O对训练速率的影响,对深度信念网络模型以多个副本异步并行计算的方式进行训练,并使用dropout方法防止模型训练过拟合,该方法有效提升了深度神经网的训练效率。