基于海量文献的中国生物医学专家库构建关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:qzjp16300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学是关系到人类医疗诊断水平和生命健康的重要领域。生物医学文献作为相关领域知识的重要信息载体,记录着生物医学技术的研究和发展。近年来,生物医学领域的文献数量呈指数型快速增长。对于渴望加入生物医学细分领域的新学者,他们需要进行大量的资料收集、阅读、统计和分析以寻找该领域优秀的学者和出色的团体。面对海量的生物医学文献,现有的在线数字文献图书馆功能虽然支持根据作者相关信息(姓名、机构、邮箱地址)和文献信息(摘要、标题)等进行文献检索,但却往往面临作者重名、姓名同音等容易产生歧义的情况。作者名称消歧(Author Name Disambiguation,AND)是构建领域专家图谱的前提。作者名称消歧指对同名作者的文献集合根据现实世界中作者进行分组。快速准确地将同名作者的文献分组能有效提高在线文献数据图书馆的数据管理效率和用户获取数据的准确性。本文主要目标是在海量生物医学文献条件下,提高作者名称消歧的准确性并提升作者消歧的速度,同时建立生物医学领域的专家库,主要贡献如下:1、基于文献挖掘的同名作者消歧方法。通过挖掘文献的作者名称、机构、共同作者和文献摘要等信息,对同名作者的两两文献的特征进行建模。在建模过程中,本文综合考虑了文献特征的多种表达方式,并且额外引入生物医学领域相关的领域信息作为辅助特征进行建模。2、海量文献作者名称消歧的并行加速方法。对于海量生物医学文献,作者同名的情况严重,相关计算开销大,耗时很长。为提高计算效率,本文提出基于同名集合的并行加速方法和基于文献相似度矩阵的并行加速方法。并在实际应用中采用两种方法结合的混合加速策略。3、构建生物医学领域中国专家库并实现知名专家发现系统。利用作者名称消歧的结果,生成作者每篇文章的领域,获取得分Top5领域作为作者所属领域。结合作者的基本信息(机构、email、共同作者等)构建领域专家库,最后搭建专家发现系统。为了衡量作者名称消歧模型的效果,本文在公开的数据集上验证了模型的有效性。同时在并行加速部分,通过混合并行策略,保证并行效率并有效降低了计算时间。
其他文献
语音、图像、文字等作为传承世界文明的载体,极大程度地丰富了世界文明发展史,一直是学术界与工业界研究的重点,随着数字化社会的不断发展,人们希望从这些载体中提取到更有用的信息,当这些信号以矩阵形式进行表示并进行运算时,可以解决生活中的实际问题。本文主要以语音分离为研究背景,针对语音分离过程中矩阵分解效果与效率问题进行研究。首先,由于分离场景的不确定、分离对象为多说话人混合语音信号,存在信号特征表达不充
为了丰富水下铁磁性目标探测手段,弥补声纳探测方式的不足,磁异常探测作为非声探测的主要方式受到了越来越多国家的重视。而超导量子干涉仪(SQUID)作为目前最为灵敏的磁传感器之一,能够将微小的磁场变化转化为可以测得的电压信号,可以将磁异常探测灵敏度成数量级的提升。低温直流超导量子干涉仪(DC-SQUID)是各类SQUID器件中的一种,具有噪声低、灵敏度高、结构稳定等特点,本文基于DC-SQUID器件,
磁浮列车依靠电磁力实现与轨道无接触运行,是一种新型轨道交通系统,其中悬浮系统是支撑磁浮车辆的核心关键系统。悬浮系统故障不仅包含了各个部件的完全失效,也包括了由于长时间运行导致性能退化产生的微小故障,不论是哪种故障的发生,都有可能影响磁浮列车正常运行,因此对磁浮列车悬浮系统的故障诊断问题进行研究十分必要。在国家“十三五”重点研发计划课题任务“永磁电磁混合悬浮系统建模、故障诊断与容错控制研究”支持下,
本文以某巡航导弹的毁伤为研究内容,主要使用仿真计算等方法对破片战斗部毁伤巡航导弹进行了研究,以实现对破片战斗部打击巡航导弹目标的毁伤效能评估。首先,对巡航导弹目标进行了系统地调研,分析了目标的结构、材料、战场作用以及毁伤模式等,建立了目标的毁伤树,拟定了目标的毁伤判定依据,得到了目标各个舱段的等效靶模型;其次,对破片侵彻巡航导弹各个舱段进行了数值模拟研究,对巡航导弹不同舱段遭到毁伤的机理和现象进行
我国国内疫情的反复致使我们与新冠肺炎疫情进入了拉锯战中,可以说我们进入了后疫情时代,疫情的出现导致商业实体经济受挫严重,本文以后疫情时代下郑州商业实体经济的发展为题展开分析:通过对疫情前后郑州商业实体经济情况进行阐述,分析郑州商业实体经济发展的困境原因:第一,电子商务高速发展对于商业实体经济的冲击;第二,郑州商业实体经济配套设施不完善、专业人才不多;第三,郑州商业实体经济品牌建设力度不足、推广效果
随着深度学习的成功应用,计算机视觉领域也有了飞跃性发展。超分辨率技术(Super Resolution,SR)是计算机视觉领域下的一个分支,目标是能够从一张或多张低分辨率图像重构出高分辨率图像,使图像纹理更加清晰、视觉效果更加自然并符合人的视觉感受。目前超分辨率技术已被成功地应用于交通监测、卫星遥感、图像识别与目标跟踪等诸多领域中。本文在基于生成对抗网络的模型上进行改进,设计了一个能将图像分类训练
军用车辆作为战斗人员与武器装备的运输工具,在现代战场中发挥着重要的作用。由于面临的特殊战场环境,机动性能是保证军用车辆发挥运输作用、完成作战目的及提高生存能力的重要前提。随着战场的转移与战争形式的变化,军用车辆在松软路面的行驶特性研究显得尤为重要。在机动过程中,军用车辆的战场机动性主要由车辆与地面的相互作用决定,因此目前的研究重点是轮-壤相互作用。本文结合军用车辆的研究背景,针对现有理论未考虑车辆
海上搜救应急处置能力是海上生命与财产安全的重要保障,同时也是建设“海洋”强国的重要工作内容,开展海上搜救应急处置资源方案生成方法的研究有助于提高我们国家的海上搜救应急处置能力,同时对提高中国的海洋“软实力”也具有积极作用。目前,我国海上搜救应急处置过程中存在搜救效率较低,搜救决策科学性不足以及搜救资源不能合理利用等问题,针对上述问题,本文对海上搜救资源方案生成问题进行了研究,设计了基于“初始优化+
新型冠状病毒肺炎疫情在全球爆发,面对海量的出行轨迹、资源分配和疫情防控等数据,如何从中挖掘出有用的信息对疫情进行联防联控显得十分重要。聚类作为数据处理的基本工具在我国精准施策过程发挥了十分积极的作用。由于非负矩阵的可解释性,非负矩阵分解已成为基于局部表示整体的重要表达形式。它已成为用于聚类任务的数据分析工具。非负矩阵分解(NMF)是用于聚类任务的经典数据分析工具并且通常NMF考虑平方损失来衡量重构