【摘 要】
:
文本语义相似度计算研究的目的在于进行高效的信息筛选和帮助人类排除重复信息,在通用领域和临床医疗领域中有很强的应用价值。在通用领域,文本相似度计算可以帮助大量的文本信息进行筛选,其中深度学习和自然语言处理的应用对于文本语义相似度计算有着很好的表现。对于临床医疗领域来说,电子健康记录的大量使用导致医疗文本信息的冗余,通过语义相似度计算可以很好的避免医学信息冗余和组织错误的问题,所以,文本语义相似度计算
论文部分内容阅读
文本语义相似度计算研究的目的在于进行高效的信息筛选和帮助人类排除重复信息,在通用领域和临床医疗领域中有很强的应用价值。在通用领域,文本相似度计算可以帮助大量的文本信息进行筛选,其中深度学习和自然语言处理的应用对于文本语义相似度计算有着很好的表现。对于临床医疗领域来说,电子健康记录的大量使用导致医疗文本信息的冗余,通过语义相似度计算可以很好的避免医学信息冗余和组织错误的问题,所以,文本语义相似度计算在临床医疗领域的研究开始逐步增多。本文的研究是在通用领域与临床医疗领域中,利用复合深度学习的方法去进行文本语义相似度计算。在通用领域中,对文本语义相似度计算问题分析后,在之前的模型中,数据信息在长距离传播的过程中可能会丢失,这就造成模型可能无法掌握关键信息,从而导致模型的性能和表现变差,并且单一模型的表现在多数时候并不能达到最好。基于这些问题,本文采用了模型BERT-LSTM和平均集成学习的方法。本文的方法在通用领域数据集SICK中获得了最好结果。在临床医疗领域中,由于医学数据集本身的隐私性和来源不足的问题会导致了能够用于进行预训练的临床数据量存在不足。针对这个问题,本文主要使用半监督学习和数据增强的方法去直接和间接的提高单一数据集的使用情况。此外,为了进一步的提高模型关键信息获取的能力,本文使用了模型ALBERT和自我集成的方法。这个复合的改进方法在数据集ClinicalSTS中得到了最优的结果。
其他文献
朗读教学在语文学科中是极其重要的教学内容,也是非常必要的教学方法。它不仅存在于每一学段的课程目标中,更是体现在语文课程的性质、基本理念与设计思路上。在素质教育不断被强化、重视的当今社会,部编版语文教材也随之提升了朗读教学的地位。在初中语文教材的146篇课文中,明确有朗读要求的篇目共57篇。这也体现了朗读教学能够对语文学科人才培养目标和教学目标的实现起着重要的推动作用。初中阶段的学生正处在身心发展的
碳点(Carbon Dots,简称C-dots)是一种新型的碳纳米荧光功能材料。本论文研究目的在于合成稳定、高性能的近红外区域发光的有机染料碳点并作为诊疗剂应用于成像、光热、载药等领域。目前有很多碳点在蓝光至紫外光波段激发和发射,这样的碳点发射光波段与生物体组织自发荧光相似,造成荧光标记时结果变差和生物成像时图像的分辨率变低;另外,这些碳点受激发产生的紫外线对生物体细胞和组织会产生破坏。因此,短波
长期以来,由于我国人民对环境保护理念的淡漠,各类污水长期不经过任何处理便直接排入湖泊,营养物质的大量涌入造成水体开始呈现富营养化状态,蓝藻危机随之出现。从上世纪90年代开始,滇池里便开始出现蓝藻频频爆发的现象。蓝藻防控处置一直是滇池污染防治的重难点,也是评价滇池治理成效的重要依据。目前,滇池污染治理部门已初步构建了滇池蓝藻水华防控处置设施体系,通过藻站、藻车、藻船等设施,对蓝藻进行导流、聚集、抽吸
我国已建立了世界上规模最大的基本医疗保障网,对参保者的医疗服务利用有较大促进作用。在医疗待遇水平不断提升和医疗费用不断上涨的背景下,本文旨在研究基本医疗保险参保者的过度医疗服务利用问题,以期在基本医疗保险的存量改革时代,为完善医疗服务利用和基本医疗保险提供对策建议。本文通过梳理、比较与评价过度医疗服务利用的三种衡量标准,完善了拟选择的衡量标准的理论推导过程,阐明了该衡量标准的使用方法,从而构建了过
电磁波吸收材料对军工和民用的电磁防护具有举足轻重的作用。作为重要的传统吸波材料,铁氧体和钛基氧化物具有价格低廉、储量丰富等优势,受到广泛关注。然而,这类材料受限于阻抗匹配较差和单一的电磁波损耗机制,因此存在吸收强度低、频带覆盖范围窄的缺点。将磁性金属、介电材料和电导材料结合,是克服上述问题的有效手段。因此,调控复合物各组分比例获得优化的阻抗匹配并协同发挥多种损耗机制的作用,从而开发出具有优良吸波性
《义务教育语文课程标准(2011版)》认为,语文综合性学习课程需要注意调动学生的参与积极性,并着重强调学生在参与过程中的独立学习能力与合作精神的培养,进一步提高学生在活动中的策划实施能力和组织协调能力。区别其他学习的形式,在语文综合性学习中小组合作学习的重要性更加突出,学习的深度与广度也大大提高,且更能充分有效的培养学习者的语文综合能力。在当前素质教育的背景下,小组合作学习的运用对语文综合性学习教
目标跟踪通常以视频序列第一帧中感兴趣目标区域建立目标模板,在后续序列中对此目标进行探测跟踪。目标跟踪为目标的行为理解和分析提供了重要的基础信息,有着广泛的应用前景。虽然当前目标跟踪技术,尤其是近几年基于孪生深度网络的目标跟踪算法取得了较快的发展,但是在跟踪过程中,通常存在复杂跟踪场景和预训练模型表观能力不足等影响因素,导致算法预测目标框不准确的问题,即出现算法的预测目标位置偏离真实位置或者跟丢的情
最大熵模型中的最优化算法包括迭代尺度算法和拟牛顿算法,是典型的分类算法,但分类效果有待提高。由于分数阶微积分良好的全局性,本文结合分数阶微积分,对两种优化算法进行分数阶拓展,得到分数阶迭代尺度算法和分数阶拟牛顿算法,并设计实验验证两种分数阶优化算法的性能。本文首先结合分数阶微积分的理论,将整数阶的迭代尺度算法、拟牛顿算法与分数阶微积分联立,推导出分数阶迭代尺度算法和分数阶拟牛顿算法的数学表达式。然
随着大科学工程的不断推进,大口径、大视场天文观测仪器陆续投入使用,数据规模越来越大,复杂求解需求持续攀升。在高分辨太阳图像重建时,采用选帧位移叠加法和斑点掩模法,难以高效满足实时重建的需求。目前,现有处理方式还停留在CPU单进程或线程模式上,很容易导致CPU和GPU利用率低下,造成系统资源的浪费。解决这一问题的关键就是要对现有算法进行改进,提高CPU与GPU的协同并行计算能力。本文针对NVST中L
无迹卡尔曼滤波(Unscented Kalman Filter,UKF)算法因其具有精度高、复杂度低等优势广泛运用于无人自动驾驶、移动机器人定位等领域。随着目标领域对自主能力需求不断提高,UKF算法在这些领域还存在实时性较低等问题。FPGA(Field Programmable Gate Array)具有高并行性、高速、低功耗及重构性等优点,利用其优势实现UKF算法能够提高算法在目标领域的实时性,