【摘 要】
:
中文语句相似度计算是当前自然语言理解研究热点之一。目前一些传统的计算方法只考虑句子的句长、词序等表面信息,另一些考虑句子浅层语义的方法,均存在实用性上的表现不太理
论文部分内容阅读
中文语句相似度计算是当前自然语言理解研究热点之一。目前一些传统的计算方法只考虑句子的句长、词序等表面信息,另一些考虑句子浅层语义的方法,均存在实用性上的表现不太理想的问题。因此本文提出了一种针对相似度计算中的句子表示、语义特征抽取方法及正则化参数选取,研究基于深层自动编码器的中文语句相似度计算方法,主要分为以下两个方面:(1)针对句子表示,本文提出了一种以字为特征的单位的中文语句表示方法,该方法将句子表示为高维、稀疏向量;通过深度学习将高维、稀疏向量变换到低维,本质特征空间的语义特征抽取方法,此过程是一种更为纯粹的端到端的学习,避免了建立停用词表,分词等工作,最终得到可直接用于句子相似度计算的低维特征表示。(2)为解决实验过程中多次人工调优正则化参数导致模型训练时间长的问题,本文提出了利用一阶原点矩,二阶原点矩,方差和极大似然估计概念的推广的计算方法,简化模型训练过程。该方法通过对算法数据集[X,Y]中的X矩阵进行运算得到的四个?值。在手写数字识别的实验中,将该方法与贝叶斯正则化方法应用到实验中后的算法识别结果进行比较,在coursera数据集中正确率提高了1.14-1.50个百分点,在MNIST数据集中正确率提高了0.11-0.75个百分点。因而计算得到的?值应用到L2正则化方法与贝叶斯正则化方法相比更能使得算法的泛化能力强,证明了该算法的有效性。实验结果表明,利用本文方法提取到的句子特征应用于句子相似度计算与基于关系向量模型的句子相似度计算方法和基于词向量的Jaccard方法相比,提高了相似度计算准确率,计算的时间复杂度仅为O(n)。在本文句子相似度实验过程中,L2正则化方法的正则化参数?由二阶原点矩概念的推广计算而来。
其他文献
当前量子色动力学(QCD)相变研究的难题之一是如何定量地来表征解禁闭相变。本文以Polyakov-loop enhanced NJL(PNJL)模型为基础,对有限温度以及同位旋化学势下对偶的物理量作
伴随金融自由化、科技化进程的持续推进,金融创新的快速发展和金融主体间交易的增多,金融市场“稳健而脆弱”的特性被进一步催化,也使得银行、证券、保险等异质机构间风险溢
随着科学技术的不断发展和互联网的广泛应用,互联网金融模式应运而生,打破了商业银行原有的竞争态势。作为一种新兴的金融模式,互联网金融业务高速发展,具有方便快捷、效率高、产品多样化的优势,其依托于网络的经营模式,逐渐改变着人们的金融需求行为,越来越多的抢占了传统金融行业市场。在互联网金融环境下,探寻商业银行未来的发展道路成为迫切需要研究的内容。本文以互联网金融为研究背景,以C银行作为主要研究对象,运用
本文在支持向量机模型背景下,研究了各类分解算法及其应用。用基准数据集对最重要的SVMLight算法和SMO算法进行训练,并对不同核函数的实验结果进行比较;同时探讨针对不同的优化问题,如何选取合适的核函数。分位数回归是统计学和机器学习中的重要研究问题。本文在非一致抽样分布下,研究基于高斯核的在线分位数算法。通过引入阈值?到Pinball损失函数产生算法的稀疏性,用H¨older对偶空间刻画抽样分布的
近年来,"文山会海"现象受到政府和学界的重视。在基层治理中,多头下压的任务分配方式和全过程绩效考核为基层政府制造"文山会海"提供了制度条件。以形式创新为导向的激励模式
作为计算机视觉关键技术,图像语义分割具有重要的研究价值。为了解决传统方法的弊端,使目标更精确的从背景中提取出来,将深度学习与图像语义分割相结合,可以对目标有更好的理
玻璃纤维增强环氧树脂复合材料由于其优异的电气绝缘性能和机械性能广泛应用于电气绝缘领域,如用作复合绝缘子芯棒材料和干式电抗器绕组导体匝间绝缘材料等。玻璃纤维增强环氧树脂复合材料在制造过程中不可避免的会引入细微缺陷,这些缺陷导致的局部高场畸变将引发电树枝的生长。研究表明电树枝老化是导致玻璃纤维增强环氧树脂材料绝缘性能劣化的重要因素之一,但其生长特性尚不明确,生长机制有待研究。本文采用典型的针板电极系统
并购是企业发展到一定阶段后,为完成快速扩张、增强规模效应、获得协同效益、产业链扩展等一系列发展目标的重要手段之一。我国互联网行业上市公司近年登陆A股市场后逐渐热衷
大数据时代的来临,使得各种各样的网络服务充斥着人们的生活。人们享受着互联网技术带来的便利和对生活方式的改变的同时,数据安全的阴云也悄然笼罩。为了提供足够便利的服务,服务提供商在服务提供前和服务过程中往往需要收集大量的包含个人隐私敏感信息的用户数据,这样的场景非常常见。在这个过程中,对于收集的大量数据进行处理和使用带来了一系列的安全和隐私问题,引发了人们对个人隐私信息的普遍担忧。隐私不同于其他概念或
目的肝衰竭患者常伴有复杂的凝血系统功能紊乱,患者凝血系统中促凝因素与抗凝因素发生相对应的减低,被认为处于一种不稳定的“再平衡”状态。虽然INR是肝衰竭的诊断标准之一,但其对肝衰竭患者出血风险的预测价值仍待商榷,本研究试图对肝衰竭患者出血风险因素进行分析并综合各危险因素建立预测模型。方法本研究回顾性搜集2014年1月至2018年12月天津市第二人民医院ICU病房住院的肝衰竭患者249例结果。按照入组