【摘 要】
:
句子语义相似度计算是自然语言处理的重要任务,已在信息检索、信息抽取、文本分类、语义消歧、基于实例的机器翻译等众多自然语言处理领域获得广泛应用。目前,随着深度学习技术在NLP领域的深入应用,语义相似度计算任务主要利用大规模文本中词汇的上下文信息自动学习向量表示进而完成文本相似度计算,能够取得比传统方法更好的效果。由于深度学习缺乏可解释性使其发展遭遇不可突破的瓶颈。有观点认为,AI未来的科学突破是建立
论文部分内容阅读
句子语义相似度计算是自然语言处理的重要任务,已在信息检索、信息抽取、文本分类、语义消歧、基于实例的机器翻译等众多自然语言处理领域获得广泛应用。目前,随着深度学习技术在NLP领域的深入应用,语义相似度计算任务主要利用大规模文本中词汇的上下文信息自动学习向量表示进而完成文本相似度计算,能够取得比传统方法更好的效果。由于深度学习缺乏可解释性使其发展遭遇不可突破的瓶颈。有观点认为,AI未来的科学突破是建立一种同时基于知识和数据的AI系统,因此,在面向句子级别的语义相似度计算任务中,本文提出了两种融合知识的句子相似度计算方法。研究方法如下:1.提出基于SBA模型的句子相似度计算方法。SBA(Sememe-Bilstm-Attention)模型共有五部分组成:输入层、融合义原信息的向量层、Bi LSTM网络层、Attention层和输出层。首先将输入的词语通过融合义原信息的SAT模型转化为向量表示,然后输入到Bi LSTM网络层,接着通过注意力机制层对句子中词语计算权重分布,进而得到两个句子的相似度。与本文选用的基线相比准确率提升了6.5%。2.提出基于SBA-LRSF模型的句子相似度计算方法。把基于知网义原的句子相似度计算与基于深度学习模型的计算句子相似度计算方法进行融合,通过Bi LSTM网络对上下文语境进行编码,从Bi LSTM网络中加入知识分支,对输入句子中的词汇进行义原推断。通过比较两个输入句子的预测义原序列,得到融合知识分支的句子相似度,然后与SBA模型的句子相似度进行加权,准确率相对于SBA模型提高了1.4%。
其他文献
随着互联网信息内容的爆炸式增长,如何从海量信息中动态获取个人感兴趣的信息已成为当前研究热点之一。目前人们主要通过搜索引擎进行相关信息的检索。搜索引擎返回的信息往往是基于关键词的相关网页列表,而网页的来源错综复杂,如何基于网页发现与主题紧密相关的专业网站或专栏(本文简称“信源”)是本课题研究的重点。与网页检索相比,网站或专栏往往具有专题性强、信息质量高、动态更新等特点,更符合科技人员的研究需要。本文
明代因为西南地区尤其是云南边防价值的凸显,贵州以“通道”的作用得以建省,永乐十一年(1413)明成祖在废黜思南、思州二宣慰司的基础上设立铜仁、思南、思州等八府,隶贵州布政司。铜仁地区因川黔楚临界的特殊地理位置,又是苗民出入的咽喉,同时有着丰富的矿产资源而设立铜仁府。由于设立时的特殊目的和本着“因陋就简”的原则,铜仁府乃至整个贵州省建置不健全的问题有明一代始终存在。面对日益严重的苗患,铜仁府在面对周
本文主要讨论能量依赖速度的三阶特征值问题L(?)=((?)3+2q(?)2+qx(?)+p(?)+(?)p+r)(?)=λ(?)x及其相关的B argmann系统,并得到与之相对应的有限维Hamilton正则系统.首先,通过
本文主要对《新丝路·初级商务汉语综合教程》和《新思路·商务汉语综合教程》两部系列教材进行对比研究,这两部教材都由国内权威出版社出版,在对外汉语教学中使用较广。全文
随着猪人工授精技术在生猪养殖业中的广泛应用,精液保存技术迅速发展。由于猪精子结构的特殊性,目前猪精液常温保存是人工授精最常用的保存方法。众所周知,细菌污染和氧化应激是精液常温保存所面临的两大重要障碍。目前的研究表明,在稀释液中加入适当的抗氧化剂可以有效防止精子的氧化损伤,从而提高常温保存的精液品质。然而随着抗生素的禁用,新的抗生素代替策略逐渐成为了研究热点。壳聚糖具有改善动物生长性能、增强机体免疫
自密实混凝土具有工作性能好,不需要外力振捣的优点,近年来在工程界受到广泛欢迎。自密实混凝土胶凝材料用量大,会导致自密实混凝土抗离析性能差、延性差、抗拉性能差、早期易收缩干裂。添加纤维可以较好的改善干缩现象和抗拉性能,且混杂纤维可以达到更好的综合效果;纤维会改变混凝土内部微观结构,影响耐久性能,氯盐侵蚀是混凝土耐久性的一个重要课题,目前对于纤维自密实混凝土的抗氯盐侵蚀性能的研究相对较少。在前人研究的
随着社会的日益发展,人们早已不限于满足于物质生活需求,更多地考虑生活的品质化和精神层面的需要。壁饰设计在空间环境中有诗化空间、体现审美、烘托风格的作用,在一定程度上体现着空间主人的人文意趣与审美。运用汉绣工艺表现将笔墨元素融入壁饰设计之中,为壁饰设计注入新的文化内涵与更为多元的视觉呈现。本文以研究汉绣工艺在壁饰设计中的笔墨意象营造方法为主要方面。笔者通过查阅大量笔墨意象相关文献并进行理论分析、实地
传统化石能源的大量使用将会造成自然资源枯竭、地表气候变化、生态环境破坏等严重后果,光伏发电等可再生能源发电形式因它低污染、可再生等特点被尤其关注。吕梁市当地为营造适用于清洁能源的生产消费模式,充分利用自身优势条件和资源禀赋,逐步开始布局并不断加快太阳能光伏发电的项目建设。但光伏发电具有低惯性、随机性、波动性等特点,对于局部微电网的安全稳定运行具有较大的影响,光伏发电大规模接入电网会降低系统的转动惯
信息时代的快速发展,使得人们迫切希望找到一种超高容量,超高速,传输距离足够长的信息技术。全光通信是未来最具潜力的应用技术。光孤子通信是一种典型的非线性全光通信技术。基
随着科学的飞速发展,超声相控阵检测技术越来越受到业界的重视。超声相控阵检测技术的应用离不开对检测图像的解析,采用人工形式对检测图像中的缺陷进行评定难免存在误差,所以利用机器视觉技术识别超声相控阵图像缺陷,对于提高工业生产效率起到非常关键的作用。再者,最近一段时间深度学习在图像识别研究方面得到了长足的进步,其技术也日益成熟。Tensor Flow就是一种在实践中得到广泛认可的深度学习的框架。因此,本