【摘 要】
:
随着互联网和计算机科学技术的快速发展,人们对智能客服、机器翻译等人工智能应用的需求越来越多,对计算机处理人类自然语言能力的要求也越来越高。文本语义匹配作为自然语言
论文部分内容阅读
随着互联网和计算机科学技术的快速发展,人们对智能客服、机器翻译等人工智能应用的需求越来越多,对计算机处理人类自然语言能力的要求也越来越高。文本语义匹配作为自然语言处理技术中的核心内容之一,可将用户输入文本和计算机数据库中已有文本进行语义匹配,辅助计算机理解人类自然语言。由于中文语料字词表规模庞大,导致语料数据稀疏,字词表中元素对应的语义特征嵌入向量无法得到充分训练。同时,传统word2vec嵌入模型将字词表中元素固定映射为单一语义特征嵌入向量,无法实现元素多义表征。针对以上问题,本课题采用汉语拼音声母、韵母和声调作为字词表基本单位,解决中文语料字词表规模庞大的问题。同时,为实现拼音特征嵌入向量多义表征,本课题将拼音文本与基于Transformer的双向编码表示(BERT)嵌入模型相结合。通过多头自注意力机制根据拼音文本中元素的前后文信息实现拼音特征嵌入向量动态映射。另外,为提高嵌入向量的表征效果,本课题对现有BERT嵌入模型预训练方法进行改进,提出一种适用于文本语义匹配任务的预训练方法,并在拼音语料上对BERT嵌入模型重新进行预训练。实验结果显示,所提出的文本语义匹配模型在大规模中文问题匹配数据集上达到85.2%的F1值,优于文中其他基于词语或汉字特征并结合word2vec嵌入模型的文本语义匹配模型。这表明,通过结合嵌入向量动态映射方法并进行充分预训练,汉语拼音可以作为一种有效的特征,在大幅降低字词表规模的同时提高文本语义匹配模型性能。
其他文献
移动通信业务的迅猛发展推动了对第五代移动通信系统(The 5th Generation Mobile Communication Systems,5G)的研究,大规模分布式天线系统(Distributed Antenna System,DAS)
江户中后期至明治前期被认为是日本近代化的转型时期,是研究日本史的学者所关注的最重要的时期之一。这一时期,出现了许多颇具特色的思想家。他们在继承传统文化的基础上,又吸收了新的文化要素。其中的一个代表人物即为江户后期著名的经世思想家海保青陵(1755-1817)。不同于当时的农本主义经济思想,海保青陵对当时日本的社会经济现状有着清醒的认识,肯定了商业、营利活动的正当性,主张顺应商品经济的发展,从理论上
随着信息技术的高速发展和现代化计算机网络技术的普及,高校为了给学生提供良好的学习环境,购置了大数据实验教学平台,易分析教学平台,百度互联网营销平台等,以及大量的计算
随着社会的进步,我国物流产业不断发展,已经成为国民经济的重要组成部分。但是我国物流发展存在成本高、效率低的问题。物流配送环节是物流行业的一个重要环节,优化物流配送
本文通过对辉村清真寺管委会的历史渊源、现存形态、运作逻辑的考察,阐述管事在清真寺所承担的职责和拥有的职权,管事与社会个体、政府组织之间的互动和关联。以此来呈现当今辉村清真寺的管理机制,并进一步探究管事制度在当今社会结构下的运作形态。首先本文从村落的地理位置、历史脉络及经济形态交代了本研究的调查点,并从村落历史发展的进程展现了村落清真寺的相关情况,以此探讨清真寺对村落秩序建构的影响;继而,通过对辉村
磁流变材料主要包括磁流变液(MRF)和磁流变弹性体(MRE),其材料的刚度和阻尼系数在一定磁场强度的范围内可以通过改变施加磁场强度进行调节。这种可调刚度和阻尼的特性可应用
援外人力资源培训项目是中国政府开展对外援助的重要方式之一,也是与广大发展中国家进行交流合作的重要内容。长期以来援外培训在服务服从国家对外交往整体布局、促进经济贸
扩频通信具有抗阻塞性强、隐秘性好、可降低电磁干扰等优势,在蓝牙、移动宽带、测距定位、民用的数字蜂房等领域有着重要应用。因此,对信号的性能要求也在逐步提高,具有理想相关特性的信号逐渐成为学者们的研究重点。但是目前理想序列偶的研究成果还远不能满足工程需要,为此本课题的研究目的就是得到两种理想序列偶,即最佳屏蔽二进序列偶与伪随机屏蔽二进序列偶。首先,设计基于经典分圆和周期为pq的2-2阶广义分圆的屏蔽二
在传统的频谱资源分配中,节能机制对用户的影响也比较均衡。认知无线网络(Cognitive Radio Networks,CRN)把用户分为授权用户和未授权用户。本文基于动态频谱分配,在离散时间结构下,研究了CRN中的节能机制及性能优化问题。首先,为了提高未授权用户数据包的响应性能,引入提前唤醒阈值,提出一种基于(N,T)混合策略休眠模式的节能机制NT-ISM-ESS(Energy Saving S
不断扩大的网络文献库让科研人员能够充分全面地接触最新科研成果与专家学者。然而,庞大的数量意味着选择的困难,如今,这已经逐渐成为科研工作的主要困难。一方面,文献数量巨大让科研人员在调研学习过程中及其容易出现信息过载、学习迷航和学习回溯等问题;另一方面,为了节约科研时间,选择具备适当专业知识的潜在合作者进行共同学习是一种高效的工作模式。然而,怎样从全世界的专家学者中找出最合适的合作者仍然是极大的问题。