面向法律领域的检索式问答系统构建方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:et789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全面推进依法治国,积极发挥法制在国家治理中的积极作用是我国的一项基本国策。自建国以来,我国公民的受教育程度有了很大提升,但当合法权益受到侵害时不会采取合法的途径解决问题,其主要原因是法律意识依旧淡薄。构建面向法律领域的问答系统可以为民众提供法律咨询,因此具有很大的应用价值。问答系统按照答案生成方式分为检索式问答系统和生成式问答系统。法律领域由于其专业性、严肃性,生成式问答系统效果不佳,而检索式问答系统效果则更好。然而构建面向法律领域的检索式问答系统仍然存在以下问题:(1)法律领域问答语料稀缺,缺少法律问答对知识库。(2)基于关键词的检索方法,忽视了问题答案间的语义信息,同时答案缺失关键词时,无法检索到正确答案。(3)目前文本匹配方法提取的是高层次特征,难以实现细粒度语义对齐。本文针对以上问题展开研究并取得了以下成果:(1)构建面向法律领域的问答知识库。采用爬虫技术从专业的法律咨询网站爬取被采纳的问题答案对构建问答知识库,并做降噪预处理。(2)提出面向法律领域的主题分类方法。该方法首先基于词向量的文本向量与标签向量融合得到单个文本表征,然后用自注意力图卷积神经网络提取文本的全局特征,输入分类器中,最终得到问题分类结果。在中文法律领域数据集和多个英文分类数据集的实验结果表明,该方法取得了比基线模型更好的效果。(3)提出基于BERT的多步骤细粒度问题-答案匹配方法。该方法首先用BERT(Bidirectional Encoder Representations from Transformers)对问题和答案分别做句子编码,然后多次使用门控机制对输入的信息做记忆蒸馏处理,最后对蒸馏保留的信息计算语义匹配度,并根据匹配的分数作为答案排序的依据,将Top-1返回用户。多个中文问答数据集的实验结果表明,本文方法是有效的。(4)搭建面向法律的检索式问答原型系统。以第一个研究点和第二个研究作为核心算法,并根据需求分析,应用flask和VUE框架,搭建面向法律领域的检索式问答系统。
其他文献
坡度频率分布是定量化研究地形坡度分布的一种常用方法,以全球陆地为研究区计算坡度频率分布,能够为进一步了解地球表面地形坡度分布特征提供信息,并为相关地学研究提供一个标准统一的参照系。本研究首先从空间分布和频率分布两个方面对比了现下主流30m分辨率DEM数据集:ASTER GDEM v3.0和SRTMGL1 v3.0,对坡度表达的稳定性,并最终证明了30m分辨率下SRTMGL1 v3.0数据产品更适用
同一场景可以通过多种传感器捕获多幅图像,每一图像包含不同信息,图像融合技术就是整合多个图像的互补信息,使融合后的图像对场景描述更加全面和清晰。如今,图像融合技术已广泛应用于遥感探测、医学诊断、国防安全、工业检测等领域。然而,现有融合技术仍然存在一些亟待解决的问题。比如,当要融合的图像受损时,现有的融合方法无法在融合处理过程中恢复出丢失信息。通过图像融合和矩阵完备的逐步操作可部分恢复图像的丢失信息,
发动机作为汽车的核心部件,具有类型繁多,结构复杂、零部件数量多等特点,其维修是汽车维修过程中的重点和难点。在发动机故障维修工作中,存在故障原因查找困难、零部件结构认知不准确、维修操作过程不规范、维修效率低等问题,仅依靠维修人员的维修经验和查询维修手册等传统方法很难保证发动机故障准确高效的维修需求。目前针对发动机故障维修主要依靠电脑诊断软件故障和维修人员依据故障现象和经验查找硬件故障这两种方式,而在
髋关节发育不良是一种在青少年和成年人群中常见的骨关节疾病。正常人的髋臼髋关节中心与股骨头中心近似重合,由于髋臼的发育缺陷导致髋臼的深度变浅、坡度变大从而使股骨头与髋臼的接触面积越来越小。髋臼与股骨头之间的受力面积减小,接触应力峰值增大,进而产生应力集中。应力集中会造成关节软骨的过度磨损,损坏关节软骨,最终发展成为髋关节骨性关节炎。髋臼周围弧形截骨术是治疗髋关节发育不良的一种新型的治疗方式。目前国内
铜电解是铜冶炼过程中的重要工艺,常因多方面电解工艺因素的影响,致使阴极铜板表面出现结瘤缺陷,严重影响其表面质量。考虑到在人工识别该缺陷的过程中,受内、外多方面因素的干扰,致使操作人员对铜板表面结瘤缺陷结果产生误判,影响最终决策合理性。针对上述问题,本文提出一种结合混沌鸟群算法的铜板结瘤缺陷图像识别方案,旨在提高企业生产的智能化,同时降低生产成本。主要工作如下:(1)分析了不同视角下采集铜板图像的差
赋有可变二维码的烟标因其在防伪溯源、宣传营销等方面的优势正逐渐成为主流的烟草包装形式。随着印刷企业赋码作业规模的持续扩大,其生产质量不稳定,印刷精细程度无法保证的缺陷越发突出。针对此问题,本文基于目前印刷企业中烟标可变二维码的整体喷印流程,首先进行了可变二维码喷印过程的数值模拟及墨滴形态的分析;其次进行了二维码喷印工艺参数对二维码符号等级的影响研究;最后对烟标可变二维码喷印质量优化进行了实验研究。
车联网(Internet of Vehicles,Io V)是一种因特网在车辆领域的应用。车联网的基础是车载移动互联网,并通过相关的通信协议相互连接的大型通信网络。在智能交通领域,Io V是最重要的组成部分。Io V负责将车辆相互连接起来,以达到消息共享、消息通信的目的。由于Io V开放的特性,攻击者可以截取实时广播的信标信息,通过分析所截取的信标信息获取驾驶人员的习惯、车辆运行的轨迹、驾驶人员的
近年来,深度学习的应用不仅在图像识别、文本生成等领域表现突出,在自然语言处理方面也效果显著。自然语言处理系统在生活中比比皆是,比如手机智能助手在理解用户请求之后,就能通过文字或语音的方式反馈用户信息。人类之间主要通过语言的方式进行沟通交流,以达到知识分享、扩展人际关系等目的。然而,目前全球在使用的语言超过五千种,要想精通多门语言是一项艰巨的任务。此时,机器翻译作为自然语言处理领域中的一个重要分支部
本文对驾驶行为特征进行了关联规则挖掘,以改进的K-means算法和改进的Apriori算法为主要研究目标,并使用标准UCI数据集和泰迪杯数据挖掘大赛中的驾驶行为数据集来验证算法的有效性。首先,将驾驶行为数据进行预处理,对异常数据进行清洗和删除,防止脏数据对挖掘结果的影响。由于Apriori算法本质上只能挖掘离散型数据之间的关联规则,而驾驶行为特征参数在空间上是连续的,因此根据K-means算法对驾
老挝位于东南半岛北部,属于东南亚国家,且与中国毗邻,作为“一带一路”倡议沿线国家之一,其发展命运紧密地和中国联系在一起。由于两国之间语言不通且国内外对老挝语的研究较少,这严重制约了两国的交流与发展,因此本文的研究为老挝语的研究提供了基础,对老挝语其他后续任务的研究提供了重要的研究价值,可以推动老挝语自然语言处理领域的进一步研究。通过对老挝语的语言组成成分、老挝语句子特征、以及老挝词结构特征的分析和