论文部分内容阅读
随着信息社会的发展和Web2.0时代的到来,要从海量数据中找寻可靠的信息变得更加困难。得益于大数据和人工智能等新一代技术的迅猛发展,科学的领域问答系统被寄予厚望。领域问答系统将用户的自然语言问句转换为结构化查询语句,通过领域知识库中的三元组获取相关信息,并以准确、简洁的自然语言回答问题,可有效消解用户知识焦虑。由于传统的领域问答系统存在规则制定复杂、特征工程繁琐等不足,将深度学习技术应用到领域问答系统中已经成为了自然语言处理研究的热点之一。针对上述现状,本文研究了基于BiLSTM(Bidirectional Long-Short Term Memory)网络的领域问答系统若干关键技术,主要工作有:(1)针对统计机器学习方法依赖于特征工程,以及卷积神经网络池化后会丢失部分语义信息的不足,本文提出了一种B-CNSR问句分类模型。B-CNSR模型融合了词向量和词性特征得到问句的分布式表示,利用BiLSTM网络和结合静态路由算法的胶囊网络提取文本的上下文时序信息以及局部特征信息,实验的结果表明本文所提出的模型具有更好的问句分类效果。(2)由于中文序列标注任务中存在一词多义和词语没有明显边界等问题,本文提出了一种Bw-BC实体槽位填充模型。Bw-BC模型使用结合上下文词语信息的BERTwwm预训练语言模型动态生成词向量,并利用BiLSTM网络结合CRF算法提取文本的上下文时序信息和相邻标签之间的关系信息,实验的结果表明本文所提出的模型在识别效果上有所提高。(3)本文基于上述两种模型开发了一套面向医学领域的Web问答原型系统。该系统将用户输入的自然语言问句进行问句分类和实体槽位填充,在线生成答案。经试运行检验,该原型系统可稳定实现上述功能,下一步还需要扩充领域知识库,并对系统进行完善。