论文部分内容阅读
信息抽取是指从非结构化或者半结构化的文本中标明用户感兴趣的内容,并且将其组织成结构化文本的过程。在这个知识爆炸的时代,需要信息抽取技术快速准确地提供海量文本中的重要内容。深度置信网络(DBN,DeepBeliefNets)网络是近年兴起的机器学习模型,它结合了无监督学习过程和有监督学习过程,在图像处理领域已取得巨大成就,但是在信息抽取领域的运用还有待开发。本文利用DBN网络进行以下两个任务:(1)中文实体检测与识别任务(2)中文实体关系检测与识别任务研究内容主要有以下四点:(1)研究DBN网络在实体检测与识别任务中的运用。实体检测与实体识别可以顺序进行,即按任务顺序建立两个模型,也可以组合进行,即在一个模型中同时得出检测与识别的结果。本文利用DBN网络按照这两种策略分别建立实体检测与识别系统。实验模型分别基于词特征和字特征展开,以比较这两种特征提取形式结合DBN网络后,在实体检测与识别任务中的优劣。实验还对不同神经元数量的浅层DBN网络的结果,浅层DBN网络与深层DBN网络的结果,DBN网络与其他机器学习模型的结果进行了比较,阐述了它们各自的特点。(2)引入维特比算法对DBN网络的实体检测与识别结果进行后处理,进一步提高DBN网络对实体检测与识别的结果。进行实体检测与识别任务时,DBN网络忽略了当前字符与上下文字符的标记限制,本文利用维特比算法对DBN网络输出结果进行后处理,寻找最大概率的标记序列,剔除不符合逻辑的标记。本文分别采用了实际概率和二元概率进行维特比后处理。实际概率由训练语料统计得到,贴近实际情况但是不一定适合测试语料。二元概率赋予符合逻辑的状态同等概率,降低了对标记序列的限制。(3)研究DBN网络在实体关系检测与识别任务中的运用。本文利用DBN网络建立实体关系检测和实体关系识别顺序进行的系统,以及实体关系检测与实体关系识别组合进行的系统。实验依然是在词特征和字特征两种字符特征上展开,比较两者对于此任务在DBN网络中的适用性。关系样例的特征组合包括一元字符特征,实体相对位置特征和依存树特征等7种特征。实验分别在不同神经元数量的浅层DBN网络和深层DBN网络上进行,以确定最好的网络结构。并且将DBN网络的结果与其他机器学习方法的结果对比,验证深层DBN网络是适合于实体关系检测与识别任务的模型。(4)使用两种方式改进DBN网络的学习过程,使它的实体检测与识别任务的结果得到优化。利用梯度下降法进行有监督学习会遭遇“导数消亡”问题,网络的错误信息很难传送到靠近输入端的隐含层,所以底层的参数得不到有效的训练,导致深层网络的效果反而不如浅层网络,或者深层网络的效果提升不明显。本文改进DBN网络的训练过程:a)每增加一层隐含层时,都调用有监督学习过程对通过无监督学习过程初始化的网络参数进行学习。b)为每一层隐含层添加一个输出层,使用有监督学习过程为通向这些输出层的隐含层进行参数学习。最后本文将这两种改进的DBN网络运用到实体关系检测与识别任务,检验它们的效果。