论文部分内容阅读
财经领域信息蕴含极大价值,分析财经领域信息对指导个人和社会经济活动具有重要意义。但是,财经领域信息数据量大,增长速度快,依靠人工处理费时耗力,难以充分利用这些信息。关系抽取技术可以自动化地抽取自由文本中的实体关系,领域内数据分析人员在抽取出的关系基础上进行数据分析,单位时间内可以分析更多的财经领域信息。因此,本课题的研究可以帮助领域内数据分析人员更加充分地利用财经领域信息,具有重要意义。财经领域信息具有一些明显的领域特点,这些特点导致现有的主流模型在财经领域这个特定领域上,关系抽取的精确率和召回率比较低。首先,财经领域信息句子长度普遍较长。其次,财经领域信息中存在一些单词具有特殊领域含义且与常见含义差别较大,还有一些领域特色的俚语表达。最后,财经领域信息一个句子中包含多个领域实体且不同实体对之间具有不同的关系类型。这篇论文针对以上问题提出了基于BiGRU和Attention机制的联合模型——BGAJM模型(BiGRU Attention Joint Model,BGAJM)。BGAJM模型对以上特点导致的问题,做了针对性改进以提高模型的精确率和召回率。该模型具有以下特点:(1)针对句子长度普遍较长的特点。BGAJM模型采用BiGRU作为隐藏层网络结构,和使用BiLSTM结构的模型相比,其结构更加简单、学习参数更少,在句子长度较长时,能更好地避免梯度消失或爆炸问题,这有助于模型学习到更有效的特征,进而提高模型的精确率和召回率。(2)针对一个句子包含多个实体且不同实体之间具有不同关系类型的特点。BGAJM模型利用Attention机制自动赋予不同单词不同权重,以抽取不同实体之间的关系。传统的使用单词与实体间距离作为特征的方法在句子长度较长时,距离特征稀疏且有很多噪声。与上述方法相比,BGAJM模型利用了区分度比较好的单词语义信息作为特征,同时使输入维度降低2倍句子长度,减少了计算量。(3)针对财经领域信息存在含义和常见含义差别很大的单词,以及俚语化表达的特点。BGAJM模型在词嵌入层采用了使用财经领域信息专门训练的词向量,这有利于BGAJM模型更好地学习单词具有的领域语义特征,进而提高模型的精确率和召回率。(4)BGAJM模型是一个联合模型,通过实体识别模块和关系抽取模块在训练中共享参数的方式进行联合,达到了在一个模型中完成实体识别和关系抽取的效果,避免了把实体识别和关系抽取作为两个独立的子任务所带来的错误传播问题,进而提高了模型性能。实验表明,在财经领域信息数据集上,采用能同时反应精确率和召回率的P-R曲线面积作为评价指标时,BGAJM模型和其他主流模型相比,P-R曲线面积提高了0.19,达到了0.87,取得了较好的效果。最后这篇论文基于BGAJM模型开发了财经领域信息抽取系统,该系统能自动地进行信息采集,然后进行关系抽取。经过测试,该系统具有较好的自动化程度,能大幅提高对信息的处理能力,有助于领域内数据分析人员更加充分地利用财经领域信息,达到了预期效果。