论文部分内容阅读
随着大数据处理技术的不断发展,互联网金融信息也进入了大数据时代。面对海量的互联网金融文本,使用自然语言处理技术对互联网金融文本进行实体识别已成为技术发展的必然趋势。命名实体识别是指识别文本中命名实体并执行分类,是自然语言处理技术中的重要基础。目前已有的命名实体识别模型不能有效的识别金融实体,互联网金融实体无法识别,则金融监管无从谈起。面向互联网金融实体的识别,本文提出了一种基于BERT的改进模型BERT-Bi GRU-STM。该模型结合了序列化标注模型(Sequence Tagging Model,STM)和BERT-Bi GRU-CRF模型的优点,提高了互联网金融实体识别的精确度。利用Le NER-Br数据集对该模型效果和其他模型进行验证,各项指标较其他模型均取得了最优。其中,该模型的F1值相比于STM模型提高了0.5%,相比于BERTBi GRU-CRF提高了2%。为了展示模型的识别效果,本文构建了一个互联网金融实体识别的可视化系统,系统功能包括互联网金融文本录入、分词标注、实体抽取、词频统计、名词关系展示等。本文提出的改进模型和实现的可视化系统可为金融监管、金融数据标注等提供技术支持。