论文部分内容阅读
随着我国经济的快速发展以及城市化进程的推进,桥梁的工程建设和运营维护进入了新的发展阶段。为保证桥梁的健康安全,业界通过桥梁定期检测掌握桥梁的结构状况,并在定期检测的过程中生成了大量的桥梁检测报告。桥梁检测报告中包含了丰富的与桥梁健康状况密切相关的知识和技术细节,对这些关键的信息进行挖掘和提取对桥梁后期的运营与维护提供了依据与决策支持,是构建桥梁检测领域知识库的基础,对提升桥梁健康管养智能化水平具有十分重要的意义。
桥梁检测文本由于其结构特点和语言特点,使得主流的命名实体识别和实体关系抽取方法不能取得很好的效果,给自然语言处理在桥梁检测领域的发展带来了巨大挑战。由于现有桥梁检测文本数量的匮乏以及大规模语料标注所面临的困难,本文在构建小型桥梁检测领域语料库的基础上,采取基于半监督学习的信息抽取方法来克服上述问题。本文的工作内容主要围绕以下几个方面进行研究。
(1)本文首先收集了大量桥梁检测文本并分析其结构特点和语言特点,确定了桥梁检测领域信息抽取任务的目标对象和主要内容,并在抽取出少量桥梁检测文本,根据业界桥梁检测标准中的内容,在专业人员指导下,撰写了语料库的标注规范,建立了小型的桥梁检测领域信息抽取语料库,为信息抽取任务提供了数据保障;
(2)针对桥梁检测文本标注数据匮乏的问题,本文采用半监督学习的方式,利用少量的标注数据和大量的未标注数据,通过置信度的计算扩展标注数据集。针对Bootstrapping算法中产生语义漂移的缺点,本文借鉴了集成学习中Bagging算法的思想,以统计机器学习中主流的条件随机场为基础模型,融合了桥梁检测文本的统计特征和语义特征,提出一种结合了集成学习思想的半监督学习命名实体识别方法,并在后续实验中取得较好的命名实体识别效果;
(3)本文在桥梁检测领域命名实体识别任务的基础上,对桥梁检测文本中各个实体之间存在的关系进行抽取。本文根据桥梁检测文本的特性,提出了面向于桥梁检测领域实体关系抽取任务的特征表示方法,采用半监督学习中的协同训练算法应对标注数据缺乏的问题,并对初始分类器的选择和组合以及训练过程中置信度的计算方式进行了一定的改进,有效提升了模型在迭代过程中实体关系抽取的效果。实验证明,本文采用的桥梁检测领域实体关系抽取方法即使在少量标注数据的条件下也能够取得较好的实体关系抽取效果。
桥梁检测文本由于其结构特点和语言特点,使得主流的命名实体识别和实体关系抽取方法不能取得很好的效果,给自然语言处理在桥梁检测领域的发展带来了巨大挑战。由于现有桥梁检测文本数量的匮乏以及大规模语料标注所面临的困难,本文在构建小型桥梁检测领域语料库的基础上,采取基于半监督学习的信息抽取方法来克服上述问题。本文的工作内容主要围绕以下几个方面进行研究。
(1)本文首先收集了大量桥梁检测文本并分析其结构特点和语言特点,确定了桥梁检测领域信息抽取任务的目标对象和主要内容,并在抽取出少量桥梁检测文本,根据业界桥梁检测标准中的内容,在专业人员指导下,撰写了语料库的标注规范,建立了小型的桥梁检测领域信息抽取语料库,为信息抽取任务提供了数据保障;
(2)针对桥梁检测文本标注数据匮乏的问题,本文采用半监督学习的方式,利用少量的标注数据和大量的未标注数据,通过置信度的计算扩展标注数据集。针对Bootstrapping算法中产生语义漂移的缺点,本文借鉴了集成学习中Bagging算法的思想,以统计机器学习中主流的条件随机场为基础模型,融合了桥梁检测文本的统计特征和语义特征,提出一种结合了集成学习思想的半监督学习命名实体识别方法,并在后续实验中取得较好的命名实体识别效果;
(3)本文在桥梁检测领域命名实体识别任务的基础上,对桥梁检测文本中各个实体之间存在的关系进行抽取。本文根据桥梁检测文本的特性,提出了面向于桥梁检测领域实体关系抽取任务的特征表示方法,采用半监督学习中的协同训练算法应对标注数据缺乏的问题,并对初始分类器的选择和组合以及训练过程中置信度的计算方式进行了一定的改进,有效提升了模型在迭代过程中实体关系抽取的效果。实验证明,本文采用的桥梁检测领域实体关系抽取方法即使在少量标注数据的条件下也能够取得较好的实体关系抽取效果。