基于半监督学习的桥梁检测文本信息抽取关键技术研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:zondy_gongqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济的快速发展以及城市化进程的推进,桥梁的工程建设和运营维护进入了新的发展阶段。为保证桥梁的健康安全,业界通过桥梁定期检测掌握桥梁的结构状况,并在定期检测的过程中生成了大量的桥梁检测报告。桥梁检测报告中包含了丰富的与桥梁健康状况密切相关的知识和技术细节,对这些关键的信息进行挖掘和提取对桥梁后期的运营与维护提供了依据与决策支持,是构建桥梁检测领域知识库的基础,对提升桥梁健康管养智能化水平具有十分重要的意义。
  桥梁检测文本由于其结构特点和语言特点,使得主流的命名实体识别和实体关系抽取方法不能取得很好的效果,给自然语言处理在桥梁检测领域的发展带来了巨大挑战。由于现有桥梁检测文本数量的匮乏以及大规模语料标注所面临的困难,本文在构建小型桥梁检测领域语料库的基础上,采取基于半监督学习的信息抽取方法来克服上述问题。本文的工作内容主要围绕以下几个方面进行研究。
  (1)本文首先收集了大量桥梁检测文本并分析其结构特点和语言特点,确定了桥梁检测领域信息抽取任务的目标对象和主要内容,并在抽取出少量桥梁检测文本,根据业界桥梁检测标准中的内容,在专业人员指导下,撰写了语料库的标注规范,建立了小型的桥梁检测领域信息抽取语料库,为信息抽取任务提供了数据保障;
  (2)针对桥梁检测文本标注数据匮乏的问题,本文采用半监督学习的方式,利用少量的标注数据和大量的未标注数据,通过置信度的计算扩展标注数据集。针对Bootstrapping算法中产生语义漂移的缺点,本文借鉴了集成学习中Bagging算法的思想,以统计机器学习中主流的条件随机场为基础模型,融合了桥梁检测文本的统计特征和语义特征,提出一种结合了集成学习思想的半监督学习命名实体识别方法,并在后续实验中取得较好的命名实体识别效果;
  (3)本文在桥梁检测领域命名实体识别任务的基础上,对桥梁检测文本中各个实体之间存在的关系进行抽取。本文根据桥梁检测文本的特性,提出了面向于桥梁检测领域实体关系抽取任务的特征表示方法,采用半监督学习中的协同训练算法应对标注数据缺乏的问题,并对初始分类器的选择和组合以及训练过程中置信度的计算方式进行了一定的改进,有效提升了模型在迭代过程中实体关系抽取的效果。实验证明,本文采用的桥梁检测领域实体关系抽取方法即使在少量标注数据的条件下也能够取得较好的实体关系抽取效果。
其他文献
学位
近年来,随着工业自动化的发展,传统现场总线由于其带宽及吞吐量等限制,已经无法满足现代工业的要求。实时以太网以其成熟的特性已成为自动化领域中不可或缺的技术。EtherCAT(Ethernet control automation technology)作为实时工业以太网的代表,以其速率快、实时性好、拓扑灵活等特点在工业自动化领域得到广泛应用。然而目前国内EtherCAT主从站的实现还需要依赖国外专用
随着工业系统的规模日趋增大,系统元件的多元化,复合故障出现的概率大大增加。复合故障由于其故障模式的多样性,故障形式的复杂性,为其诊断带来了困难与挑战。然而,针对单一故障的故障诊断方法难以精确的识别出复合故障的所有故障模式。因此,本研究在国家自然科学基金“基于流形学习的风电系统传动部件多故障诊断及退化状态识别”,重庆市研究生科创项目“考虑多征兆特征分析的复合故障诊断方法研究”等基金的支撑下,针对复合
学位
股票市场在当今经济生活中受到越来越多关注,其走势受到经济、政治、文化等多种因素影响,运行规律复杂,准确把握市场规律有助于交易者获利。相对于常规价格预测,投资者更喜欢找到股价反转模式,因此对K线反转模式挖掘分析就显得尤为重要。  本文以股票历史数据为研究对象,首先针对线性分段函数无法有效划分K线序列,提出了K线区域划分算法;又发现K线模式挖掘算法计算繁杂,因此构建了基于模糊K线反转模式挖掘模型;继而
学位
随着信息技术的快速发展,以大数据和人工智能技术为牵引的智慧交通建设成为推进我国“交通强国”的重要趋势。当前桥梁工程领域已开展了较好的信息化建设,构建了多个桥梁检测、健康监测等信息化管理系统,但尚未实现由“信息化”到“知识化”的升级,面向该领域的管养决策支持不足,其智能化程度亟待进一步提升。桥梁检测领域文本是桥梁管理养护业务体系中重要的数据资源,包含大量的桥梁基本属性、结构参数和检测病害等信息。充分
学位
学科热点的研究分析,能够有效的指导学科管理工作,把握学科发展的方向。但随着信息化时代的到来,文本数据在急剧的增长,学科在任务、结构等方面也发生着变化。面对信息化的挑战,传统的学科热点分析方法很难快速、准确的处理大规模文本数据,分析学科发展的方向。因此,在面对大规模文本数据时,如何解决传统学科热点分析方法存在的问题,准确的探索学科发展方向,具有重要的研究意义。  本文以某校信息学科发展的现状及大数据
随着人们生活水平的提高与高速铁路的持续发展,选择高速铁路出行的人越来越多。高准点率与安全性是人们选择高速铁路的主要因素,行车区间失效后的列车调整,将有助于铁路公司保证列车运行的准点率与安全性。  现有区间失效后的列车调整方法实时性较差,可能导致列车晚点时间扩大,甚至引发安全事故。为了在高速铁路区间失效后实时提供高质量的列车调整方案,本文对单优先级下的列车调整、多优先级下的列车调整、区间失效持续时间
学位
城市轨道交通列车具有启停频繁,牵引能量需求高再生制动能量也很高。如今,城市轨道交通牵引供电系统的能耗支出占运营企业支出的相当大一部分,再生制动能量的充分应用具有非常重要的意义。应用超级电容储能装置以及调整列车运行图能够有效利用再生制动能量,超级电容在时间维度上调配再生制动能量,调整列车时刻表使再生制动能量从制动列车流向牵引列车,在空间维度调配再生制动能量。  本文讨论了超级电容储能系统的应用、设计
我国是铁路大国与人口大国,铁路客运作为一种主要的长途客运方式在生产生活中有着重要的地位,而科学的探索与挖掘铁路客流的短时变化规律与客流日变化模式,不仅有助于了解旅客在不同时间段的出行需求,也有助于相关部门科学合理的安排工作与调配相关资源。  现有的铁路客流模式挖掘方法,无法同时发现客流数据中隐含的多种客流模式,且有关短时时段客流模式挖掘的研究较为匮乏。为了挖掘不同时间粒度下的铁路客流模式,本文对铁
学位
随着无线局域网和智能手机的广泛部署与普及,WIFI定位系统成为实现室内定位导航的首选。WIFI位置指纹定位系统需采集大量RSSI数据建立RadioMap,而室内电磁环境复杂导致RSSI数据不确定性高,为保证定位精度,需不断更新RadioMap,使得其构建与维护成本极高,限制其大规模应用。众包技术通过大量志愿者完成RadioMap的构建与更新,可有效降低RadioMap的运维成本。  本文针对众包模