论文部分内容阅读
针对目前业界缺少适应我国公路桥梁检测领域文本特性的中文命名实体语料库的现状,构建一个较大规模并具有较高标注质量的公路桥梁定期检测命名实体语料库。在分析该类型文本的领域特性基础上,定义了由桥梁实体、结构实体、结构病害实体等六种目标命名实体类别及其标注规范,完成了1 245份真实桥梁检测报告和1 400余万字相关网页文本信息的数据准备和预处理工作,选取了其中150份作为标注语料并完成了多轮迭代标注,标注总字数超过32万字,各类型实体最终标注一致性最高达到98.5%,最低达到85.2%。选取了当前命名实体