论文部分内容阅读
随着信息技术多年的快速发展,我国已建成比较完善的国家级、省级和地方综合公安信息系统。公安应急指挥体系由传统的层级结构,逐步过渡到以各级公安指挥中心为核心的协同式系统。原本孤立的多个公安业务系统组合成一个有机的人机应急指挥系统,部门林立、条块分割的公安业务系统实现扁平化和网络化,产生了巨大的社会效益。
事件抽取是指将非结构化文本中的事件信息形成结构化形式的过程,在自动文摘,自动问答,信息检索等领域有着广泛的应用。本文在分析中文文本中案事件信息表达特点的基础上,探讨案事件术语发现方法和自动分类算法,借助地理信息系统(GIS)平台,开发了案事件信息抽取及可视化系统,为警务指挥的辅助决策提供依据。主要工作内容包括:
1.案事件信息的表达方式:介绍了案事件信息源的描述特点。阐述了案事件信息的应用目的并根据应用目的提出了案事件信息的结构化表达方式。构建了针对案件串并的案事件信息关系数据表结构。讨论了案事件信息的分类体系并提出了案事件信息的10种分类类别。
2.案事件信息提取方法的研究:改进了Bootstrapping算法应用于扩展触发词。算法通过触发词和上下文相互学习来扩展触发词,不仅可以跨领域扩展触发词,而且大大减少了人工处理的工作量,是一种自适应很高的算法。实验表明改进后Bootstrapping算法的扩展效果明显,但正确率有待进一步提高;提出了一种基于触发词的案事件分类算法,该算法以同义词词林为分类体系对触发词在语义级别进行分类。算法不仅有效分类而且解决了案事件多类别问题;提出了一种基于位置关系的事件信息提取算法,算法以触发词驱动,通过比较事件信息要素和触发词的相对位置距离筛选候选事件信息。算法解决了单个警务案件文本包含多案事件信息的问题:提出一系列应用领域语言规则提高提取正确率。实验结果表明应用规则后,案事件信息正确率有30%以上的提高,正确率在60%以上。
3.案事件信息的可视化及原型系统实现:本文借助地址解析和地址匹配技术根据案事件信息的应用需求提出了四种案事件信息可视化方法。并在案事件信息提取方法的基础上设计并实现了原型系统。原型系统实现了语料管理、触发词扩展、触发词分类和案事件信息提取四个功能。