论文部分内容阅读
近年来,随着全球信息化的不断深入,信息检索变得越来越重要,而作为信息来源的信息分离也正成为信息化过程不可缺少的一部分,它是将人类几千年积累的知识电子信息化的关键技术。
本文研究了信息分离技术的一个子问题——复杂结构文档图像中数学公式的定位和提取。本文以科技文档图像为研究对象提出了复杂结构文档图像中数学公式定位的方法模型。模型将复杂结构文档图像中数学公式的定位归结为两个主要问题——版面成份分析和版面成份属性判定。
本文针对复杂结构文档图像的特点,将复杂结构文档图像中的数学公式分文两类四种,并针对每种数学公式的定位提出相应的方法。
本文在四种数学公式定位方法模型的基础上给出了一个具体定位系统的实现细节,这个系统可以很好地对复杂结构文档图像中的数学公式做出定位。
本文还对所实现的定位系统在准确率和速度两个方面进行了评测,给出了评测结果,并指出了定位方法需要改进的方向。