论文部分内容阅读
数学公式是科技文档不可或缺的重要组成部分,具有复杂的二维结构和嵌套结构。数学文档有多种格式,包括word、PDF、MathMI、Tex\LaTex等,如何对文档中的公式进行检索,如何判定两个公式匹配则成为一个难题。公式匹配包括精确匹配、语义匹配和结构匹配等,如果简单地使用字符串匹配技术,则无法实现公式的匹配,因此必须针对教学公式特点,研究出相应公式匹配方法。首先对文档进行归一化,然后对公式进行匹配。如果有多个文档或网络检索的话,则为了加快速度,需要构建索引等结构。