论文部分内容阅读
表格分析是对表格的基本结构及形状进行识别的过程,是以后能否从表格单元中正确提取文本信息的关键。在结合表格特点的基础上,采用了表格线检测与处理相结合的方法获取表格框线。检测表格线过程中,通过定义了主表格线长度来加快扫描的速度;在表格线的处理中,针对杂线的剔除、表格线的调整及最终获得表格结构等方面进行了系统的探讨。大量的实验结果表明所提方法是可行的。