论文部分内容阅读
[目的]解决学术文献图表定位中低召回率问题.[方法]提取学术文献PDF文件中的几何对象,从编码分析和图片理解两种视角获取图表范围的先验信息,使用K-means聚类算法对几何对象进行合并,并用启发式算法重构图表文字内容,以此确定文献中的图表位置.[结果]在实验数据集上,本文算法定位的准确率为0.915,召回率为0.918,与当前先进的算法准确率相近,且召回率提高0.193,相对提升达到26.6%.[局限]复杂排版和文档符号的不规范使用,会给算法造成一定误差.聚类K值确定和干扰文字过滤算法尚有提升空间.[结论]算法不依赖特定的排版方式,充分利用了PDF学术文献的视觉和编码特点,有效地提高学术文献图表定位的召回率.