基于几何对象聚类的学术文献图表定位研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:panzi911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]解决学术文献图表定位中低召回率问题.[方法]提取学术文献PDF文件中的几何对象,从编码分析和图片理解两种视角获取图表范围的先验信息,使用K-means聚类算法对几何对象进行合并,并用启发式算法重构图表文字内容,以此确定文献中的图表位置.[结果]在实验数据集上,本文算法定位的准确率为0.915,召回率为0.918,与当前先进的算法准确率相近,且召回率提高0.193,相对提升达到26.6%.[局限]复杂排版和文档符号的不规范使用,会给算法造成一定误差.聚类K值确定和干扰文字过滤算法尚有提升空间.[结论]算法不依赖特定的排版方式,充分利用了PDF学术文献的视觉和编码特点,有效地提高学术文献图表定位的召回率.
其他文献
摘 要:差异教学法充分尊重学生的学习主体地位,倡导将学生的个性特点作为组织教学活动的主要依据,有助于学生主观能动性的充分发挥,有利于教学成效的提升。本文就差异教学在初中英语教学中的应用策略,进行了探究。  关键词:差异教学;初中英语;应用策略  在新课改背景下,学生是初中英语教学的主体,教师为推动学生个性发展服务。这就需要教师全面了解学生的性格特点、英语基础、学习能力、兴趣爱好等情况,然后将学生的
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
会议