免分割手写古文档检索研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zuomingyu6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在古代文档的研究中,往往需要将古籍扫描成图片后,进行数字化存储,随着存储的数据量越来越大,就需要建立检索机制。传统的文档字符检索中,对检索文字的匹配需要先进行字符分割的预处理,但是由于手写文档的随意性,导致其很难进行正确的分割,因此免分割的方法也就成为近年来的新的研究方向。目前,基于免分割预处理的手写文档检索的难点主要在,不同人的手写文字差异大,不同单词长度不一样,写法相近的单词容易错误识别等难点,为了避免分割过程中的误差,解决古文档检索的难处,同时提高检索的准确率,本文基于免分割的方法做了以下研究工作:(1)针对匹配准确率较低的问题,本文提出多层卷积特征,利用基于Visual Geometry Group(VGG)提出的网络模型,提取卷积神经网络层作为特征,利用选取的卷积网络特征提升系统的准确性。在训练和检索时,对索引图片、负样本图片提取混合层级卷积特征,利用新的特征训练Exemplar SVMs(E-SVMs)分类器,然后利用扫描窗口对文档候选区图片提取混合层级卷积特征,通过训练好的模型进行预测,最终本文的方法对20页文档的4860个索引图匹配的平均准确率均值(mean Average Precision,mAP)达到了57.6%,相较于原先使用HOG特征提升了6.8%。(2)针对短单词识别率较低、手写文字尺度大小差异的问题,本文基于图像金字塔的思想,提出多尺度E-SVMs分类模型,具体对不同尺寸的图像进行特征提取,针对不同尺度下提取的特征,训练3个针对不同尺度的E-SVMs模型,用随机梯度下降法拟合E-SVMs模型,并结合基于信息增益的权重融合,决定最终的候选区和相似度评分。该方法有效地提升了系统对单词长度为5以下的匹配mAP,达到了52%,相比不用多尺度的模型增加了2.7%的mAP。结合混合层级卷积特征,训练多尺度E-SVMs分类器,用该分类器来进行检索匹配,最终本文得到了58.7%的mAP。
其他文献
DRE顺式作用元件能与DREB转录因子特异结合,在诱导逆境(干旱、高盐、低温)基因表达过程中起重要作用。dsDNA(double strand DNA)微阵列芯片技术能够有效地检测序列特异性DNA结合蛋
1982年Meyer等首先将经皮冠状动脉腔内成形术(PTCA)应用于急性心肌梗塞(AMI)患者,在冠状动脉内溶栓治疗后立即扩张残余的固定性狭窄病变。此后,PTCA单用或与溶栓联用治疗AMI
改革开放以来,我国经济社会持续发展,群众生活水平稳步提高,但随着社会结构的迅速转型,利益格局剧烈变化,社会失序、心理失衡、伦理失范等现象时有发生,各类社会矛盾层出不穷
目的:生物传感技术是通过多学科交叉融合而得到迅速发展的新型分析技术,得益于其灵敏度高、选择性好且检测流程便捷、省时等独特优势,该技术在食品安全、医学诊断与环境监测等多个领域被广泛应用。随着生命科学的不断进步与飞速发展,实现对不同生物分子的高灵敏、高通量的检测具有十分重要的意义。然而,目前的一些生物传感器对于痕量生物分子的检测仍然不够精确,并且假阳性信号时有发生。因此,本论文基于聚多巴胺纳米颗粒高的
互联网金融是目前全新的一种金融业务模式,它的产生是以互联网与传统金融相融合为前提的。互联网金融的不断发展与进步使得传统金融在发展的过程中面临着前所未有的挑战。徐
目的 探讨运用医疗失效模式与效应分析(HFMEA)改善和优化危重症患者院内转运流程的效果。方法 选取2017年1—4月江苏省某三甲医院急诊科抢救室和重症监护室(ICU)转运的1 488
玛雅·安吉罗(1928-2014)是当代美国文坛中著名的黑人女性作家。她的第一部自传体小说《我知道笼中鸟为何歌唱》一经出版便引起轰动并产生了久远的影响。国内外学者对该小说的研究主要集中于对其身份主题、写作特色、黑人女性形象的研究,但是对于该小说的创伤主题的研究相对较少。因此,笔者以创伤理论为基础,研究该小说的创伤主题,主要包括该小说的主人公玛格丽特具有的创伤症状、造成创伤的原因以及创伤复原的途径。