论文部分内容阅读
随着全球信息技术的飞速发展,文档数量急剧增加,人们的查询需求日益多样化,传统的文档检索系统已经不能满足用户需求,因此文档检索的研究具有重要的研究意义和广泛的应用价值。全球的语言种类繁多,在用户没有明确的检索线索的情况下,如何进行有效的检索就成为了信息检索面临的崭新的研究课题。本学位论文将图像检索技术运用于文档检索系统中,提出了一种针对图像内容的文档检索方法。首先,提出了版面分析过程中的图像分割方法。舍弃版面分析提取的文字部分,基于游程熵的显著差异来分割出文档中的图片。该方法先计算文档图像每行的游程熵,然后利用图片与文字之间游程熵的差异,使图片区域与高游程熵对应,有效地提取出了文档中的图片。提出基于多特征图像检索算法,通过数字图像的位平面信息,选取重要位平面并计算直方图作为第一特征;然后计算位平面的局部颜色密度,并计算局部的颜色密度熵作为第二特征;最后计算位平面的全局平滑度作为第三个特征,并结合三种特征进行基于图像内容的检索。最后,结合版面分析分割出的图片,把每一幅图像的来源记录在关联数据库中,并计算图片的三种特征,构造特征库,最终通过图像检索结果来判断图像的出处并输出检索的文档结果。实验结果表明,本文提出的图文分割与图像检索方法可靠而有效,精确度与稳定性满足实用需求。另外,本文将位平面作为主要特征源,对抗噪声的攻击能力很强,运算速度快,适用于实用文档检索,而且为图像语义特征的研究进行了有益的探索。