论文部分内容阅读
文本文档分类研究的比较多。而对于图像文档分类一般是利用OCR技术先将其识别成文本文档,再利用文本文档的分类方法进行分类。
本文主要研究脱离OCR技术的图像文档分类技术,以提高系统的运行效率。为了达到这个目的,具体探讨了如何提取汉字图像的特征、如何提取图像文档的特征、如何建立图像文档模型以及采用何种相似度等方面的问题。本文主要采用了笔划密度编码的方法提取汉字图像特征,采用N-Gram模型表示图像文档,在图像文档分类方法上使用了最邻近分类方法,在相似度计算方面采用了传统的余弦度量方法。这种方法使图像文档的分类脱离了OCR技术,因而大大提高了系统的运行效率。尽管分类精度有所降低,但满足了特定场合下的网络图像文档分类的要求。