论文部分内容阅读
随着现在智能移动终端的升级换代以及移动通信技术的高速发展,智能手机终端通过移动网络接入的方式给人们带来了全新的互联网体验。随着图像多媒体信息的日益增加,传统的文字检索引擎已经无法很好的满足用户的检索需求,在这样的背景下,图像搜索引擎开始应运而生,而这其中,以图书检索应用最为广泛。基于手机的图书检索应用,一般需要根据图书的条形码或者图书封面图片作为检索依据,这样的应用,每次只能检索一本图书,并且缺少对图书相关信息的有效整合。针对传统手机图书检索应用的不足,综合考虑书架图书应用场景的特点,本文设计并实现了一款基于词汇树检索的智能手机图书感知系统。该系统通过手机获取书架上排列在一起的图书图片上传到服务器完成图书检索工作,并通过网页爬虫系统为手机用户提供更为详尽的图书相关信息。本系统为了提高检索的准确度,首先需要区分查询图片中每一本相邻图书的书脊边缘线。在详细分析书架图书的图像特征基础上,结合多种数字图像处理技术的特点,通过边缘提取、角度方向提取、过滤短边缘、滤波、直线提取等方法提取相邻图书之间的边缘线,实现相邻图书边缘的有效分割,并通过测试验证算法的效率以及准确性。然后,实现基于词汇树的图像检索算法识别每一本图书,该图像检索算法在传统的SIFT特征提取算法以及视觉特征袋分类方法的基础上,利用k-means分层聚类算法生成视觉词汇,然后采用TF-IDF的加权方式,有效的提高图像检索的效率。同时,为了整合不同网站的图书信息,本文设计并实现了网页图书信息主题爬虫系统。通过分析信息抓取的特点以及网站源代码,利用该爬虫系统从相应网站抓取需要的图书信息并存储到数据库中,整合用户较为关心的图书信息,最终为用户提供一款图像检索与Web信息检索相结合的手机图书感知系统。