论文部分内容阅读
在如今浩如烟海的网络世界中,如何找到需要的图片成为一大难题,针对这个问题,现在学术界两个重要的研究方向是基于内容的图片搜索,和基于信息系统的图片搜索。但前者的研究虽然活跃,在现实世界中的应用并不成功,而基于信息系统的图片搜索引擎是目前商业应用的主要方式。高效性、相对准确性以及技术的成熟是其获的成功的关键。本文的研究目的在于对目前的图片搜索引擎进行优化和完善,针对网页的HTML信息进行提取和建立索引,然后在此基础上开发一种具备基本功能的图片搜索引擎进行搜索,希望可以用于公司当前和未来市场开发的需要。。本文首先介绍了系统的架构、组织形式与实现过程,提出了基于信息系统图片搜索引擎的详细系统设计与实现方案,阐述了系统的工作流程:获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引、提供查询然后本文对系统设计过程中所涉及到的HTML网页进行了系统的分析与介绍,并根据对HTML网页相关结构的分析,提出了本文系统设计过程中所采用一些基本策略。提出了针对HTML网页提取的九种模式,分别针对HTML的开头,主题,结尾等环节采用本文所设计的集中模式进行筛选与过滤,最终得出本系统设希望实现的功能的基本的数据。接着进行了系统功能测试和性能测试。系统测试结果表明作者开发的图片搜索引擎在定义比较明确的情况下可以很好地实现搜索的目的,而当搜索的关键词比较模糊时,搜索的效果相对来说结果比较不精确,但从总体结果来看,本系统作为目前商用系统的辅助系统,可以在一定程度上实现图片的网络搜索,取得了较好的效果。最后对系统的测试结果进行了汇总,本系统虽然可以在一定程度上满足用户的需求,但是改进的空间还非常打,具体体现在对MP3文件,视频文件的搜索扩展上,针对这方面的研究本文的作者在除湿系统的设计上也有相关的考虑,系统具有很好的扩展性,文章最后对系统的未来进行了总结与展望。