论文部分内容阅读
移动搜索是指用户在移动通信网络中,通过移动终端设备,利用SMS(Short Messaging Service)、WAP(Wireless Application Protocol)、IVR(Interactive voice response)等多种特定搜索方式获取所需信息的一种搜索行为。移动搜索技术的核心是将搜索引擎与移动设备有机结合,生成符合移动产品和满足用户需求的搜索方式。从而摆脱固定设备和固定通信网对用户的束缚,实现随时随地的获取自己所需信息的目的。手机移动搜索作为搜索技术与移动通信技术的一种结合体,融合了两种技术的特点。移动搜索是网络搜索引擎在移动终端的延伸,是未来主流搜索引擎发展的一个重要趋势。尽管目前仍面临很多问题,但移动搜索的崛起已是大势所趋。伴随着3G商用以及4G时代的来临,移动搜索必将逐步迈进高速发展的新时代。本文从移动搜索引擎目前的发展现状和存在的种类入手,阐述了搜索引擎爬取页面信息的基本工作原理、网络机器人的构成及其在WAP页面爬取过程中所发挥的作用,并重点分析了基于网页爬取的算法策略。通过对Web结构的挖掘分析,并与链接种类的研究想结合,本文根据移动终端设备在实际使用中的情况设计出一种针对高质量网页和潜在的高质量网页为爬取目标的网络机器人爬取策略,并只爬取最有价值的首层页面。本文的主要研究内容包括以下几个方面:1.通过对一般网络机器人运行机制的分析以及对爬虫基于开源算法的爬取策略的分析,提出本文设计所用网络爬虫的体系结构,并总结了搜索引擎中爬虫的基本性质。2.研究基于WAP搜索引擎的系统结构和WAP爬虫的基本工作原理,针对移动通信平台设计一种对待检索页面进行有效爬取的方法;3.本文在前人对PageRank算法改进的基础上针对移动搜索实际需要只选择所获得结果的前20条信息返回给用户。4.第六章提出一种基于爬虫系统的移动阅读软件设计方案及实现方法。5.对运行结果和下一步本课题的实现内容做了一个简单的分析,并对移动搜索引擎在3G时代及后续的4G中的应用前景做了一个展望。