基于移动搜索的Spider爬行策略的研究和实现

被引量 : 5次 | 上传用户:qxff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动搜索是指用户在移动通信网络中,通过移动终端设备,利用SMS(Short Messaging Service)、WAP(Wireless Application Protocol)、IVR(Interactive voice response)等多种特定搜索方式获取所需信息的一种搜索行为。移动搜索技术的核心是将搜索引擎与移动设备有机结合,生成符合移动产品和满足用户需求的搜索方式。从而摆脱固定设备和固定通信网对用户的束缚,实现随时随地的获取自己所需信息的目的。手机移动搜索作为搜索技术与移动通信技术的一种结合体,融合了两种技术的特点。移动搜索是网络搜索引擎在移动终端的延伸,是未来主流搜索引擎发展的一个重要趋势。尽管目前仍面临很多问题,但移动搜索的崛起已是大势所趋。伴随着3G商用以及4G时代的来临,移动搜索必将逐步迈进高速发展的新时代。本文从移动搜索引擎目前的发展现状和存在的种类入手,阐述了搜索引擎爬取页面信息的基本工作原理、网络机器人的构成及其在WAP页面爬取过程中所发挥的作用,并重点分析了基于网页爬取的算法策略。通过对Web结构的挖掘分析,并与链接种类的研究想结合,本文根据移动终端设备在实际使用中的情况设计出一种针对高质量网页和潜在的高质量网页为爬取目标的网络机器人爬取策略,并只爬取最有价值的首层页面。本文的主要研究内容包括以下几个方面:1.通过对一般网络机器人运行机制的分析以及对爬虫基于开源算法的爬取策略的分析,提出本文设计所用网络爬虫的体系结构,并总结了搜索引擎中爬虫的基本性质。2.研究基于WAP搜索引擎的系统结构和WAP爬虫的基本工作原理,针对移动通信平台设计一种对待检索页面进行有效爬取的方法;3.本文在前人对PageRank算法改进的基础上针对移动搜索实际需要只选择所获得结果的前20条信息返回给用户。4.第六章提出一种基于爬虫系统的移动阅读软件设计方案及实现方法。5.对运行结果和下一步本课题的实现内容做了一个简单的分析,并对移动搜索引擎在3G时代及后续的4G中的应用前景做了一个展望。
其他文献
通过实地走访与问卷调查得知,新型农村合作医疗制度试点施行以后,虽取得了较好的效果,但也存在不少问题,我们必须积极采取相应对策,克服该制度在施行过程中存在的不足,进一步
受胁迫犯罪在大陆法系国家中多设立为责任阻却事由,我国采用了胁从犯立法模式。胁从犯的立法模式在处罚中以行为人的行为构成胁从犯为前提,这种模式既限制了被胁迫情节的适用
通过对国人恐慌性购房成因的分析与探讨,结合房地产业发展的现状,发现当前大众的心理习惯、地理环境、房价虚高、政府政策以及房地产商的炒作等是导致购房者恐慌性购房现象出
植物细胞工程制药是植物细胞技术在生物制药工业方面的应用。本文介绍了植物细胞工程制药所涉及的主要技术及其进展,包括大规模植物细胞培养生产药用成分,植物生物反应器,生
2008年北京奥运会和2010年上海世博会带动中国经济型酒店行业持续走好,国内外大量资本涌入到这一行业。在资本推动及市场化运作的重组与整合浪潮中,中国经济型酒店业呈现出群
对教师教育的研究在教育学研究领域而言,相对起步时间较晚,而对教师教育的重要组成过程——教师在职培训的研究则一直到上个世纪的80年代以后才逐渐兴起。这主要是由于教师职
股利政策是上市公司关于是否发放股利、发放多少以及何时发放的方针和政策,一般分为现金股利、股票股利和股票回购。其中,现金股利是西方上市公司最主要的一种股利分配方式,
中国的改革开放是从农村开始的,而农村改革的起点是农村的土地。土地是农业最基本的生产要素,是人类赖以生存的根本,是解决三农问题的关键。改革开放以来,随着农业市场化的不
在21世纪的今天,中国大陆每年新制做出的电视剧近两万集,题材丰富,内容广阔,风格多样。然而,在当前我国中央、省、市、县四级交叉重叠多达近百个电视台的覆盖网络下,年产电视