论文部分内容阅读
“云计算”作为一种全新的商业模式,是在2006年由Google提出的。它的提出为产业界和学术界提供了一个全新的思路。山东大学信息科学与工程学院袁东风教授团队迅速抓住了这一机遇,在基于云计算的新型信息化模式方面展开了深入研究并取得了阶段性成果。该团队已经得到了两个山东省自主创新成果转化重大专项的支持,本文课题就是来源于第二个重大专项“低成本、低耗能、高可靠嵌入式终端与信息服务平台”(2010ZHZX1A1001)。在国家推行城镇化的大趋势下,针对农村改造成社区并实行规模经营和集体经济已经开始启动。山东省农村改造工作取得了较快的发展,本课题所属的重大专项选择的试点地区就是一个农村改造成社区的典型。社区信息化建设也成为信息化建设非常重要的一部分,在《2006-2020年国家信息化发展战略》中,将推进社区信息化建设列为我国信息化发展的战略重点之一。本项目团队在这样的背景下,展开了信息化关键技术研究,提出了“云计算服务器+宽带网+瘦客户端”这种完全摒弃PC的全新信息化模式。项目团队研发并批量生产了基于嵌入式架构的瘦客户端,成本和功耗都降低到了一个很低的水平;研发了云计算服务器集群,并针对社区用户的调查结果开发了用户关注的应用和信息服务。用这种模式取代传统的以PC为核心的信息化道路,展开了大规模的试点示范,并取得了良好的效果。针对目标用户的使用要求,结合新型社区信息化模式的特点,本文设计实现了针对淘宝购物的聚焦搜索引擎,为社区信息化用户提供方便快捷的购物搜索和推荐。针对淘宝网商品种类繁多的特点,设计实现了商品通用模型,达到新增商品的时候不用大规模更新数据表的效果。系统设计了网络爬虫和信息搜索两大模块,其中网络爬虫模块实现了淘宝网商品信息抓取、索引文件的建立和商品详细信息存入数据库等操作,信息检索模块实现了用户关键字查询接口、索引文件查询和数据库查询等,为用户提供搜索结果列表显示、详细信息展示和信息推荐。在爬虫模块,为了应对海量数据的抓取效率问题,运用java语言实现了基于hadoop的分布式网络爬虫。本文首先在ubuntu9.10操作系统下搭建了hadoop分布式环境,然后设计了针对hadoop的分布式爬虫程序,实现了对淘宝网数据的抓取;通过设计数据存储策略实现了索引文件的建立;优化了缓存策略,减少了物理空间占用率;针对淘宝网的数据特点,设计了信息提取方法并实现了商品详细信息存入数据库的操作;针对网络情况可能造成的系统运行异常,设计了日志存储规则;系统设计了用户操作界面,可以对数据的抓取规则进行设置。在搜索模块,实现了基于浏览器的信息搜索功能。搜索程序的核心是一个J2EE工程,它实现了索引文件查询和数据库查询。系统首先实现了运行环境配置功能,针对系统运行的参数进行设定;通过前台页面实现了用户查询接口,并对关键字进行索引文件的检索,得到目标关键字的商品集合;根据商品集合中的数据库入口信息,结合数据库查询得到结果集合;针对目标用户对价格敏感的特点,实现了对结果集进行价格排序;实现了商品详细信息的查询,可以显示商品价格、标题、描述信息、价格曲线,并且就相近价格区间的商品进行推荐。