聚焦搜索引擎研究及其在社区信息化中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhangyuxin_718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“云计算”作为一种全新的商业模式,是在2006年由Google提出的。它的提出为产业界和学术界提供了一个全新的思路。山东大学信息科学与工程学院袁东风教授团队迅速抓住了这一机遇,在基于云计算的新型信息化模式方面展开了深入研究并取得了阶段性成果。该团队已经得到了两个山东省自主创新成果转化重大专项的支持,本文课题就是来源于第二个重大专项“低成本、低耗能、高可靠嵌入式终端与信息服务平台”(2010ZHZX1A1001)。在国家推行城镇化的大趋势下,针对农村改造成社区并实行规模经营和集体经济已经开始启动。山东省农村改造工作取得了较快的发展,本课题所属的重大专项选择的试点地区就是一个农村改造成社区的典型。社区信息化建设也成为信息化建设非常重要的一部分,在《2006-2020年国家信息化发展战略》中,将推进社区信息化建设列为我国信息化发展的战略重点之一。本项目团队在这样的背景下,展开了信息化关键技术研究,提出了“云计算服务器+宽带网+瘦客户端”这种完全摒弃PC的全新信息化模式。项目团队研发并批量生产了基于嵌入式架构的瘦客户端,成本和功耗都降低到了一个很低的水平;研发了云计算服务器集群,并针对社区用户的调查结果开发了用户关注的应用和信息服务。用这种模式取代传统的以PC为核心的信息化道路,展开了大规模的试点示范,并取得了良好的效果。针对目标用户的使用要求,结合新型社区信息化模式的特点,本文设计实现了针对淘宝购物的聚焦搜索引擎,为社区信息化用户提供方便快捷的购物搜索和推荐。针对淘宝网商品种类繁多的特点,设计实现了商品通用模型,达到新增商品的时候不用大规模更新数据表的效果。系统设计了网络爬虫和信息搜索两大模块,其中网络爬虫模块实现了淘宝网商品信息抓取、索引文件的建立和商品详细信息存入数据库等操作,信息检索模块实现了用户关键字查询接口、索引文件查询和数据库查询等,为用户提供搜索结果列表显示、详细信息展示和信息推荐。在爬虫模块,为了应对海量数据的抓取效率问题,运用java语言实现了基于hadoop的分布式网络爬虫。本文首先在ubuntu9.10操作系统下搭建了hadoop分布式环境,然后设计了针对hadoop的分布式爬虫程序,实现了对淘宝网数据的抓取;通过设计数据存储策略实现了索引文件的建立;优化了缓存策略,减少了物理空间占用率;针对淘宝网的数据特点,设计了信息提取方法并实现了商品详细信息存入数据库的操作;针对网络情况可能造成的系统运行异常,设计了日志存储规则;系统设计了用户操作界面,可以对数据的抓取规则进行设置。在搜索模块,实现了基于浏览器的信息搜索功能。搜索程序的核心是一个J2EE工程,它实现了索引文件查询和数据库查询。系统首先实现了运行环境配置功能,针对系统运行的参数进行设定;通过前台页面实现了用户查询接口,并对关键字进行索引文件的检索,得到目标关键字的商品集合;根据商品集合中的数据库入口信息,结合数据库查询得到结果集合;针对目标用户对价格敏感的特点,实现了对结果集进行价格排序;实现了商品详细信息的查询,可以显示商品价格、标题、描述信息、价格曲线,并且就相近价格区间的商品进行推荐。
其他文献
目标跟踪是计算机视觉领域的焦点和最具挑战的基础工作之一,其目的在于对图像序列中的感兴趣目标进行定位,并且持续、稳定和准确的跟踪。目标跟踪在众多领域都有着广泛的应用,如军事制导、视频监控、智能交通、人机交互、无人驾驶等。在近年来的研究与发展的过程中涌现出众多优秀的跟踪算法,其在跟踪精度和速度上都有较大提高,然而在一些复杂条件下如复杂背景、尺度变化、形变、遮挡甚至是离开视野后重现都常常导致跟踪的失败。
学位
在这个互联网飞速发展的时代,时刻都会有大量的、新颖的信息扑面而来。对于互联网用户而言,他们若是自己从其中筛选出感兴趣的、优质的信息是十分繁冗且不太现实的。所以一个
量子蚁群算法是将蚁群算法与量子计算相结合的一种新型量子群智能优化算法,具有种群分散性好,并行性佳,收敛速度快,全局搜索能力强等优点。本文主要研究量子蚁群算法的特性及其改
课题研究背景以PON监控技术为基础,对接入网技术、PON技术及其监控网络存在的优势、挑战以及发展思路进行了分析,课题论述了当前PON监控技术在接入网技术中的发展,详细地分析了
随着绿色无线通信技术的快速发展和Facebook、Twitter等社交工具迅速的普及,使得频谱资源稀缺的问题变得越发严重。认知无线电(Cognitive Radio,CR)技术是一种解决频谱资源利用
机会网络是一种依靠节点移动带来的相遇机会完成消息传递的新型无线自组织网络,其在军事自组织网络、野生动物追踪网络、偏远地区组网以及无线传感器网络等方面具有广阔的应用
我国是一个严重干旱缺水的国家,人均水资源拥有量为2300立方米,但是我国的用水量是世界上最多的。我国水资源分布情况的统计还不是十分完善,所以需要详细的记录水资源的分布和流向,这对城市用水、工业发展、农业生产和生态系统及生物多样性起着重要作用。因为现代化建设进程的加快和发展智慧城市已经转变为国家战略的影响,所以采用超声波准确测量流速对研究水资源的流向和分布具有十分重要的意义。本文采用超声波测量法测量
无线传感器网络(Wireless Sensor Network,WSN)是由大量廉价微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织网络。传感器节点具有体积小、成本低和精度高的优点,其
2005年,国际电信联盟(ITU)在信息社会世界峰会上发布了《ITU互联网报告2005:物联网》,该报告中正式阐述了物联网(the Internet of Things, IOT)的概念。物联网中感知信息具有
无线传感器网络(WSN)是由大量播撒在监视区域内的传感器节点,通过无线通信的方式形成的一种自组织网络系统。无线传感器网络节点能量有限,节点由于能量过早耗尽而死亡会严重影