基于Heritrix和Sphinx的购物比较搜索引擎研究

来源 :中国新通信 | 被引量 : 0次 | 上传用户:pj00000pj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页搜索引擎模型的探索与研究。
  【关键词】 比较购物 搜索引擎 Heritrix
  随着网络商品的极大丰富和分类的细化,搜索引擎已成为购物信息的重要来源。比较购物搜索引擎是一种基于专业化的垂直搜索引擎,通过对电子商务网站或者部分实体店的商品信息进行采集和整理,向消费者提供特定准确的商品信息及相关辅助设施,减少信息不对称,优化购买决策;同时,帮助商家降低推广成本获得针对性极高的目标用户,是未来网络购物搜索的发展趋势。然而,目前国内的比较购物引擎普遍追求“大而全”,在细化用户需求和购物体验上较为欠缺。商品信息比较偏重价格方面,对影响购物体验的其他因素,诸如商家信誉、折扣降价、用户评价、退换条款等较少涉及。本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页,以期更好的细分消费者人群,有针对性地满足用户体验。
  一、Heritrix和Sphinx技术特点
  1.1 Heritrix工作原理
  Heritrix是一款基于java 语言开发的开源网络爬虫,用于对网上的资源进行归档,建立网络数字图书馆,目前已经建立了400TB的数据。
  Heritrix爬虫每次只对一张网页的内容深度复制,包括获取图像以及其它非文本内容,抓取并存储相关的内容。具体筛爬过程中,爬虫先从队列中取出下一个URL,通过HTTP协议将对应的网页爬取下来,然后解析内容,并且提取出包含的URL,将其中新发现的URL追加到队列中。最后将网页存放到本地磁盘的网页库中。爬取过程在积累到一定数量网页时即可终止,或者在队列为空的时候终止。
  1.2 Sphinx工作原理
  Sphinx是一个基于SQL的全文检索引擎,本系统所采用的是基于Sphinx研发并独立发布的Coreseek,是一款专攻中文搜索和信息处理的中文全文检索/搜索软件,它适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。Sphinx(Coreseek)整个系统主要由索引建立和维护程序(索引程序indexer)、查询服务程序(后台服务程序searchd) 、辅助工具程序(search, spelldump等)三大部分组成。
  二、比较购物搜索引擎系统构建
  2.1系统架构
  系统整体架构由四部分组成:1)由Heritrix扩展而来的爬虫系统,负责从互联网抓取商品相关的信息。2)MySQL数据库,存储由Heritrix抓取的数据。3)Sphinx全文索引服务器,负责对商品建立全文索引。4)Tomcat服务器,负责向客户端提供搜索服务。具体系统整体架构图如图1。
  在初始化阶段,Heritrix任务需事先通过配置和测试,确认后可由Linux系统通过Cron来自动调度。根据用户输入的商品信息,网络爬虫的每个抓取任务只负责单个购物网站数据的抓取,但每个任务的线程数量可由实际情况进行调整。筛爬启动和结束时间通过Bash脚本来监控,每隔一定的时间去检测相应的进程是否已经结束,如果某个抓取任务结束,则设定好下一次启动的时间间隔。在本文构建的模型中采用MySQL数据库存储筛爬的信息,但直接从MySQL数据库生成全文索引读取比较费时,因此采用基于SQL的全文检索引擎Sphinx结合MySQL,以“主索引+增量索引”的模式,大部分的搜索都集中在Sphinx全文索引中,少量数据可能需要直接访问MySQL数据库,这样可以使应用程序更容易实现专业化的全文检索。具体运行过程中通过Cron设定计划任务,每隔一定的时间,Sphinx会从MySQL数据库生成增量索引,然后执行主索引和增量索引的合并,并且在后台操作过程中,一直可以向客户提供搜索服务。
  2.2数据存储模型的建立
  目前各种购物平台和测评网站给出的商品信息异常复杂,每个网站的页面都有自身特定的格式,相同商品在不同网站上也不尽相同,尤其是不同类型的商品在属性上差异极大,因此, 需要建立统一的数据模型存储数据,也即通过多张表能够描述各种类型商品的基本属性,而不需要针对每种商品建立不同的存储表。本设计中构建了商品表、商品别名表、品牌表、信息采集表、信息采集元数据表、商品路径表、网站表、店铺表和商品类别表等一系列数据模型。以商品信息表为例,如表2-1所示。
  表2-1 商品表(Commodity)
  字段名 定义类型 特性 说明
  id bigint unsigned 自增、主键 商品id
  name varchar(255) 非空、全文索引 商品的名字
  brand_id bigint unsigned 外键 品牌id
  instance_id varchar(50) 非空 ISBN,ISRC,型号等
  is_unique bool 非空 是否唯一
  datetime datetime 非空 创建时间
  instance_id可以是型号、货号、ISBN、ISRC等用来区分商品的编号。大部分商品都会有型号(instance_id),因此只要有相同品牌且型號相同,就可以肯定是同一种商品。brand_id指向brand,指品牌如TCL,也可指出版社或生产厂商。商品的名字需要用Sphinx建立全文索引。
  2.3信息提取流程
  通过设置起始网站,然后根据需要提取并更新网页上的商品信息,在信息提取过程中通过判别程序进行判定,对已存在商品添加商品别名,不存在的商品添加商品信息,最后更新店铺信息。   2.3.1商品信息提取判别
  提取产品的信息包括商品名称、市场价、最高价、促销价、促销描述、销量描述、评价、URL、店铺、类别、属性,其中对ISBN或ISRC、品牌和型号属性要特殊处理,由于不同商家在添加商品信息时可能会有文字上的差异,提取时要结合Sphinx建立的全文搜索引擎仔细设计匹配规则。如果商品属性中有ISBN,则可以肯定是图书,如果有ISRC字样,则肯定为唱片。这两种编写都具有全球唯一性,因此可以设定商品表中的is_unique字段为真,判断时以此编号为准。
  在没有全球唯一编号的情况下,大部分商品可通过“品牌+型号”的方式来判断是否为同一商品。其中型号可能有别名,如“货号”等。其余情况,以商品名字来判断,由于不同商家会往商品名称里加入很多其他信息,通过名字来判断同一商品可靠性较低。
  2.3.2商品信息更新流程
  商品信息更新分为店铺信息更新和类别更新两个部分。店铺更新是在商品添加成功以后来处理的,一般每个商品都会有默认Context(购物网站),个别商品可通过网页找到对应店家,此时就适用更新店铺流程,更新店铺最终是为了让此次采集时的上下文环境更加明确,以便将来对采集数据进行分类处理。类别更新针对部分能从商品信息页面中获取的网站而言,为可选功能。
  三、模型构建实践
  本文基于Heritrix和Sphinx技术搭建的购物搜索引擎在实践中把淘宝网、天猫网、卓越亚马逊、当当网作为重点爬取对象,能实现针对这些主要购物网一般商品的搜索。搜索结果页面如图2所示。商品比较结果页面如圖3所示。
  四、总结
  本系统通过Linux系统的脚本管理技术,将Heritrix网络爬虫技术、Sphinx的分词和全文索引的功能相结合,整合成一个能筛爬国内主流大型购物网站的比较购物搜索引擎。本系统还可以进一步进行完善,如可以对搜索关键字进行按照行为预先分类,帮助缺少计算机基础的用户搜索互联网内容,进一步修订商品信息数据存储表,以更好的兼容越来越多的业务细分类型购物网站,这些都是下一步的发展方向。
  参 考 文 献
  [1] Stefan Büttcher, Charles L.A.Clarke, Gordon V.Cormack. 信息检索:实现和评价搜索引擎[M]. 北京:机械工业出版社,2012.1.
  [2] Heritrix User Guide. Heritrix User Guide. Internet Archive.
  [3] 蒋群.中国比较购物网站的调查分析和发展建议[J].北京邮电大学学报(社会科学版),2007,(1)
  [4]徐意能, 陈硕. 基于用户体验的搜索引擎有效性评估研究[J].人类工效学,2008, 14(3):9-12
其他文献
【摘要】 在机器视觉的应用当中,双目摄像头对物体距离和大小的感知模仿了人眼的功能,实现了对现实世界的感知。该算法基于ARM Cortex-A9嵌入式开发平台,在考虑了透镜的径向畸变和切向畸变影响的情况下,对双目摄像头进行了立体标定,给出了使用opencv双目识别物体大小和距离的算法。其充分发挥了opencv图像处理库的实用性和双目摄像头的优势,具有较高的识别准确性、跨平台可移植性和实时性,可以满足
期刊
【摘要】 国家城市申奥宣传片是一种国家跨文化传播的有力方式,对于塑造一个国家文化影像具有极其现实的意义和价值。本文通过解读2020年日本东京申奥片,总结分析申奥片中国家影像文化传播规律,为我国国际形象的影像建构提供借鉴。  【关键词】 申奥片 影像文本 国家形象  一、国家影像文本分析  2013年9月8日凌晨,国际奥委会第125次全会在阿根廷布宜诺斯艾利斯进行,投票决定2020夏季奥运会主办地,
期刊
【摘要】 国家电网公司通信管理系统是公司借鉴信息化建设经验对通信专业进行流程优化和应用整合,实现通信实时监视、运行管理、专业管理的集约化、标准化、智能化。随着通信管理系统在电力通信生产的逐步深化应用,系统的稳定运行是系统应用的最基本保障,因此建立一个高性能、高可用性、分布式的数据库服务器系统有着极其重要的意义。本文以Oracle RAC技术为出发点,分析了RAC技术的原理、特征和功能以及单机系统存
期刊
【摘要】 在工程实践中,为了减少对腔体滤波器结构参数设计的盲目性和对经验的依赖性,不断提高设计效率,提出了一种基于遗传神经网络的优化设计方法。该方法采用浮点数编码方式和自适应的交叉率、变异率,将改进的遗传算法用来优化BP神经网络的权重,在MATLAB环境下调用HFSS实现腔体滤波器的优化设计。仿真实验表明,该算法能够较精准的预测腔体滤波器的结构参数,可提高设计精度及优化速度。  【关键词】 遗传算
期刊
【摘要】 在相对论和量子力学为基础的现代物理的几十年的长足发展之下,依据现代物理和数学工具,在以前看来是幻想的时间旅行已经在理论下形成了相对论,虫洞理论等的时间旅行的可能方式。虽然依靠目前的科学技术甚至都难以验证其中一些理论的可行性。而且即便理论正确,在可预见的未来也都是难以实现的,但它们却能为我们以后指明方向,让我们对这个世界能有一个更加清楚的认识。  【关键词】 相对论 量子力学 虫洞理论 时
期刊
【摘要】 当前固定通信中的数字信道调度均实行在DDF架上通过2M数据线进行调度,而在设备增加的情况下,DDF架不断增加,调度的频率及数量也不断增加,所以调度的线路及复杂性不断增加,基于以上考虑,我构想了基于网络交叉连接的数字信道调度的构想,与大家共同讨论并假设定义为SDXC  【关键词】 网络交叉连接 调度 数字信道  一、固定通信目前的现状  当前SDH(准同步数字体系)作为通信的主要设备,用于
期刊
【摘要】本文就对通信电缆中存在的问题及其处理进行分析,同时又对其控制措施进行了一定的探讨。  【关键词】通信电缆问题控制措施  一、引言  伴随着电信业向宽带化不断发展,通信电缆存在的故障也在不断的增加,而电缆故障排除的前提条件是电缆测距,对故障的尽快排除提供方便同时减少损失,断点故障位置的测定需要采用专门的测试手段和方式,提高检修和排除故障的效率。在矿区中近几年来下沉区不断增多,规模不断扩大的矿
期刊
【摘要】文章针对电力网通信设备提出了一种状态检修的评价模型,通过状态参数权重计算算法、评价分值计算算法以及闭环反馈等方法,合理的对设备状态变化趋势做出评价。  【关键词】状态检修电力通信网层次分析法反馈  电力是关系国计民生的重要基础资源。在电力系统快速发展的过程中,各种配套的通信网络设施也在不断的发展和进步,通信网的规模日益扩大。文章针对电力通信网状态检修的方法,提出了对设备状态进行评价的新方法
期刊
【摘要】计算机应用软件作为一门实践性强的课程,其教学的目在于培养人们的创新能力、操作实践能力以及自学能力。为此,本文详细探讨了该课程教学过程中的一些改进方法。  【关键词】应用软件教学创新能力  随着信息时代的发展,计算机逐渐在人们的生活中普及。计算机的应用时时刻刻都在影响着人们的生活、工作和学习,它已成为人们生活中不可或缺的一部分。对于大多数的非计算机专业的人来说,最具实用性、与人们生活和工作关
期刊
一、研究目标  本项目的研究工作将围绕如何利用现有移动通信数据进行城市道路交通信息采集与交通状态判别展开,其目的在于通过对基础移动信令数据的采集,并结合用户基本面及通信行为特征对数据进行深入挖掘与分析,实时推断与掌握道路交通状况,面向交通管理部门提供决策信息支撑,从而推动交通效率的有效提高。  二、主要研究内容  1、在现有移动通信数据中选择移动电话用户的通话、短消息收发、通话过程中的切换事件、位
期刊