基于Lucene的商品垂直搜索引擎研究与实现

被引量 : 12次 | 上传用户:Melanzpl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。垂直搜索引擎具有专、精、深的特点,可通过面向某一特定的领域、人群或需求仅搜索网络中的特定主题信息,并且聚合信息、处理索引,提供有价值的相关服务和信息,从而提高用户检索时的准确率。现在网络上进行商品交易的活动越来越多,在这里将针对这种应用来设计商品搜索引擎,以方便用户能够在短时间内找到自己需要的商品,并及时购买,那么这就涉及到了商品垂直搜索引擎的实现。本文提出了电子商务系统中的一个商品垂直搜索引擎。首先用python写爬虫从现有的B2C网站京东、天猫上抓取商品数据,也可以自己手动地添加商品数据到数据库,这里专门开发了后台数据添加模块。接着探讨了基于MD5数字签名的数据消重算法,经过试验在查准率、查全率和响应时间上都满足实际需求。然后借鉴关联规则理论对中文词语进行定义,在此基础上构建Autoword自动构词算法,该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。针对电子商务系统中商品结构化信息的特点,结合现有的TF-IDF算法提出了一种改进的排序算法,并在该系统中应用了全文检索和数据库查询两种技术。全文检索技术和数据库的结合既支持了相关度排序,提高了检索速度,又能灵活查询和使用商品的结构化信息和实时信息,并通过结果展示以及与其他电子商务网站的横向比较验证了该算法的优越性。现有的搜索引擎大都采用了输入—输出的响应模式,该模式没有考虑用户反馈,本文提出了基于用户交互的自适应算法,探讨了智能排序,从而利用用户数据对排序结果作优化。最后,本文完成了系统的总体框架搭建及实现。本人在学位论文中所做的主要工作如下:1、爬虫与数据消重模块设计与实现在本系统中的数据源为两部分,一部分是用python脚本写的爬虫程序从起始URL开始,以广度优先算法从现有的B2C网站京东、天猫上爬取到的数据,还有就是自己手动添加到数据库里的数据,这里专门开发了后台数据添加模块。优秀的垂直搜索引擎需要一个高质量的数据来源,高质量的搜索结果必然依赖于高质量的数据,为了避免得到重复、相似或者信息不完整的搜索结果,数据的正确性是至关重要的。本文设计了基于MD5数字签名的数据消重算法,经过实验在查准率、查全率和响应时间上都满足实际需求。2、基于关联规则的自动构词算法研究词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是个高维度的数据处理技术,挖掘算法对维度的大小比较敏感,挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,比如N-gram语言模型以及各种改进模型,都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,本文借鉴关联规则理论对中文词语进行定义,在此基础上构建Autoword自动构词算法,该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明本文提出的自动构词算法的有效性。3、排序优化算法的改进和研究针对电子商务系统中商品结构化信息的特点,结合现有的TF-IDF算法提出了一种改进的排序算法,并在该系统中应用了全文检索和数据库查询两种技术。全文检索技术和数据库的结合既支持了相关度排序,提高了检索速度,又能灵活查询和使用商品的结构化信息和实时信息,并通过结果展示以及与其他电子商务网站的横向比较验证了该算法的优越性。现有搜索引擎大都采用了输入—输出的响应模式,该模式没有考虑用户反馈。本文还提出了基于用户交互的自适应算法,探讨了智能排序,从而利用用户数据对排序结果作优化。4、总体框架搭建及实现分析和掌握了Lucene主要架构和各个部件,搭建了完整的开发环境,详细地研究其中的索引模块和检索模块实现机制和原理,通过对搜索引擎以及结合Lucene自身的特定制定本次设计需要实现的功能,开发了一个基于Lucene的商品垂直搜索引擎。它具有一下特点:(1)能够接受python爬虫爬取的数据,也有自己的后台数据手动添加模块;(2)支持分词查询;(3)运用Lucene工具包编程实现了网页内容索引;(4)运用Ajax技术实现搜索服务的网页交互,生成动态网页,返回用户搜索结果;(5)运用Spring框架实现系统的后台管理,运用JSP技术实现系统的前台开发;(6)支持全文搜索;(7)能够高亮显示搜索关键字;(8)显示查询所用的时间;(9)显示搜索历史、过滤关键字;(10)能够清除查询历史。其中分词、全文搜索和排序都可以结合Lucene提供的类库以及本文研究的相关算法实现,而关键字高亮度显示只需要借助Highlighter的帮助,通过数据库持久化保存数据。
其他文献
目的苯丙酮尿症(phenylketon,PKU)是一种比较常见的人常染色体隐性遗传病。是由于肝细胞内苯丙氨酸羟化酶(Phenylalanine hydroxylase,PAH)活性下降或显著缺乏,致使苯丙氨酸(phe
目的观察显微镜下经侧裂入路与经颞叶皮层入路治疗60例高血压基底节区脑出血的临床效果。方法回顾分析我院神经外科2010年1月~2011年1月行显微镜下经侧裂-岛叶入路治疗高血压
近年来随着网络技术的快速发展,在世界范围内社交网络吸引了大量的用户,社交网络作为一种信息平台已经成为了人们生活中常见的交流手段。而网络自拍作为社交网络的一个重要组
新农保制度的绩效评估研究对新农保制度设计和政府责任完善具有十分重要的借鉴意义。文章基于政府绩效相关理论,以西藏自治区为例,通过构建客观效果和主观感受指标来评价和衡
通过模拟实验方法,比较了8种天然黏粒红土和焙烧、天然矿物复配等处理的黏粒红土对磷污染水体的吸附净化能力,通过等温吸附探讨了黏粒红土的磷吸附机制.结果发现,8种供试天然
中国传统语文教学实践的基本经验是什么?这个问题目前还有很大的探究空间。从杜威的经验观来看,经验是有机体与环境交互作用的过程;这个过程有主动和被动的两个方面,二者相辅相成
对于消费者而言,冲动性购买并不陌生。我们往往发现自己购买的一些商品并不在计划购买的范围之内或者也不经常使用,于是后悔自己一时冲动买了不太需要的产品。而这种行为即冲动
也说托茂人王野苹冯锡时、M·乌兰的《关于托茂人》一文(见《西域研究》1993年第3期),对托茂人的源流考证颇为精详,读来很受启迪。其未尽之义,略作阐述,供史学界同仁参考。“托茂人”不是
国际贸易谈判在国际商务往来中是极为重要的一个环节,贸易谈判的质量关系到国际商务往来的成功与否,英语是国际贸易谈判中最为常用的语言,商务英语的沟通技巧在贸易谈判中发
从美国建国开始,基督教就扮演着重要的角色,美国社会的方方面面都被基督教新教打上了深深的烙印。宗教的影响体现在社会生活的各个方面,作为在美国历史中占有重要一页的废奴运动