垂直搜索引擎关键技术研究与实现

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:Coolbear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,用户对于信息搜索的需求不断提升,特别是在垂直领域对搜索引擎的要求全面提升,主要包括搜索多层排序、智能搜索、关键词联想、信息自动抽取及关键词高亮等几个核心技术。本论文正是针对上述几个核心技术点,以互联网音乐垂直领域搜索应用为主要研究对象,在深入分析当前开源搜索引擎lucene的基础上,结合垂直领域搜索引擎的个性化需求,对垂直领域搜索引擎算法进行了详细的研究和开发,并开发出一个通用的垂直搜索引擎框架。主要内容包括以下几个部分:本文通过研究开源搜索引擎lucene,并对上述核心技术算法重新设计和实现,开发出一套通用的垂直搜索引擎框架。解决搜索结果线性排序方式单一问题。垂直搜索引擎对搜索的结果排序方式要求要比普通的综合搜索引擎高,搜索结果要求更精确,需要按照多种层次进行精确排序,本文实现一种分层排序算法来实现解决目前搜索引擎单层排序问题。解决搜索深度不够问题。目前的搜索一般通过文字内容匹配的方式得到对应的搜索结果,这样的搜索只能做到简单的字符配对。本文通过二维空间得分计算的算法建立智能属性来解决深度搜索问题,实现智能搜索。解决数据智能处理力度不足问题。目前从网页中抽取信息时一般采用编写正则表达式或者配置网页模板的方式进行信息抽取,相对于搜索引擎需要对全网海量的数据进行实时处理,无法依靠人力编写如此之多的正则表达式和模板,本文通过粗糙集算法建立多维约束数据抽取方式实现新闻类网页的内容智能抽取。设计并实现关键词联想算法。目前搜索引擎为了简化用户的输入成本而提供了关键字联想功能。本文设计了一种搜索引擎关键字提示内容生成及更新方法,具有高效的关键词联想效率及多种策略功能。。设计并实现搜索关键词高亮算法。本文旨在设计一种关键信息显示方法,特别对超长文本的关键词高亮显示技术,设计了一种基于哈希查询算法的技术方案来实现关键词的快速高亮显示功能。
其他文献
计算思维作为信息时代利用计算机科学解决问题的思维模式,被列为高中信息技术课的核心素养之一。但在计算思维的培养方面却存在着师生之间数字鸿沟显著、计算思维与3R的地位
目的观察中西医结合治疗冠心病的临床疗效。方法将80例冠心病患者随机分为对照组与治疗组各40例,2组均予西医常规治疗,治疗组加用自拟益气活血汤治疗,疗程均为4周。结果治疗
<正> 经过纳粹十多年暴政,今日美国占领下的德国不啻是一庞大法庭。希特勒在各地都盖有强固的集中营,今日那些囚笼恰好用来关昨日的暴徒。今晨在威城市政厅举行美占领区第一
目的观察癃闭舒胶囊联合盐酸坦索罗辛治疗慢性非细菌性前列腺炎(CAP)的有效性与安全性。方法治疗组60例患者给予癃闭舒胶囊与盐酸坦索罗辛,对照组45例患者给予前列康片与盐酸
<正>火画扇,也称为烙画扇,因制作过程中需要使用香火或烙铁在葵扇面上作画而得名。根据新会地方史志记载,清同治年间,新会画师陈晚试图将书画印于普通葵扇面上,但因其粘贴不
<正> 稀土化合物应用于农业的领域不断扩展。施用“常乐”的农作物品种已经超过四十种,同时又研究成功了将稀土化合物施用于林业和牧草的技术。将有机、无机稀土化合物用于养
<正>2016年9月,由教育部委托北京师范大学,联合国内各高校近百位专家历时三年,研制完成的《中国学生发展核心素养》(以下简称《核心素养》)正式发布。《核心素养》对新时期中
目的观察家庭护理在早期宫颈癌患者中的应用效果。方法选取我院2016年2月—2018年5月收治的50例早期宫颈癌患者,根据就诊先后顺序将其分为观察组(n=25)、对照组(n=25)。对照
自2007年上海金融仲裁院建立以来,各地仲裁委根据自身情况纷纷建立金融仲裁院,金融仲裁在我国逐渐兴起并不断成长。鉴于各地金融仲裁院在金融仲裁的具体操作方面存在差别,本
[目的]探究我国社区药店开展药学服务的影响因素及其相互关系。[方法]利用德尔菲专家访谈法初步确立社区药店开展药学服务的影响因素指标;针对南京市社区药店药师采用问卷调