论文部分内容阅读
随着互联网的飞速发展,用户对于信息搜索的需求不断提升,特别是在垂直领域对搜索引擎的要求全面提升,主要包括搜索多层排序、智能搜索、关键词联想、信息自动抽取及关键词高亮等几个核心技术。本论文正是针对上述几个核心技术点,以互联网音乐垂直领域搜索应用为主要研究对象,在深入分析当前开源搜索引擎lucene的基础上,结合垂直领域搜索引擎的个性化需求,对垂直领域搜索引擎算法进行了详细的研究和开发,并开发出一个通用的垂直搜索引擎框架。主要内容包括以下几个部分:本文通过研究开源搜索引擎lucene,并对上述核心技术算法重新设计和实现,开发出一套通用的垂直搜索引擎框架。解决搜索结果线性排序方式单一问题。垂直搜索引擎对搜索的结果排序方式要求要比普通的综合搜索引擎高,搜索结果要求更精确,需要按照多种层次进行精确排序,本文实现一种分层排序算法来实现解决目前搜索引擎单层排序问题。解决搜索深度不够问题。目前的搜索一般通过文字内容匹配的方式得到对应的搜索结果,这样的搜索只能做到简单的字符配对。本文通过二维空间得分计算的算法建立智能属性来解决深度搜索问题,实现智能搜索。解决数据智能处理力度不足问题。目前从网页中抽取信息时一般采用编写正则表达式或者配置网页模板的方式进行信息抽取,相对于搜索引擎需要对全网海量的数据进行实时处理,无法依靠人力编写如此之多的正则表达式和模板,本文通过粗糙集算法建立多维约束数据抽取方式实现新闻类网页的内容智能抽取。设计并实现关键词联想算法。目前搜索引擎为了简化用户的输入成本而提供了关键字联想功能。本文设计了一种搜索引擎关键字提示内容生成及更新方法,具有高效的关键词联想效率及多种策略功能。。设计并实现搜索关键词高亮算法。本文旨在设计一种关键信息显示方法,特别对超长文本的关键词高亮显示技术,设计了一种基于哈希查询算法的技术方案来实现关键词的快速高亮显示功能。