改进的内容分析排序算法在搜索引擎中的研究与应用

被引量 : 0次 | 上传用户：clarkesg

【摘要】

：

随着因特网的不断发展和日益普及,网上的信息量呈爆炸趋势增长,如何在浩瀚如海的信息中迅速地定位到所需的信息,已成为人们不得不考虑的问题,于是信息检索技术应运而生并成为

【作者】

：

廉洁

【发表日期】

：

2013年期

【关键词】

：

搜索引擎排序算法 Lucene 改进型狄利克雷平滑法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着因特网的不断发展和日益普及,网上的信息量呈爆炸趋势增长,如何在浩瀚如海的信息中迅速地定位到所需的信息,已成为人们不得不考虑的问题,于是信息检索技术应运而生并成为了当今最热门的技术之一。搜索引擎正是基于一定的策略在Web上搜索和发现信息,它的出现虽然只有短暂的十几年时间,但在Web上已经有了确定不移的地位。本文的研究工作主要有以下几方面：1.就搜索引擎及其发展历史作了简要的叙述,之后则就搜索引擎中重要的几类检索模型进行了相应的介绍,同时信息检索的评价指标,如：查准率、查全率等也在文中有所体现。2.在Salton发明的向量空间模型的基础上,本文对其经典算法TF-IDF公式进行了改进,提出了词频(TF)和逆文档频率(IDF)的乘积累加求和法和TF-IDF的归一化法,并与词频和逆文档频率的计算方法进行了比较；在基于概率模型方面,本文实现了文档和查询词权重的基础上的BM25排序算法；在语言模型方面,采用集合了最大似然模型和集合模型优势的Jelinek-Mercer平滑方法和绝对折扣平滑方法,之后本文对贝叶斯分析方法和狄利克雷参数分布结合的原狄利克雷(Dirichlet)平滑方法进行了改进,并对其算法作了部分深化。3.本文深入地研究了Lucene的排序机制,并且将上述几种基于内容的排序算法融入到了Lucene的排序机制中,进一步完善了Lucene对于查询结果的排序功能。最后,采用TREC会议中中英文双语语料进行了实验,通过查询测试和结果评价,作者发现运用不同排序算法对结果文档进行排序时,Lucene返回的结果文档的相关性是不一样的,而改进型的狄利克雷(Dirichlet)平滑方法具有最好的排序效果；而相对于采用词频TF、逆文档频率IDF等的向量空间模型排序效果而言,TF-IDF归一化法的排序效果较好。

其他文献

我国新股发行制度改革对新股定价效率影响的研究

新股发行定价效率一直是我国证券市场中研究的焦点问题，随着上市公司业绩变脸、新股破发、高市盈率、新股首日遭爆炒等等问题出现，暴露出新股发行定价链条上的种种弊端，是当前中

学位

新股发行制度改革定价效率股价信息含量

轻质环保型玄武岩多功能建材的研发

玄武岩连续纤维是由玄武岩矿石在1450℃1500℃的条件下熔融,再经过喷丝板进行拉丝而制成的连续纤维,是一种新型多功能无机纤维新材料。首先,针对层合板材的面板材料的性能及

学位

玄武岩纤维编织绳层合工艺压缩性能不饱和聚酯树脂

三种新型布洛芬透皮脂质囊泡的比较及二元醇脂质体温敏凝胶的制备与评价

目的(1)以布洛芬为模型药物,制备并比较乙醇脂质体、二元醇脂质体及固体脂质纳米粒三种新型透皮脂质囊泡。(2)将透皮性能优者制备成温敏凝胶,考察新型布洛芬透皮脂质囊泡温敏

学位

布洛芬乙醇脂质体二元醇脂质体固体脂质纳米粒温敏凝胶经皮给药

金种子酒:差异化战略铸造区域品牌王者

<正>提起白酒,人们脱口而出的茅台、五粮液、洋河等这些行业巨擎,它们业绩优良,品牌形象高高在上,二级市场的投资者也因此而获得了丰厚的回报。但是,记者在统计分析近五年内

期刊

金种子酒差异化战略净利润增长率区域品牌

乡村振兴战略背景下新乡贤参与乡村治理研究——基于红河州符家营村调查的思考

在乡村振兴战略背景下,新乡贤作为一种非正式权威,回归参与乡村治理在一定程度上有助于丰富和壮大乡村治理主体,完善乡村治理体系。为此,选取云南省红河州符家营村新乡贤回归

期刊

乡村振兴新乡贤乡村治理符家营村

超低热值燃气多孔介质燃烧器的开发研究

我国有大量的超低热值燃气由于难以正常燃烧而被放空排掉，既污染环境又浪费能源。利用多孔介质燃烧技术可以有效解决超低热值燃气的燃烧利用，达到节能减排的效果。本文利用试验

学位

超低热值燃气多孔介质燃烧器积木式排列泡沫陶瓷

非金属矿复合陶粒的制备及性能研究

陶粒作为一种人造轻集料,一般由页岩、黏土岩、工业废弃物等经粉碎、筛分、造粒后,在高温下烧结而成。它具有密度小、强度高、保温隔热、工程造价低、化学稳定性好等优点,通

学位

陶粒非金属矿珍珠岩膨润土凝灰岩碳化硅轻质高强

色彩创意绘画——底线绘画

概念式的思维方式仍然往往是“主角”，制约着艺术的自由创造和开拓。色彩创意绘画将色彩或色彩意象作为视觉艺术的绘画的第一形式要素，以抽象造型为主要形式而自由创作，主要依靠

期刊

色彩创意绘画软思维

中国小微企业融资担保有效性影响因素研究——基于江苏省担保公司的实证分析

基于对江苏省230家融资担保公司的深入调查,筛选了208家公司作为样本,研究供给侧驱动下的小微企业融资担保有效性问题。通过构建结构方程模型,实证分析融资担保公司信用供给

期刊

供给侧驱动小微企业融资融资担保有效性结构方程模型

我国全民健身操现行推广模式的研究

全民健身操是当前我国民众喜闻乐见且参与人数最多的全民健身项目之一,作为全民健身活动中的优势健身项目,其现行推广模式与实施效果对我国全民健身事业的发展起到十分重要的

学位

推广模式全民健身操

改进的内容分析排序算法在搜索引擎中的研究与应用

其他学术论文