改进的内容分析排序算法在搜索引擎中的研究与应用

被引量 : 0次 | 上传用户:clarkesg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的不断发展和日益普及,网上的信息量呈爆炸趋势增长,如何在浩瀚如海的信息中迅速地定位到所需的信息,已成为人们不得不考虑的问题,于是信息检索技术应运而生并成为了当今最热门的技术之一。搜索引擎正是基于一定的策略在Web上搜索和发现信息,它的出现虽然只有短暂的十几年时间,但在Web上已经有了确定不移的地位。本文的研究工作主要有以下几方面:1.就搜索引擎及其发展历史作了简要的叙述,之后则就搜索引擎中重要的几类检索模型进行了相应的介绍,同时信息检索的评价指标,如:查准率、查全率等也在文中有所体现。2.在Salton发明的向量空间模型的基础上,本文对其经典算法TF-IDF公式进行了改进,提出了词频(TF)和逆文档频率(IDF)的乘积累加求和法和TF-IDF的归一化法,并与词频和逆文档频率的计算方法进行了比较;在基于概率模型方面,本文实现了文档和查询词权重的基础上的BM25排序算法;在语言模型方面,采用集合了最大似然模型和集合模型优势的Jelinek-Mercer平滑方法和绝对折扣平滑方法,之后本文对贝叶斯分析方法和狄利克雷参数分布结合的原狄利克雷(Dirichlet)平滑方法进行了改进,并对其算法作了部分深化。3.本文深入地研究了Lucene的排序机制,并且将上述几种基于内容的排序算法融入到了Lucene的排序机制中,进一步完善了Lucene对于查询结果的排序功能。最后,采用TREC会议中中英文双语语料进行了实验,通过查询测试和结果评价,作者发现运用不同排序算法对结果文档进行排序时,Lucene返回的结果文档的相关性是不一样的,而改进型的狄利克雷(Dirichlet)平滑方法具有最好的排序效果;而相对于采用词频TF、逆文档频率IDF等的向量空间模型排序效果而言,TF-IDF归一化法的排序效果较好。
其他文献
新股发行定价效率一直是我国证券市场中研究的焦点问题,随着上市公司业绩变脸、新股破发、高市盈率、新股首日遭爆炒等等问题出现,暴露出新股发行定价链条上的种种弊端,是当前中
玄武岩连续纤维是由玄武岩矿石在1450℃1500℃的条件下熔融,再经过喷丝板进行拉丝而制成的连续纤维,是一种新型多功能无机纤维新材料。首先,针对层合板材的面板材料的性能及
目的(1)以布洛芬为模型药物,制备并比较乙醇脂质体、二元醇脂质体及固体脂质纳米粒三种新型透皮脂质囊泡。(2)将透皮性能优者制备成温敏凝胶,考察新型布洛芬透皮脂质囊泡温敏
<正>提起白酒,人们脱口而出的茅台、五粮液、洋河等这些行业巨擎,它们业绩优良,品牌形象高高在上,二级市场的投资者也因此而获得了丰厚的回报。但是,记者在统计分析近五年内
在乡村振兴战略背景下,新乡贤作为一种非正式权威,回归参与乡村治理在一定程度上有助于丰富和壮大乡村治理主体,完善乡村治理体系。为此,选取云南省红河州符家营村新乡贤回归
我国有大量的超低热值燃气由于难以正常燃烧而被放空排掉,既污染环境又浪费能源。利用多孔介质燃烧技术可以有效解决超低热值燃气的燃烧利用,达到节能减排的效果。本文利用试验
陶粒作为一种人造轻集料,一般由页岩、黏土岩、工业废弃物等经粉碎、筛分、造粒后,在高温下烧结而成。它具有密度小、强度高、保温隔热、工程造价低、化学稳定性好等优点,通
概念式的思维方式仍然往往是“主角”,制约着艺术的自由创造和开拓。色彩创意绘画将色彩或色彩意象作为视觉艺术的绘画的第一形式要素,以抽象造型为主要形式而自由创作,主要依靠
基于对江苏省230家融资担保公司的深入调查,筛选了208家公司作为样本,研究供给侧驱动下的小微企业融资担保有效性问题。通过构建结构方程模型,实证分析融资担保公司信用供给
全民健身操是当前我国民众喜闻乐见且参与人数最多的全民健身项目之一,作为全民健身活动中的优势健身项目,其现行推广模式与实施效果对我国全民健身事业的发展起到十分重要的