【摘 要】
:
随着各种各样不同种类的信息越来越多的出现在互联网上,普通的搜索引擎已经很难满足用户特定的搜索需求,于是,基于主题的垂直搜索引擎应用而生,它能够针对用户不同的搜索需求在最
论文部分内容阅读
随着各种各样不同种类的信息越来越多的出现在互联网上,普通的搜索引擎已经很难满足用户特定的搜索需求,于是,基于主题的垂直搜索引擎应用而生,它能够针对用户不同的搜索需求在最短时间内给出相应的搜索结果,体现出了极强的专业性和精确性。 本文首先针对搜索引擎的原理以及系统组成结构进行较详细的阐述与分析,并分析讨论了网络机器人的工作原理。由Apache基金会jakarta推出了一个开源的全文索引工具包Lucene,它可以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎,它可以方便的嵌入到各种应用中实现针对应用的全文索引和检索功能。在此基础上,本文还探讨了在Lucene中索引的建立及进行全文检索的原理,重点是倒排索引及中文分词方面。 本文在以上理论的基础上,利用网络机器人从所需网页解析出所需的内容建立索引,同时利用Struts+Hibernate+Spring的J2EE框架搭建搜索引擎Web平台,并利用Lucene实现了检索和索引的功能。
其他文献
语音识别技术日趋成熟,但仍然存在一系列难题有待解决,尤其是大词表连续语音识别(LVCSR)技术,在识别速度、识别正确率、系统顽健性等能力上还远远没有达到尽善尽美。特别是在
动态网络最短路径问题是网络优化的重要内容,传统的求解算法如Dijkstra算法、A*算法无法求解动态网络最短路径问题,而智能算法如遗传算法等迭代次数高、效率低下,为了更好的
通过分析当前国内外动漫产业的发展情况,发现动漫产业在国际市场上是备受关注的,并且是当今时代市场前景最广阔的产业之一。如何在新一轮的知识经济浪潮中,发展有中国特色的
网格是当前高性能计算方面研究的一个热点问题,被称为下一代计算机网络的基础。网格的目的是利用互联网把分散在不同地理位置的电脑组织成一台虚拟的超级计算机,实现计算资源
随着全球网络信息化的飞速发展,保障电子商务和电子政务系统安全的PKI/CA系统的数量也在不断增加,随之产生了许多相互独立的PKI/CA系统孤岛。从属于不同CA的用户为了验证相互之
带性能约束复杂布局问题,如印刷电路板(PCB)和航天器舱的布局方案设计及工厂机床设备布置问题等,属于NP-Complete问题,求解困难。在求解这些问题时,除了要求满足待布物间不干
表格处理软件是报表软件系统的不可缺少的重要组成部分,它控制各种格式报表的产生、展示与输出。表格处理软件的研究开发对于提高报表设计过程的可视性、易用性,提高报表设计
近年来无线传感器网络基于其深远价值与意义,一直被热门关注和研究。由于传感器节点之间通信能量开销占节点能量总开销的比重大,以及用户特殊查询目的等因素,用户有时想执行
随着我国城市化建设进程的加快,对城市水资源的供给需求也越来越大。在增强供给能力的同时也需要考虑减少不必要的损耗。供水损失率大一直是困扰供水行业的一大难题,其中各种各
图像具有丰富且结构良好的视觉信息,但在传输或获取过程中往往受到噪声的干扰而产生误差。这不但对图像的视觉效果产生了很坏的影响,更给后续的图像分析处理带来了很大困难。