分词算法优化——局域网FTP搜索引擎设计与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:limeijian168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文设计并实现了一个灵活、可配置、具有良好可扩展性且效率较高的校园网FTP搜索引擎系统。 本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合校园网搜索引擎的个性化需求,搭建了广州大学华软学院校园网的搜索引擎系统。完成了所有的开发与测试工作。 本文论述了系统开发的背景和国内外搜索引擎技术发展现状,并详细说明了该搜索引擎系统的开发过程和方法。首先从功能需求和非功能需求两个方面对校园网搜索引擎的个性化需求进行分析。然后根据需求分析提出了实现目标和原则,从系统的模块架构和技术架构两个方面描述了系统的整体功能和总体流程。 在技术架构设计中,自行设计了网络爬虫和优化了中文分词算法,用于提高系统的可扩展性、灵活性、可维护性,并降低了设计和开发的复杂性。另外,采用分布式处理模型作为存储和处理的基础,提高系统的并发处理能力,降低系统对硬件配置的要求。 在详细设计阶段,具体描述了各个功能模块和插件机制的设计。最后对实现过程中遇到的重要问题提出了详细的解决方案。系统实现部分描述了系统的运行环境和实现界面,并重点叙述了实现过程中的几个关键问题,如分词算法的实现以及链接分析算法的实现等。最后对系统进行测试,并根据测试结果进行了性能分析。实验证明,与原有搜索引擎相比,新的搜索引擎系统在检索效率和查准率等方而都有了质的提高。
其他文献
随着计算机网络和语音编码技术的飞速发展,语音通信技术获得了突破性的进展和非常广泛的应用。为了保证呼叫控制的安全性及语音数据的安全性,在通信开始时,一般采用身份认证
本文通过设计一种用于教学工作的激光笔轨迹识别系统,为授课者提供更方便的教学手段,为提高学习质量和效率提供有力的帮助。本课题是E-Learning实验室的Standard Natural Cla
剩余油分布的预测有很高的收益,因此引起世界各国对剩余油分布进行研究的重视。经过多年的开发,目前地下油水关系变得日趋复杂,有必要进行剩余油分布规律的研究。   本文分析
时间是信息的重要属性。随着数据库与信息技术的迅猛发展,时态信息的应用和处理已在各行各业成为必不可少的一部分,特别是在电子政务、电子商务、数据仓库、决策支持系统等信息
本文对信息检索原理和Agent技术进行了研究,对三种信息检索模型和四种信息检索方法进行了探讨。针对勘探与生产分公司对门户信息检索需求,在分析勘探生产门户的体系结构、组成
学位
数据挖掘就是从大量的数据中抽取以前未知并具有潜在可用的模式。而关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域,是数据挖掘的一个重要研究内容。它主要应用于
针对石油钻井企业钻具管理中因钻具库存量大、种类多、价值高而导致的管理难度大、成本高的现状,指出石油钻井企业实施钻具需求计划系统的必要性。通过制造业物料需求计划理论
随着社会的不断进步,在人口中占有相当比例的残疾群体的权益保障越来越得到各国政府的重视,“平等地获取信息”作为基本人权越来越得到政府的保护,信息无障碍及其国际化进程
生物特征识别是基于个人独特的生理或行为特征进行身份鉴别的技术,将生物特征引入到密码体系中已成为增强密码体系安全性的一种有效手段。在众多生物特征中,人脸特征是目前非