论文部分内容阅读
本人实习期间参与了百度视频泛需求检索系统的相关工作。该系统针对视频垂直搜索引擎,为用户提供视频检索领域的语义搜索服务,即借助更丰富的语义信息(而非仅仅停留在用户输入的文字本身)理解用户搜索的真正意图。本人主要负责泛需求检索数据处理子系统的设计实现工作。该子系统负责泛需求检索相关数据的预处理和数据质量监控工作,同时也提供泛需求检索成功失败情况的统计功能。该子系统主要包括检索数据预处理模块(Alamake)、屏蔽数据预处理模块(Pc_filter)、数据监控和统计模块(Data_monitor)三大模块和Web交互界面。本人具体工作概括如下:(1)完成了该子系统的需求分析和系统设计。通过与泛需求检索模块的开发人员沟通,并结合原有系统的不足确定数据处理子系统的需求。根据需求确定系统设计方案。该系统最终采用倒排索引算法建立索引,并使用Redis+MySQL的方案进行数据存储;系统采用B/S架构使使用者能够通过界面便捷的进行各项操作。(2)完成系统各模块的编码工作。采用HTML、JavaScript等页面开发技术实现Web接口编码。使用PHP语言完成核心模块编码。采用Mysql与Redis结合的方式进行数据存储。(3)完成系统测试。系统开发完成后使用原有系统真实数据进行各项功能测试,确保系统功能符合既定需求;对系统进行性能测试,验证系统能否在可容忍的时间内完成数据处理工作。(4)进行线上追踪。该系统上线后观测该系统的各项功能及性能能否满足实际应用的要求。该系统最终线上运行稳定,效果良好。更丰富的数据词典和索引有效改善了泛需求检索的质量;MySQL与Redis数据库结合的存储方式有效的改善了泛需求检索的处理性能;完善的备份管理和数据监控机制有效保障了数据的质量。该系统整体提升了百度视频泛需求检索的用户体验,达到了设计的目标。