论文部分内容阅读
云影音智能终端是将个人媒体内容与互联网结合起来,使得所有的媒体内容都可以通过高清平板电视观看的一款三网融合的产品。在云影音智能终端中有海量的音视频资源,用户需要高效的检索工具来实现快速精准查找资源。但由于该终端是个独立的系统,无法直接使用百度等成熟的搜索引擎,需设计一个高效的全文检索系统。在全文检索系统的开源框架中,Lucene是使用Java语言开发的一个开放源码全文检索引擎工具包。利用Lucene提供的接口进行二次开发,可按需完成各种不同具体目的的全文检索系统。由于在云影音智能终端全文检索系统中文本分析的对象主要是中文,而Lucene提供的中文分词技术简单机械,而且其默认的结果排序算法所计算的结果优先度得分往往与实际不符,不能满足实际需求,因此需要对Lucene进行扩充和改进才能加以使用。设计实现了一个基于Lucene的音视频全文检索系统来检索数据。通过对中文分词技术的分析和研究,给出了一种GMM算法,该算法采用全局最大匹配的原则,在全局范围内寻找匹配最大长度字符串,力求提高分词精准度。此外,对排序算法进行了改进,建立了综合考虑出现次数及位置重要性的新公式来计算返回结果的优先度得分。系统运行结果表明,给出的GMM算法分词有较好的分词效果,返回结果的排序更符合用户要求,全文检索系统的查全率及查准率都保持在较高水平,且查询结果返回时间都在用户可接受范围内,可以满足实际需求。