论文部分内容阅读
近几年来随着网络信息量呈现爆炸性的增长,查找符合自己要求的内容变得越来越困难。搜索技术的出现在一定程度上解决了这种矛盾,通过这种技术用户可以最大限度地获取导航信息。但是针对某个具体的社区网站,搜索引擎在内容的及时性以及精确性方面还有自身的弱点。因此在Web2.0社区中,实现一个站内搜索引擎具有很高的现实意义,与搜索引擎相比,它在索引的及时性、内容的精确性方面可以得到很好的保证。本文阐述了面向Web2.0社区站内搜索引擎的设计以及实现,并且通过这样一个具体问题的解决,对面向Web2.0社区的搜索技术的进一步发展做了一些讨论。本文首先介绍了搜索引擎技术的分类以及结构特点,其次介绍了三种站内搜索技术并对其做了比较,并且对现有的Web2.0社区的站内搜索技术进行了详细分析,表明其优势所在和存在的问题,为面向Web2.0社区的站内搜索引擎的设计及实现做好铺垫。然后,基于搜索技术的思想,本文详细阐述了Web2.0社区站内搜索引擎的总体结构,重点介绍了分词技术和搜索排名技术。在分词技术中,主要是对现有的分词技术以及词典技术进行改进,使其符合Web2.0文档的结构特点,并且在分词效率上有明显的提高。在搜索排名技术中,提出了对现有搜索排名技术进行改进,使其符合Web2.0文档结构特点。应用于Web2.0社区站内搜索引擎中的排序算法,主要包含两部分内容:基于内容分析的排序算法和基于链接结构的排序算法。最后,将站内搜索引擎在基于Web2.0技术的开源项目开发平台——Trac平台上进行了实现,并且针对该搜索引擎进行了性能及功能测试,验证课题工作的有效性和可用性。论文完成的工作成果是863“开源软件IP资源库关键技术及系统”的重要组成部分,具有重要的理论和现实意义