论文部分内容阅读
通用搜索引擎与网站提供的站内搜索机制都无法实现基于内容的企业网站信息查找。在分析企业网站信息的类型后,针对该问题提出一个通用站内搜索引擎架构。给出该引擎的设计思想,介绍对象映射匹配方法、加权对象相似度计算算法、索引构建等实现技术。实现基于网页内容、Word与pdf附件内容的查找定位。实验结果显示,该方法具有很高的查准率和查全率。该引擎可为企业网站的内容搜索与个性化服务提供支持。