论文部分内容阅读
随着Internet信息的爆炸性增长以及信息多元化的发展,通用搜索引擎已经无法提供令专业人员满足的行业知识搜索,而提供专业信息搜索服务的垂直搜索引擎正逐渐成为当前搜索引擎研究的热点。文章分析当前Web信息检索的模型及算法,并针对基于文本分类器的综合风险行业信息垂直搜索中的一些关键问题展开研究,主要包括三个核心模块:综合风险的信息分类、信息爬取和信息索引。研究内容包括:1.提出了一种遗传算法与支持向量机相结合的Web文本分类器模型。结合HTML标记权重信息建立向量空间模型,弥补了特征项在文本集合中分布的差异。向量空间的特征选择上采用改进了交叉算子的遗传算法,降低了向量维数。分类算法分析了支持向量机在Web文本分类中的优势,采用支持向量机算法,通过对比实验证明了该分类器模型的有效性。2.改进了爬行器中动态搜索的Fish算法。去掉了Fish算法中对风险信息爬取意义不大的中间部分,改进了Fish算法中的URL排序算法。爬虫设计上提出了基于Strategy模式的搜索策略模块设计,提高了系统的可扩展性。3.建立了一个单汉字索引数据库。分析了基于分词的索引模型和基于单汉字的索引模型,针对综合风险词汇更新较快的特点和分词索引的不足,利用倒排索引技术建立了单汉字索引数据库。用户查询使用“首字定位,全词匹配”的查询算法,提高了查询效率。4.设计实现了一个综合风险垂直搜索引擎,提供风险行业的信息搜索专业性服务,具有良好的可扩展性。本课题得到了“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20802)支持。