综合风险垂直搜索引擎的研究与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:A2335767
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet信息的爆炸性增长以及信息多元化的发展,通用搜索引擎已经无法提供令专业人员满足的行业知识搜索,而提供专业信息搜索服务的垂直搜索引擎正逐渐成为当前搜索引擎研究的热点。文章分析当前Web信息检索的模型及算法,并针对基于文本分类器的综合风险行业信息垂直搜索中的一些关键问题展开研究,主要包括三个核心模块:综合风险的信息分类、信息爬取和信息索引。研究内容包括:1.提出了一种遗传算法与支持向量机相结合的Web文本分类器模型。结合HTML标记权重信息建立向量空间模型,弥补了特征项在文本集合中分布的差异。向量空间的特征选择上采用改进了交叉算子的遗传算法,降低了向量维数。分类算法分析了支持向量机在Web文本分类中的优势,采用支持向量机算法,通过对比实验证明了该分类器模型的有效性。2.改进了爬行器中动态搜索的Fish算法。去掉了Fish算法中对风险信息爬取意义不大的中间部分,改进了Fish算法中的URL排序算法。爬虫设计上提出了基于Strategy模式的搜索策略模块设计,提高了系统的可扩展性。3.建立了一个单汉字索引数据库。分析了基于分词的索引模型和基于单汉字的索引模型,针对综合风险词汇更新较快的特点和分词索引的不足,利用倒排索引技术建立了单汉字索引数据库。用户查询使用“首字定位,全词匹配”的查询算法,提高了查询效率。4.设计实现了一个综合风险垂直搜索引擎,提供风险行业的信息搜索专业性服务,具有良好的可扩展性。本课题得到了“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20802)支持。
其他文献
随着人口的增长,越来越多的国家在面临人口老龄化的问题,同时空巢老人和独居老人所占人口比例也逐渐增多,导致家中无人监护的跌倒行为越来越多。一个鲁棒的自动化跌倒检测系统可
随着网络信息的爆炸性增长,用户在网上查询所需信息的难度越来越大。要想得到更为全面、准确的搜索结果,必须同时调用多个搜索引擎,元搜索引擎就是在这样的背景下产生的。元
数据挖掘又称为数据库中的知识发现,是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的过程。数据挖掘是一个系统过程,一个挖掘任务可由不同的功能模
随着Internet覆盖范围的不断扩大、计算机与网络技术研究的不断深入,网络安全作为一个无法回避的问题呈现在人们面前。如何保障信息安全、防范网络入侵已经成为人们最为关心
Freescale公司的8位MCU应用广泛,其HCS08系列(下称S08系列)是2004年前后推出的增强型8位MCU,到目前为止已推出217种不同的产品。软件仿真器为用户程序提供一个完全脱离实际硬
计算机技术、多媒体技术及Internet的迅速发展,使得基于内容的图像检索成为多媒体领域最活跃的研究热点之一。本文首先介绍了基于内容的图像检索(CBIR)的背景及意义、国内外研
农业信息化是农业现代化的重要组成部分,将信息技术尤其是人工智能技术应用于农业是实现农业信息化的关键。农业智能系统的创建和应用改变了过去农业生产基层领导者决策的盲
Web信息的快速增长,使得搜索引擎成为用户信息检索的主要工具。现有的搜索引擎基本上采用“一个搜索适用所有用户”的模型,体现不出用户真正的兴趣所在。因此,搜索引擎的个性
昆虫与人类的关系十分密切,它们直接或间接地影响着人类的生活。昆虫以各种行为发出的声音作为特定的交流方式,不同的行为发出的鸣声其意义也有所不同。研究其鸣声,分析鸣声产生
P2P网络应用在近几年得到了迅猛发展,以文件共享为主的P2P应用正在疯狂的吞噬带宽,已经严重影响到更为紧急的其他关键业务。因此,测量与控制P2P流量已经成为当前网络管理势在