综合风险垂直搜索引擎的研究与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户：A2335767

【摘要】

：

随着Internet信息的爆炸性增长以及信息多元化的发展，通用搜索引擎已经无法提供令专业人员满足的行业知识搜索，而提供专业信息搜索服务的垂直搜索引擎正逐渐成为当前搜索引擎研

【作者】

：

周像金

【机构】

：

西北大学

【出处】

：

西北大学

【发表日期】

：

2007年期

【关键词】

：

垂直搜索综合风险遗传算法支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet信息的爆炸性增长以及信息多元化的发展，通用搜索引擎已经无法提供令专业人员满足的行业知识搜索，而提供专业信息搜索服务的垂直搜索引擎正逐渐成为当前搜索引擎研究的热点。文章分析当前Web信息检索的模型及算法，并针对基于文本分类器的综合风险行业信息垂直搜索中的一些关键问题展开研究，主要包括三个核心模块：综合风险的信息分类、信息爬取和信息索引。研究内容包括：1．提出了一种遗传算法与支持向量机相结合的Web文本分类器模型。结合HTML标记权重信息建立向量空间模型，弥补了特征项在文本集合中分布的差异。向量空间的特征选择上采用改进了交叉算子的遗传算法，降低了向量维数。分类算法分析了支持向量机在Web文本分类中的优势，采用支持向量机算法，通过对比实验证明了该分类器模型的有效性。2．改进了爬行器中动态搜索的Fish算法。去掉了Fish算法中对风险信息爬取意义不大的中间部分，改进了Fish算法中的URL排序算法。爬虫设计上提出了基于Strategy模式的搜索策略模块设计，提高了系统的可扩展性。3．建立了一个单汉字索引数据库。分析了基于分词的索引模型和基于单汉字的索引模型，针对综合风险词汇更新较快的特点和分词索引的不足，利用倒排索引技术建立了单汉字索引数据库。用户查询使用“首字定位，全词匹配”的查询算法，提高了查询效率。4．设计实现了一个综合风险垂直搜索引擎，提供风险行业的信息搜索专业性服务，具有良好的可扩展性。本课题得到了“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20802)支持。

其他文献

基于RGB-D的跌倒检测方法研究

随着人口的增长，越来越多的国家在面临人口老龄化的问题，同时空巢老人和独居老人所占人口比例也逐渐增多，导致家中无人监护的跌倒行为越来越多。一个鲁棒的自动化跌倒检测系统可

学位

老年人跌倒检测RGB-D图像状态序列时间序列

元搜索引擎的调度策略研究

随着网络信息的爆炸性增长,用户在网上查询所需信息的难度越来越大。要想得到更为全面、准确的搜索结果,必须同时调用多个搜索引擎,元搜索引擎就是在这样的背景下产生的。元

学位

元搜索引擎调度策略搜索引擎查询性能

一种基于Web服务的数据挖掘系统框架的研究与实现

数据挖掘又称为数据库中的知识发现,是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的过程。数据挖掘是一个系统过程,一个挖掘任务可由不同的功能模

学位

数据挖掘Web服务挖掘引擎

孤立点挖掘技术在异常检测中的应用研究

随着Internet覆盖范围的不断扩大、计算机与网络技术研究的不断深入,网络安全作为一个无法回避的问题呈现在人们面前。如何保障信息安全、防范网络入侵已经成为人们最为关心

学位

异常检测孤立点挖掘k-最近邻

Freescale S08系列MCU软件仿真器的设计开发

Freescale公司的8位MCU应用广泛,其HCS08系列(下称S08系列)是2004年前后推出的增强型8位MCU,到目前为止已推出217种不同的产品。软件仿真器为用户程序提供一个完全脱离实际硬

学位

单片机仿真软件仿真器通用指令系统仿真S08系列MCU

综合多特征和相关反馈的ROI图像检索技术研究

计算机技术、多媒体技术及Internet的迅速发展，使得基于内容的图像检索成为多媒体领域最活跃的研究热点之一。本文首先介绍了基于内容的图像检索(CBIR)的背景及意义、国内外研

学位

基于内容的图像检索(CBIR)感兴趣区域(ROI)底层视觉特征特征提取相似性匹配相关反馈多特征区域权重

基于神经网络的农作物病虫害诊断方法研究

农业信息化是农业现代化的重要组成部分,将信息技术尤其是人工智能技术应用于农业是实现农业信息化的关键。农业智能系统的创建和应用改变了过去农业生产基层领导者决策的盲

学位

人工智能专家系统BP神经网络疾病诊断智能系统

搜索引擎个性化检索技术的研究

Web信息的快速增长,使得搜索引擎成为用户信息检索的主要工具。现有的搜索引擎基本上采用“一个搜索适用所有用户”的模型,体现不出用户真正的兴趣所在。因此,搜索引擎的个性

学位

搜索引擎个性化信息检索用户兴趣模型TFIDF算法

果蝇鸣声特征提取及人工神经网络分类研究

昆虫与人类的关系十分密切，它们直接或间接地影响着人类的生活。昆虫以各种行为发出的声音作为特定的交流方式，不同的行为发出的鸣声其意义也有所不同。研究其鸣声，分析鸣声产生

学位

果蝇鸣声特征提取人工神经网络分类

基于Netfilter的P2P流量测量系统研究

P2P网络应用在近几年得到了迅猛发展,以文件共享为主的P2P应用正在疯狂的吞噬带宽,已经严重影响到更为紧急的其他关键业务。因此,测量与控制P2P流量已经成为当前网络管理势在

学位

对等网流量测量Netfilter应用层识别连接跟踪

综合风险垂直搜索引擎的研究与实现

与本文相关的学术论文