基于Web Community识别的专业搜索引擎研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：wuzhenlikk

【摘要】

：

随着Internet的飞速发展,Web的信息量越来越大,传统的搜索引擎已经不能满足人们对个性化信息检索服务的需求。对于用户提供的关键字,现有的搜索引擎往往返回成千上万的搜索结

【作者】

：

郭谢

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2006年期

【关键词】

：

搜索引擎网络蜘蛛搜索策略完成端口主题识别 Web Community

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的飞速发展,Web的信息量越来越大,传统的搜索引擎已经不能满足人们对个性化信息检索服务的需求。对于用户提供的关键字,现有的搜索引擎往往返回成千上万的搜索结果,用户很难从中找到自己真正需要的内容。为了解决这个日益严重的问题,针对专业领域的个性化搜索研究正成为一个越来越热门的课题。专业网站组成的集合,通常以Web Community的形式存在,并具有Scale-free特性。在一个具有Scale-free特性的网络中,网络节点的“出度-入度数”对应的分布函数及其相关参数几乎不受网络规模的影响,保持很好的稳定性。通过识别相应的Web Community,可以有效地提高从网络获取信息的效率。文章主要讨论分析一个专业Web Community识别系统的设计和实现过程,通过专业网络蜘蛛从互联网有选择地抓取网页,并对抓取的网页内容进行专业相关性分析,不断将满足条件的网页加入到Web Community中,最终构建一个相对完整的专业Web Community。文章以对搜索引擎的背景和Web Community识别的相关技术介绍开始,分析了现有技术的不足之处,接着对系统实现的关键技术进行了详细地讨论与分析。对系统设计与实现的讨论主要集中在以下两个章节:专业网络蜘蛛的设计与实现和Web Community识别关键算法研究。第三章描述了专业网络蜘蛛模块的设计实现以及性能优化等问题,讨论分析了其搜索策略的制定。第四章在目前较成熟的Web Community识别技术的基础上,提出了一种网页主题识别算法—WKHR算法(Weighted Keyword Hierarchical Recognition),该算法可以有效提高页面主题判断的准确性,在实际测试中取得了良好的效果。论文的第五章叙述了系统的具体实现以及系统原型的相关测试分析。最后,第六章对全文所做的工作做了一个总结,并提出进一步的展望。

其他文献

基于大幅面手持阅读工具型文档格式研究

EBook概念化时期已经过去，网络的飞速发展促进了电子图书领域的成熟。电子图书已成为中国出版业发展的新兴热点。随之兴起的是各种厂商制作的电子阅读器产品。目前，各阅读器厂

学位

手持阅读工具文档格式流式版面固定版面半流式版面全息阅读附加字库正交目录

供电公司党政廉风建设的强化途径

一直以来,党政廉风建设都是企业建设工作中的一项十分艰巨的任务,企业在完成该项工作时遇到的难度较大.在新的社会发展阶段,电力企业作为我国支柱性产业之一,其党政廉风工作

期刊

电力企业党政廉风建设强化途径研究

分析探讨口腔医学技术专业学生思政教育现状及对策

目的分析口腔医学技术专业学生的思政教育现状以及相应对策.方法选择我校2018级口腔医学技术专业的学生53名,对所有学生进行统一问卷调查,问卷调查内容主要包括学生对口腔

期刊

口腔医学技术专业学生思政教育现状对策

齐格勒—未来成功的煤炭公司

当我们向21世纪前进的时候，发现美国的煤炭工业由5个年产2～2．5亿t的大公司控制，它们的煤炭产量大约占全美产量的80％。齐格勒煤炭股份公司的总裁兼行政主管蔡德·维艾斯充满信心地

期刊

齐格勒煤炭公司能源工业电力公司天然气生产煤炭销售煤炭生产动力煤电力营销电力经济

多媒体联合PBL教学法在先天性心脏病超声教学中的应用

目的探讨在先天性心脏病超声教学中应用多媒体联合PBL教学法的应用价值,并对其应用效果进行分析.方法研究时间段为2018年4月至2019年6月,选取80名医学影像系的学生作为本次

期刊

PBL教学法先天性心脏病超声教学多媒体

面向情景数据集成的数据服务超链模型及其应用研究

在电子商务、城市应急、科学计算等诸多领域，业务用户通常需要按照其个性化的需求快速集成互联网上跨域的数据资源。然而，互联网上的数据资源分布、自治、异构的特点给用户的数

学位

情景数据集成组合数据服务超链模型原型系统

基于人眼检测和脑波侦测的疲劳驾驶检测系统

中国的汽车产业在过去的十年中快速发展,如今正处于黄金时期。然而,汽车数量的剧增和驾驶人数的骤长也给交通运输环境带来了巨大的压力。我国每年交通事故的伤亡率和事故量长

学位

疲劳驾驶检测人眼检测脑电波侦测最近特征线空间信息融合

PBL在乳腺癌放射治疗临床示教课中的运用价值

目的探讨以问题为基础(P B L)在乳腺癌放射治疗临床示教课中的运用价值.方法以本院为单位,在2018年8月至2019年8月间,选取来本院实习的学生36名,对其开展乳腺癌放射治疗临

期刊

以问题为基础教学法乳腺癌放射治疗临床示教课

对网络环境下医院计算机信息管理问题的探讨

分析目前我国诸多医院计算机信息管理工作基本情况,可知在网络环境复杂性的影响之下,导致该信息管理工作出现了较多问题,不利于医院依托医院信息系统有效做好医院经营管理工

期刊

网络环境医院计算机信息管理问题

内镜消毒效果的影响因素及规范化管理

目的对影响内镜消毒效果的相关因素进行分析与探讨,并提出问题解决的相关策略.方法选取4000例2018年2月至2019年12月在我院接受消化内镜检查的患者,对其相关情况进行回顾性

期刊

消化内镜消毒效果影响因素规范化管理

基于Web Community识别的专业搜索引擎研究

其他学术论文