基于Web Community识别的专业搜索引擎研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wuzhenlikk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,传统的搜索引擎已经不能满足人们对个性化信息检索服务的需求。对于用户提供的关键字,现有的搜索引擎往往返回成千上万的搜索结果,用户很难从中找到自己真正需要的内容。为了解决这个日益严重的问题,针对专业领域的个性化搜索研究正成为一个越来越热门的课题。 专业网站组成的集合,通常以Web Community的形式存在,并具有Scale-free特性。在一个具有Scale-free特性的网络中,网络节点的“出度-入度数”对应的分布函数及其相关参数几乎不受网络规模的影响,保持很好的稳定性。通过识别相应的Web Community,可以有效地提高从网络获取信息的效率。 文章主要讨论分析一个专业Web Community识别系统的设计和实现过程,通过专业网络蜘蛛从互联网有选择地抓取网页,并对抓取的网页内容进行专业相关性分析,不断将满足条件的网页加入到Web Community中,最终构建一个相对完整的专业Web Community。文章以对搜索引擎的背景和Web Community识别的相关技术介绍开始,分析了现有技术的不足之处,接着对系统实现的关键技术进行了详细地讨论与分析。 对系统设计与实现的讨论主要集中在以下两个章节:专业网络蜘蛛的设计与实现和Web Community识别关键算法研究。第三章描述了专业网络蜘蛛模块的设计实现以及性能优化等问题,讨论分析了其搜索策略的制定。第四章在目前较成熟的Web Community识别技术的基础上,提出了一种网页主题识别算法—WKHR算法(Weighted Keyword Hierarchical Recognition),该算法可以有效提高页面主题判断的准确性,在实际测试中取得了良好的效果。 论文的第五章叙述了系统的具体实现以及系统原型的相关测试分析。 最后,第六章对全文所做的工作做了一个总结,并提出进一步的展望。
其他文献
EBook概念化时期已经过去,网络的飞速发展促进了电子图书领域的成熟。电子图书已成为中国出版业发展的新兴热点。随之兴起的是各种厂商制作的电子阅读器产品。目前,各阅读器厂
目的 分析口腔医学技术专业学生的思政教育现状以及相应对策.方法 选择我校2018级口腔医学技术专业的学生53名,对所有学生进行统一问卷调查,问卷调查内容主要包括学生对口腔
目的 探讨在先天性心脏病超声教学中应用多媒体联合PBL教学法的应用价值,并对其应用效果进行分析.方法 研究时间段为2018年4月至2019年6月,选取80名医学影像系的学生作为本次
在电子商务、城市应急、科学计算等诸多领域,业务用户通常需要按照其个性化的需求快速集成互联网上跨域的数据资源。然而,互联网上的数据资源分布、自治、异构的特点给用户的数
中国的汽车产业在过去的十年中快速发展,如今正处于黄金时期。然而,汽车数量的剧增和驾驶人数的骤长也给交通运输环境带来了巨大的压力。我国每年交通事故的伤亡率和事故量长
目的 探讨以问题为基础(P B L)在乳腺癌放射治疗临床示教课中的运用价值.方法 以本院为单位,在2018年8月至2019年8月间,选取来本院实习的学生36名,对其开展乳腺癌放射治疗临
分析目前我国诸多医院计算机信息管理工作基本情况,可知在网络环境复杂性的影响之下,导致该信息管理工作出现了较多问题,不利于医院依托医院信息系统有效做好医院经营管理工
目的 对影响内镜消毒效果的相关因素进行分析与探讨,并提出问题解决的相关策略.方法 选取4000例2018年2月至2019年12月在我院接受消化内镜检查的患者,对其相关情况进行回顾性