基于Web的文本信息检索算法研究

被引量 : 0次 | 上传用户:YIFEIFEI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网上文本数量成指数级增长,如何有效检索这些海量信息成为当前重要的研究课题。文本信息检索(Information Retrieval)是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。文本信息检索是处理海量文本的重要手段。本文主要研究基于Web的文本信息检索算法。 本文首先介绍了信息检索的发展概况和相关技术,分析了基于内容检索算法、基于超链分析检索算法以及融合检索算法的特点。针对内容检索方法查全率不高、超链分析检索方法容易产生主题漂移的缺点,本文将基于内容和超链分析的检索方法相结合,提出一种基于超链接和标记文本的信息检索算法。该算法利用网页之间的链接关系和超链接中的标记文本内容计算网页的综合权值,在此基础上将检索结果进行排序输出。实验结果表明,该算法具有较高的查全率和查准率。 为了提高检索的查准率和降低检索时间,本文将文本分类和信息抽取技术辅助检索,提出了一种基于分类和关键词组抽取相结合的信息检索算法。该算法加入了分类和抽取技术,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。实验结果表明,所提算法具有更快的查询速度和更高的查准率。同时,针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序,并将其应用于向量空间模型算法、基于分类的交互式检索算法以及分类和关键词组抽取相结合的检索算法中,实验结果表明,本文所提算法具有较小的排序误差率。 最后,本文在已有信息检索算法的基础上,结合所提出的改进算法及技术,实现了一个专业领域的全文检索原型系统。
其他文献
本文对慢性胃炎治疗方面存在的诸多问题以及某些研究进展进行了综合讨论。提出了一些可能有助于客观评判药物疗效的指标,强调了幽门弯曲菌感染在慢性胃炎发病学和治疗学上的
图示思维和空间表达的能力是建筑师应该具备的基本设计素质,图示思维是建筑师进行设计时的主要思维方式,贯穿在建筑方案设计过程的始终,空间表达能力是建筑师传达设计信息、与人
财产保险利益制度是保险法中的“基石”,具有举足轻重的地位。由于我国保险业发展滞后,保险法研究相对不足,对财产保险利益的研究虽然有了一定程度的重视,但仍显不足。导致理论上
本文以人民法院在审理涉及仲裁的案件中出现的相关问题为研究对象,经过对人民法院与仲裁机构关系的分析,探讨了人民法院在审理涉仲裁案件中存在的若干问题,提出了法院在对仲裁支
目的评价昆明当地耐药谱抗生素与国外社区获得性肺炎(CAP)诊治指南推荐备选方案治疗CAP患者的抗菌疗效.方法采用前瞻性、随机、单盲、阳性药平行对照设计.以无基础疾病的门诊
我国对外贸易的高速增长引发了一系列的问题:第一,对外贸易成为拉动我国经济增长的一个重要因素,我国外贸依存度逐渐增大;第二,我国外贸的飞速发展已经使一些国家感到压力,对我国的
与宏观经济中的计划最优化相应,苏联企业的微观管理也向“最优化”发展。当时推广的“谢基诺实验”通过优化劳动组织、运用运筹学等科学计划手段,分解经济指标,实行物质刺激而实
本文从生态环境、人口控制和社会公正平等三方面阐述了妇女反贫困与可持续发展的内在联系 ,指出妇女反贫困是可持续发展的核心问题 ,而不是边缘问题。文章还指出 ,妇女反贫困
近年来,农业银行处置抵押物偿债时,存在由于难以评估抵押物价值而导致信贷资产损失的案例。论文针对房地产抵押物风险管理进行了探讨并提出了相关对策。
本文用弗洛伊德精神分析的批评方法,对十九世纪美国古典小说家纳撒尼尔·霍桑的代表作《红字》作了深入分析。 首先,通过运用精神分析批评方法考察主人公心理的内部机制,探究