搜索引擎中基于XML的网页预处理方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shunniu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,在线中文网页的数量迅猛增加,互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户迅速地获取其所需要的知识和信息。然而互联网上的信息存在以下问题:网页信息中通常伴随着一些与用户需求无关的噪音内容,例如版权声明信息、广告及导航信息等,网页本身缺乏必要的描述性信息,网页之间通过复杂的超链接联系起来等,这些问题影响了搜索引擎提供服务的质量。  在搜索引擎中,预处理模块的任务是净化网页内容、提取网页元数据、提取网页正文内容等。净化网页的目的是去除网页中的噪音内容,从而实现噪音信息和正文内容的分离。网页元数据指的是网页的描述性信息,网页元数据的合理使用有助于搜索引擎对网页信息的处理,为搜索引擎提供扩展查询的手段,使得搜索引擎在信息检索过程中不仅仅依靠关键词的匹配。网页标识、网页类型、关键词、摘要、更新日期等元数据的使用,可以为用户提供更加全面的网页信息,有助于提高查询的准确率。正文内容是网页的主体,它包括网页的主题内容和相关超链接,正文内容的提取是预处理模块的主要任务。  本文以预处理模块中网页的预处理过程为线索,首先总结了当前预处理模块中的主要问题的解决方法。然后分析了网页类型的判断、网页标题的提取,网页摘要的生成,相关超链接的提取,预处理后网页的存储等内容。对预处理模块需要完成的工作进行了深入的研究。在传统的网页预处理方法的基础上,提出了网页的文档对象模型,通过模型表示网页中的元数据和正文内容。  实验结果表明,在对网页文档建立索引之前,通过执行网页预处理操作,可以提高搜索引擎系统的检索效率和查询准确率,因此验证了文档对象模型模型的有效性。
其他文献
目的 研讨肝脏肿瘤患者使用64排螺旋CT鉴别诊断的临床价值.方法 我院2019年2月至2020年3月收治的肝脏肿瘤患者80例,以该部分患者为观察对象,对其64排螺旋CT检查资料、临床资
目的 规范临床微生物标本采集和送检,提高病原微生物的检出率,为临床疾病治疗提供有效信息.方法 现以我院2018年10月至2019年9月送检的1880例微生物培养及鉴定标本为观察对象
高性能计算技术是一个国家竞争力和科研实力的重要标志之一,并行计算技术受到各国的广泛重视。科学与工程计算中的很多问题的求解都依赖于并行计算技术。但目前的并行计算技术
目的 分析在医院药房管理中应用临床合理用药方案的实际价值.方法 选择自2017年3月至2018年3月我院医院药房执行的1000张处方及108例患者纳入对照组(实施药房规范管理前),选
现阶段,我国卫生统计与健康信息在开展模型建设的过程中,面临信息数据不全面、信息统一程度不足等一系列问题.本文对卫生统计与健康信息相关内容进行简单总结,提出卫生统计与
本文系统地研究了工作流过程定义中的复用问题,提出了一种基于复用的过程定义方法,该方法不再采用一切从零开始的方式进行过程定义,而是复用过去积累的知识与经验,能有效地降低过
经济发展与社会进步,促使国家医疗卫生领域得到迅速发展,信息化建设作为二十一世纪国家发展的主要特色,国家卫生部门提出增强卫生信息化及卫生统计工作建设的目标,并对于统计
本文从静止图像压缩理论出发,在分析JPEG2000标准的核心编解码算法的基础上,对JPEG2000标准中的码率控制算法进行重点研究。根据率失真理论,对于给定码率,可以对小波变换后的各个
当前高校医疗制度实践应用过程中,仍然存在诸多的现实问题亟待解决,高校教职工较为高昂的医疗费用难以得到有效的保障.因此,本文立足于高校医疗制度所存在的问题,进一步明确
  本文结合“共享信息的第二类网络”课题,通过HTIP/DVB传输研究,分析共享信息的第二类网络,了解其关键技术及核心思想,掌握HTIP实现框架;深入研究了共享信息的第二类网络数据链