搜索引擎中基于XML的网页预处理方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：shunniu

【摘要】

：

随着互联网技术的迅速发展，在线中文网页的数量迅猛增加，互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源，帮助用户迅速地获取其所需要的知识和信息。然

【作者】

：

沈文涛

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2006年期

【关键词】

：

搜索引擎 XML技术网页预处理方法功能模块

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的迅速发展，在线中文网页的数量迅猛增加，互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源，帮助用户迅速地获取其所需要的知识和信息。然而互联网上的信息存在以下问题：网页信息中通常伴随着一些与用户需求无关的噪音内容，例如版权声明信息、广告及导航信息等，网页本身缺乏必要的描述性信息，网页之间通过复杂的超链接联系起来等，这些问题影响了搜索引擎提供服务的质量。　　在搜索引擎中,预处理模块的任务是净化网页内容、提取网页元数据、提取网页正文内容等。净化网页的目的是去除网页中的噪音内容，从而实现噪音信息和正文内容的分离。网页元数据指的是网页的描述性信息，网页元数据的合理使用有助于搜索引擎对网页信息的处理，为搜索引擎提供扩展查询的手段，使得搜索引擎在信息检索过程中不仅仅依靠关键词的匹配。网页标识、网页类型、关键词、摘要、更新日期等元数据的使用，可以为用户提供更加全面的网页信息，有助于提高查询的准确率。正文内容是网页的主体，它包括网页的主题内容和相关超链接，正文内容的提取是预处理模块的主要任务。　　本文以预处理模块中网页的预处理过程为线索，首先总结了当前预处理模块中的主要问题的解决方法。然后分析了网页类型的判断、网页标题的提取，网页摘要的生成，相关超链接的提取，预处理后网页的存储等内容。对预处理模块需要完成的工作进行了深入的研究。在传统的网页预处理方法的基础上，提出了网页的文档对象模型，通过模型表示网页中的元数据和正文内容。　　实验结果表明，在对网页文档建立索引之前，通过执行网页预处理操作，可以提高搜索引擎系统的检索效率和查询准确率，因此验证了文档对象模型模型的有效性。

其他文献

64排螺旋CT在肝脏肿瘤鉴别诊断中的应用价值研究

目的研讨肝脏肿瘤患者使用64排螺旋CT鉴别诊断的临床价值.方法我院2019年2月至2020年3月收治的肝脏肿瘤患者80例,以该部分患者为观察对象,对其64排螺旋CT检查资料、临床资

期刊

肝脏肿瘤64排螺旋CT鉴别诊断临床价值

临床微生物标本规范采集和送检在临床中的重要作用

目的规范临床微生物标本采集和送检,提高病原微生物的检出率,为临床疾病治疗提供有效信息.方法现以我院2018年10月至2019年9月送检的1880例微生物培养及鉴定标本为观察对象

期刊

微生物检验标本质量监测感染性疾病病原学诊断

基于ProActive的并行计算技术研究

高性能计算技术是一个国家竞争力和科研实力的重要标志之一，并行计算技术受到各国的广泛重视。科学与工程计算中的很多问题的求解都依赖于并行计算技术。但目前的并行计算技术

学位

ProActive并行计算活动对象任务调度

临床合理用药方案在医院药房管理中的应用价值

目的分析在医院药房管理中应用临床合理用药方案的实际价值.方法选择自2017年3月至2018年3月我院医院药房执行的1000张处方及108例患者纳入对照组(实施药房规范管理前),选

期刊

医院药房药房管理临床合理用药医疗纠纷用药满意度

卫生统计与健康信息模型工作研究

现阶段,我国卫生统计与健康信息在开展模型建设的过程中,面临信息数据不全面、信息统一程度不足等一系列问题.本文对卫生统计与健康信息相关内容进行简单总结,提出卫生统计与

期刊

卫生统计健康信息模型工作

工作流过程定义中复用问题的研究——基于复用的工作流过程定义工具（PDTBR）的设计与实现

本文系统地研究了工作流过程定义中的复用问题，提出了一种基于复用的过程定义方法，该方法不再采用一切从零开始的方式进行过程定义，而是复用过去积累的知识与经验，能有效地降低过

学位

工作流过程定义软件复用业务描述

卫生信息化与卫生统计工作建设策略研究

经济发展与社会进步,促使国家医疗卫生领域得到迅速发展,信息化建设作为二十一世纪国家发展的主要特色,国家卫生部门提出增强卫生信息化及卫生统计工作建设的目标,并对于统计

期刊

卫生信息化卫生统计工作建设

新一代图像压缩标准中码率控制算法的研究

本文从静止图像压缩理论出发，在分析JPEG2000标准的核心编解码算法的基础上，对JPEG2000标准中的码率控制算法进行重点研究。根据率失真理论，对于给定码率，可以对小波变换后的各个

学位

图像压缩小波变换码率控制编码时间

高校医疗制度所存在的问题及改革研究

当前高校医疗制度实践应用过程中,仍然存在诸多的现实问题亟待解决,高校教职工较为高昂的医疗费用难以得到有效的保障.因此,本文立足于高校医疗制度所存在的问题,进一步明确

期刊

高校医疗制度问题改革

二类网络集成协议研究

　　本文结合“共享信息的第二类网络”课题，通过HTIP/DVB传输研究，分析共享信息的第二类网络，了解其关键技术及核心思想，掌握HTIP实现框架；深入研究了共享信息的第二类网络数据链

学位

第二类网络HTIPDVBHTIP/DVB网络集成协议共享信息

搜索引擎中基于XML的网页预处理方法研究

其他学术论文