基于网页结构特征的垂直搜索引擎研究与实现

被引量 : 0次 | 上传用户:siman2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息。Internet的信息资源具有多样性、分布性、开放性、时效性和异构性的特点,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。垂直搜索引擎可以将这些信息按主题进行抽取,以结构化形式存储。本文提出了一种基于网页结构特征的垂直搜索引擎模型。根据专业和行业网站的领域特点,提出相应主题的元数据统一表示标准。通过对对应网站的网页分析,依据元数据表示标准和网页结构特征,提炼出具体网站网页的信息抽取模板。垂直搜索引擎根据该信息抽取模板对目标网站进行网页爬行、页面转换、抽取数据和分离数据及保存数据。网站的信息抽取模板采用XML进行描述,对应网页结构特征。由于采用标准的XML并以文件形式存放,可以方便地在关心该网站信息的用户之间共享。根据本文提出的基于网页结构特征的垂直搜索引擎模型,我们开发了一个基于网页结构特征的垂直搜索引擎系统。整个系统以元数据模型为基础,对网站网页结构进行结构化处理,获得网页的结构化信息。基于该搜索引擎,我们开发了车货配物流等垂直搜索网站,在实践中进一步得到了检验。本文的主要工作和成果如下:1.研究基于网页结构特征的垂直搜索引擎系统的工作原理和基本系统结构通过对垂直搜索引擎技术和相关技术的研究,提出了基于网页结构特征的垂直搜索引擎工作模型,将系统处理流程主要分为:网页爬行、页面转换、抽取数据、分离数据。基于工作模型,本文提出了一个分层的系统架构。2.提出了一种针对行业网站网页信息的元数据模型本课题通过对行业信息分析,提出一种通用的和标准化的元数据模型。同时利用XML等技术实现了该模型,并根据具体网站的网页结构特征,利用XSLT技术提出了将网站网页信息转换为符合该元数据模型的数据的信息抽取模板方式。3 .实现了一个基于网页结构特征的垂直搜索引擎系统本课题根据系统模型,利用Microsoft .Net技术实现了一个基于网页结构特征的垂直搜索引擎系统。该系统采用面向接口编程,利用系统配置文件使系统具备有高可配置性和弹性。同时利用多线程技术,最大限度地利用计算机和网络资源,使系统具备有很高的工作效率。4.建立了车货配物流原型系统以本课题开发的垂直搜索引擎系统为基础,依据元数据模型,结合互联网上车货配网站,确立车货配元数据模型和信息抽取模板。利用该系统,通过对车货配网站信息的垂直搜索,获取网站的相应信息。建立一个网站原型,提供车货配垂直搜索服务,论证了系统的可行性和可用性。车货配物流信息搜索工作结果显示,基于网页结构特征的垂直搜索引擎是一种具备商业价值的垂直搜索引擎。由于该搜索引擎具有良好的通用性,将数据描述和数据处理进行抽象分离,所有的部分采用组件构建,将其应用于其他专业或行业中,也将会带来很大的商机机会和社会效益。
其他文献
V型滤池在反冲洗时存在不同程度的跑砂现象是水厂里一种比较常见的问题,也是长期以来一直困扰着本行业的一个难题。通过对V型滤池反冲洗系统的深入研究,针对反冲洗强度过大、
设计变更和工程签证工作是工程施工管理中很重要的一项内容,因为它内容广泛,构成原因复杂,规律性较差,发生的时间长,难以确定其造价。因此,搞好这项工作是建设单位合理确定工
主观幸福感作为一种重要的衡量个人和社会生活质量的综合性心理指标,越来越受到社会各界的关注。警察作为一个高风险、高压力的职业,一方面要经常面对受伤甚至牺牲的威胁;另
珠海三灶水厂改造工程处理规模为2.0×104m3/d,采用网格絮凝+新型气浮-沉淀+锰砂滤料V型滤池组合工艺。水库原水中锰的最高含量达到1.19 mg/L,生产运行时,新型气浮-沉淀池运
文中讨论的联合连词,按形式和意义相结合的标准,对连词进行分类所分出的联合连词和偏正连词两大类中的一类。联合连词下分表示并列、承接、递进、选择等关系的连词。本文首先
人类已经进入二十一世纪,迎接世界信息技术迅猛发展的挑战,以信息化带动教育的现代化,已经成为教育跨越式发展的重要途径。如何培养出符合社会发展需求,具有信息素养,能搜集
华麓景区是华山风景名胜区的山麓地带,是进入华山的必经之地,被誉为华山的门户景区和名山前哨。本文以华麓景区自然与文化景观资源评价与保护为基点,从地质地貌、动植物、生
全国社会保障基金是中央政府集中的社会保障资金,作为国家重要的战略储备,已经受到了越来越多的关注。然而,社保基金也面临着诸多问题,其中最主要的是社保基金的保值增值问题
气浮与沉淀填料装置采用连接杆件将平直薄板(pp板)即斜板连接、组合在一起,能够进行侧向流斜板沉淀,也能够进行上向流或下向流斜板沉淀。特别是在浮沉池中能够进行气浮—沉淀
在介绍切割果蔬加工工艺的基础上 ,从原料、清洗、去皮及切分 (块、丝、丁等 )、褐变抑制、微生物的控制、包装、贮存和配送及销售等方面介绍了切割果蔬的操作技术要点