元数据描述对搜索引擎排序结果影响研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:laijacky1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   [摘 要]基于元数据描述在搜索引擎排序算法中权重及对排序结果的影响越来越小这一问题,本文首先分析了元数据标签的存在价值及其对检索结果优化本应起到的作用,并对如何优化元数据标签,使其更好的揭示网页内容与特定主题的相关度这一问题进行了讨论。其次,在分析的基础上,通过实证研究的方法,利用不同主题范围的检索词在搜索引擎检索的结果,对元数据在搜索引擎当中的实际使用和优化情况进行了统计调查和建模分析,借此,考察元数据描述对搜索引擎排序结果的实际影响和意义,并提出了未来元数据描述在网页编写及搜索结果排序中应注意的问题。
  [关键词]元数据标签;搜索引擎;HTML;搜索结果;信息组织
  [中图分类号]G354 [文献标识码]A [文章编号]1008-0821(2010)05-0163-04
  Study on the Effect of Metadata on Improving the Searching EfficiencyXing Bo
  (Department of Information Management,Beking University,Beijing 100871,China)
  
  [Abstract]The aim of this paper was to determine the effect of metadata on improving the searching efficiency.First,the worth of metadata was discussed,and then,the effect of metadata on how to improve the searching efficiency was studied by the empirical study.The searching result was used to investigate the real status of the usage of metadata in HTML.The Generalized Linear Model(GLM)was used to describe the relation between the metadata and searching result.The result showed that the effect of metadata on improving the searching efficiency still existed.It was necessary to pay attention to the importance of metadata in HTML.
  [Keywords]metadata label;search engine;HTML;search result;information organization
  
  现今,搜索引擎已成为用户获得网络信息资源的最主要途径。网页资源在搜索引擎中的排名将直接影响到网页资源的内容被用户接收和利用的效率。而检索结果的排序由网页内容与特定检索主题的相关度所决定。网页资源的内容与特定检索主题的相关度越高,在用户搜索该检索词时,网页资源在检索结果中的排序也就越高。另一方面,资源描述是揭示信息资源,说明信息资源主题内容的重要手段。更为有效合理的资源描述,可以更为准确的揭示出信息资源与特定主题之间的相关程度。据此,元数据标签作为网络信息资源描述的重要手段,理应成为影响搜索结果排名的重要因素,在排序算法中具有较高权重。但随着搜索引擎作弊行为的日益泛滥,使许多网页中的元数据描述缺乏规范、甚至与实际主题毫不相关,影响了搜索结果的准确性。因此,搜索引擎降低了元数据描述在排序算法中的权重,元数据描述对结果排序的影响越来越小。针对这一问题,本文将通过分析元数据描述及优化方法,并对实际搜索结果进行调查分析,借此考察元数据标签对搜索引擎排序结果的真实影响,并讨论元数据标签是否对于优化搜索结果排序仍具有实际意义。
  1 元数据描述及其在检索中的应用
  11 HTML语言中的元数据描述
  HTML(HyperText Mark-up Language)即超文本标记语言,由W3C(World Wide Web Consortium)负责控制和管理。现今,HTML语言是网络上应用最为广泛的语言,也是构成网页文档、进行网页编程的主要语言基础。HTML文档一般由头信息(Head)和主体(body)两部分组成。HTML头信息就是指HTML文件中被标识符所作用的区域。这部分为可选内容,主要包含一些说明性的内容和预定义。对于网页编目来说,网页的元数据描述标签就主要集中在这一部分当中。其中,title、Meta-Description、Meta-keywords是头信息区中对网页资源内容进行描述所用到3种最主要的元数据标签。合理使用这些标签,可以使网络信息资源得到更合理的揭示,从而在检索结果中提高其相关度排名。
  111 标签 <br>  <title>标签也称为标题标签,标题标签内容是对网页主题的概括,相当于一篇文章的题目,一般显示于浏览器的标题栏内。同时,标题标签内的内容还将作为搜索引擎返回结果的锚文本显示于结果列表中。其具体的使用方式如: <br>  <title>手机-中国最好的手机网站
  112 元数据标签Meta-Description和Meta-keywords
  元数据标签Meta项是HTML头部的主要组成部分,主要用于表示一个文档的页面信息,例如说明字符编码、鉴别作者、设定页面格式、标注内容提要以及网页关键字等等,还可以用来向服务器提供信息,例如截止日期和页面刷新间隔等。而其中与资源的内容描述最为相关的标签有2个:描述标签和关键词标签。描述标签,即Description标签,其内容是对页面内容的概括,相当于页面的简介。关键词标签即keywords标签,是通过若干关键词对页面内容进行概括描述。其具体的使用方式如下:
  
  
  12 元数据描述对搜索引擎排序结果的优化作用
  大多数搜索引擎都是提取网页标题中的全部或部分内容作为搜索结果中摘要信息的标题向用户展示,其在搜索引擎排序算法中的权重也是最高的。此外,类似于Google等搜索引擎会参考描述标签和关键词标签的内容作为检索结果中摘要信息生成的主要依据。因此,尽管由于搜索引擎作弊行为,通过堆砌关键词、过分滥用元数据标签,使搜索引擎排序算法给予这部分的权重越来越低,但不可否认元数据内容的优化,对提高页面相关性,吸引用户的点击还是具有较为重要的意义。
  在元数据标签的优化过程中,内容的描述应做到主题突出、内容简洁。具体讲包括标签内容的长度控制、关键词分布及关键词词频等。
  121 内容长度控制
  为了提高页面的用户体验,搜索引擎会根据实际情况从页面和<description>标签中取出全部或部分重要内容作为链接标题的锚文本和摘要信息向用户展示,从而过长的文字内容将导致超出范围的部分被省略。因此,标题和描述的内容的长度不应过长,或应将重要内容的位置提前。 <br>   122 关键词分布 <br>  相较于传统检索系统,搜索引擎更为注重信息的位置对内容相关度的影响。搜索引擎一般认为一段文字中越靠前的词越重要越能反映文字的内容,关键词赋予的权值也越高。因此,在文字的最前面出现页面的主关键词,可以有效突出页面的主题,提高页面相关性。如: <br>  <title>手机-中国最好的手机网站
  123 关键词词频密度
  关键词词频较高可以突出网页内容中重要的信息,但是关键词词频并非越高越好。相反,过高的关键词词频可能是人为堆砌关键词所致,影响用户的理解,甚至会触发搜索引擎的作弊惩罚。一般主关键词词频不超过3次,辅助关键词词频不超过1次。
  2010年5月第30卷第5期元数据描述对搜索引擎排序结果影响研究May,2010Vol30 No52 调查的目的及方法
  以下调查将对目前国内主要搜索引擎的检索结果进行调查研究,对元数据描述在实际中的应用情况以及其与检索结果相关度排序影响的真实情况进行分析。
  根据网络调查机构艾瑞咨询集团(iResearch)的《2009年第三季度中国搜索引擎市场季度监测报告》最新数据显示,2009年第三季度中国搜索引擎市场的两大巨头百度、Google市场占有率达到了969%,因此选择这两个搜索引擎作为主要的研究对象。并且选取了Google热榜2009年度榜单中国内事件、国际事件、经济事件、社会事件和热点人物5个方面排名靠前的话题事件或人物各2个,共10个热点检索词:2009日全食、甲型H1N1流感、家电下乡、邓玉娇事件、小沈阳、新疆暴力事件、法航空难、创业板开市、躲猫猫事件、迈克尔•杰克逊。在调查检索词的选择方面,多选取的是事实型事件话题,以尽量避免具有过重商业色彩的搜索引擎优化手段对检索结果的影响。
  分别取每个检索词在两大搜索引擎的检索结果的前五页检索结果,剔除其中的死链及非HTML文档,通过编程获得各网页结果的title、meta-description、meta-keywords标签内的元数据信息。统计元数据标签的使用率及使用效果,并分析其与实际检索结果排序之间的相关度。调查中共采集网页899个(不包含死链接及非HTML文档)。
  3 调查结果分析
  31 元数据使用情况分析
  从表1的统计可知,在调查中有6307%的网页包含有Keywords标签的内容,6407%的网页包含有Description标签的内容,全部网页包含有title标签的内容。可以看出,title标签作为网页的标题,是对网页主题内容的概括,具有重要的意义,因此在网页制作和设计中得到了重视和应用,但Keywords和Description两个标签的使用仍不够普及。不过对比杨志于2008年的研究(Keywords:3980%,Description:3300%),这两个元数据标签的使用率已明显提高。表1 元数据使用情况统计表
  项 目Google百度KDTAKDTA2009日全食2427434325274343甲型H1H1流感2321494926264444家电下乡2321454532294444邓玉娇事件2730464620264545小沈阳3432444429294444新疆暴力事件3735484833314747法航空难2729444431334747创业板开市3033454533304545躲猫猫事件2427434333324646迈克尔•杰克逊3032454526264242合 计279287452452288289447447
  值得注意的是,部分网站已经有意识地使用这些标签,但由于网页编写上的不规范或者错误,导致机器无法将其识别为有效的元数据字段,使标签的使用没能起到应有的作用。因此,在今后网页编写的规范问题值得更加注意。
  32 元数据描述对搜索引擎排序结果的影响分析
  本次调查的有效网页共899个,为10个话题在两个搜索引擎结果中排名前五页的结果,因此排名分布在1~54位,其中由于部分排位的网页中存在死链接或非HTML文档,因此,每个排位的网页观测数量不完全相等,此外,由于排名在47之后的网页观测数量较少,不计入分析。故最终用于模型建立和相关度分析的网页观测共851个,检索结果排名分布于1~47位,每个位置的观测一般为16~20个,均值为1811个。以下,本文将从元数据的使用与优化两个方面分析其对搜索引擎排序结果的影响。
  321 元数据标签的使用对搜索结果排序的影响分析
  本部分主要分析元数据标签的使用对搜索结果排序的影响。由于被调查的所有网页都包含有title标签,因此在对元数据标签的使用与搜索结果排序的相关度分析过程中,不考虑title标签。将网页是否具有Keywords和Description标签作为模型建立的两个自变量,取值为0或1(0为不包含该标签,1为包含该标签),将网页的排名作为模型的因变量,建立数据集。并为数据集建立广义线性模型,可计算是否包含Keywords或Description标签对结果排序的影响。通过SAS编程,得到模型的回归系数,如下表(注:这里舍去了β参数部分):表2 元数据使用情况数据集分析结果
  参数估计值标准
  误差95%置信区间下限上限卡方
  统计量p值VAR20291001783-005840640426601026VAR3-0435501799-07881-0082920701502
  可见,两个自变量其p值都大于005,说明两自变量与因变量都不显著相关,是否包含Keywords或Description标签对结果排序的影响并不显著。产生这样的结果的原因,可能是由于搜索引擎作弊现象日益严重,搜索引擎的排序算法中,赋予Keywords和Description标签的权重越来越小。在这种情况下,元数据描述很难发挥其应有的效力,导致了Keywords和Description标签对结果排序的影响不显著。
  322 元数据标签的优化对搜索结果排序的影响分析
  本部分主要分析元数据标签的优化对搜索结果排序的影响。由于在前一部分中已经得出Keywords和Description标签的使用率不高,且其对结果排序的影响不显著,因此,在考虑元数据标签的优化对搜索结果排序的影响时,不再分析这两类标签。本部分的重点将分析title标签的优化对搜索结果排序的影响。
  在前文中已经介绍了标签优化的三点注意事项,即:标签内容长度控制、关键词分布及关键词密度。基于以上分析,将对title标签优化的评估分为四方面的指标,即:title标签中是否含有检索词;title标签的内容长度是否能够在搜索结果中完整显示;title标签中检索词是否位于内容头部;title标签中检索词的词频。具体各指标的评分等级如下:表3 指标说明1
  有否检索词:title标签中是否含有检索词指标得分含有检索词的完整词形(包括在内容中不连续出现)1含有检索词的不完整词形或近义词05不含有任何与检索词相关的关键词0
  表4 指标说明2
  标签长度:title标签的内容长度是否能够在
  搜索结果中完整显示指标得分是1否0
  表5 指标说明3
  关键词分布:title标签中检索词是否位于内容头部指标得分是1否0表6 指标说明4
  关键词词频:title标签中检索词的词频(次)指标得分001052~31405>40
  分别评估各网页的指标得分,将各网页在以上4个方面的表现作为模型的自变量,将搜索引擎的排序结果作为因变量,建立数据集。为数据集建立广义线性模型,可计算标签优化的4个方面对结果排序的影响。通过SAS编程,得到模型的回归系数,如表7(注:这里舍去了β参数部分):表7 元数据使用情况数据集分析结果
  参数估计值标准
  误差95%置信区间下限上限卡方
  统计量p值VAR2-0475805728-159850646906904062VAR308892026300373814046114300007VAR405948017560250509390114700007VAR5-0627105496-170420450013002539
  可见,自变量VAR2和VAR5的p值都大于005,说明这两个自变量与因变量相关性不显著,即title标签中是否出现关键词以及关键词的词频对结果排序的影响并不显著。但同时,自变量VAR3和VAR4的p值则均小于005,这两个自变量与因变量具有较强的相关性,title标签长度符合规范的网页相对排名靠前(数值较小),title标签中检索词居头部位置的网页相对排名靠前(数值较小)。
  预测这样的结果,同样与搜索引擎作弊、关键词堆砌现象严重,致使搜索引擎对title标签中检索词的出现和词频重视程度降低,title标签中检索词是否出现和词频是否较高,对搜索结果的排序影响不大。但另一方面,title标签内容的长度和检索词出现位置却与检索结果显著相关,说明对网页资源的元数据描述进行优化将对检索结果的排名具有积极影响,资源描述的规范化和最优化将有助于搜索引擎和最终用户识别和利用网页资源的内容。
  4 结 语
  本文通过对网页资源HTML元数据使用和优化情况的调查,分析了元数据描述的使用现状及其对搜索结果排序的影响。目前,Keywords、Description等元数据标签的使用仍未达到普及。由于搜索引擎作弊现象严重,也使搜索引擎排序算法中赋予元数据描述的权重越来越低,元数据中,关键词是否出现及其词频对排序结果的影响越来越小。但元数据的描述仍十分必要,规范化和优化网络资源的元数据描述,将有助于网页资源在检索结果中提高排名,有助于搜索引擎和最终用户识别和利用网页资源的内容。介于此,网页编写者应在今后的工作中注意以下几个方面的问题:
  41 注意元数据标签的使用
  在网页编写过程中,进一步提高元数据标签的使用率,使网页资源得到更好的揭示,帮助搜索引擎和最终用户识别和理解网页资源的核心内容。提高网页资源与特定需求的相关性。
  42 提高网页编写的规范化水平
  在网页编写过程中,注意HTML语言的特定格式和书写规范,减少网页内容中错误和乱码,增加网页内容的可读性,帮助搜索引擎准确定位网页内容的关键信息。
  43 注意网页资源元数据描述的优化
  采取合理方法,优化网页资源元数据描述,使网页资源的核心内容更加突出,更具有可读性和吸引力,从而使网页资源与特定主题相关度更好,提高在搜索引擎结果中的排名。
  44 严禁各种形式的搜索引擎作弊行为
  严禁利用关键词堆砌、大量使用不相关热门关键词等行为进行搜索引擎作弊,影响搜索结果的公正准确。元数据描述作为网页资源揭示的重要手段,其意义和权重不应被忽视。网页资源的描述和优化者应规范自身行为,净化元数据描述,使排序结果能够真实反映网页资源与特定主题的相关度。从而使搜索引擎和用户可以信赖元数据描述的内容,提高排序算法对元数据标签的支持,使元数据描述发挥其应用的效力。
  
  参考文献
  [1]吴泽欣.SEO教程:搜索引擎优化入门与进阶[M].北京:人民邮电出版社,2008.12.
  [2](美)维尼.登上Google之巅——SEO技巧与技术[M].北京:机械工业出版社,2009.1.
  [3]杨志.元数据标签Keywords在搜索引擎的应用现状研究[J].现代情报,2007,(9):134-137.
  [4]杨志.元数据在中文搜索引擎的应用研究[J].科技信息,2008,(9):55-56.
  [5]许四洋,柳晓春.元数据标签的使用情况调查(上)[J].图书馆杂志,2001,20(9):22-25.
  [6]许四洋,柳晓春.元数据标签的使用情况调查(下)[J].图书馆杂志,2001,20(10):29-30.
  [7]林华.解析HTML头信息[J].零陵学院学报,2004,(3):96-97.
  [8]游,赵荣.我国元数据研究现状与发展[J].图书情报工作,2008,(Z1):202-205.
  [9]粟慧.元数据、HTML和都柏林核心集——关于WEB网页的编目[J].情报科学,2001,(12):1272-1279.
  [10]赵悦.数字图书馆元数据应用研究[D].武汉:武汉大学,2005.
  [11]马艳霞.主流网络信息资源描述工具的比较研究[J].现代情报,2005,(2):163-164.
其他文献
电子政务时代,县图书馆也扮演着重要的角色,政府、公民、图书馆界自身要给予合理社会认同,并提供必要的建设资源。图书馆既要收藏开发政府政务信息,又要提高馆藏文献信息利用率,开
目的 评价急性心肌梗死后进行非心脏手术围手术期的麻醉处理。方法 普外科和普胸外科病人 12例 ,(6 7± 4)岁。心梗发生至手术间隔 72 175d。麻醉选择为硬膜外阻滞或复合
文章通过对我国大陆地区720所上网的本科层次高校图书馆实时咨询服务开展情况进行了调查分析,主要揭示了实时咨询服务的省市区分布、地区分布、城市分布以及开展的具体情况。
文章从分析数字参考咨询服务的走向出发,通过对图书馆数字参考咨询服务特点和用户需求导向下的参考咨询服务的特征,以及参考咨询服务互动体现的阐述,提出了数字参考咨询服务
本文对开放源代码的内容管理系统Drupal从系统概况、系统的核心思想和主要特色、提供的主要功能以及安装和运行环境等进行了系统详尽的分析,并对其在国内外各类型网站及门户建