论文部分内容阅读
摘要: 介绍Web结构挖掘的概念,并分析基于链接结构的两种重要的Web结构挖掘算法,最后指出其在电子商务网站的应用以提高网站的价值。
关键词:数据挖掘;结构挖掘;网页级别;HITS
中图分类号:TP31文献标识码:A 文章编号:1009-3044(2007)05-11215-01
互联网信息资源越来越庞大,一方面为信息传播开辟了新的途径,另一方面也给用户的利用带来新的挑战。针对Web上的信息只有很小的一部分是相关的或有用的,而且存在大量的垃圾信息问题,人们迫切需要能从这些海量的信息中找到有用知识的工具,Web挖掘随着时代的需求出现了。
Web挖掘指在WWW上挖掘潜在的、有用的模式及隐藏的信息过程。Web数据主要来自于三个方面:Web服务器中的日志文件、Web服务器中的其他信息以及客户的背景信息。按照对应的数据类型,Web挖掘可分为:Web内容挖掘、Web结构挖掘和Web使用挖掘(即用户访问模式挖掘)。[1]
1 Web结构挖掘
Web结构挖掘即挖掘Web潜在的链接结构模式,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML,XML表示成的树开结构,以及文档URL中的目录路径结构等。Web页之间的超链接结构中包含了许多有用的信息,当网页A到网页B存在一个超链接时,则说明网页A的作者认为网页B的内容非常重要,且两个网页的内容具有相似的主题。如果大量的链接都指向了同一个网页,我们就认为它是一个权威页。这种思想有助于对搜索引擎的返回结果进行相关度排序,从WWW的组织结构和链接关系中推导知识。这种模式通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,并且可以由此确定有关不同网页间的相似度和关联度信息。Web结构挖掘有助于用户定位到相关主题的权威站点,并且可以指向众多权威站点的相关主题的站点,极大的提高检索结果的质量。[2]
2 Web结构挖掘算法概述
基于超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。
2.1 PageRank算法
PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。搜索引擎Google、Yahoo、Baidu都是利用该算法对检索出的大量结果进行相关度排序,将最权威的网页尽量排在前面。PageRank的发明者把引文分析思想借鉴到网络文档重要性的计算中来,通过对网络超链接结构进行研究,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A 投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。
根据因特网自身的性质,因为网页的发布非常自由、成本很低并缺乏控制,用一个简单的程序就可以产生大量的网页和很多链接,而且网页的链接范围领域很广,所以简单的链接数量计算并不能客观真实地反映网页的重要性,所以PageRank不仅考虑了网页引用数量,还特别考虑了网页本身的重要性,重要网页所指向的链接将大大增加被指向网页的重要性。简单地说,PageRank就是要从链接结构中获取网页的重要性。[3]
2.2 HITS算法
HITS算法的指导思想和PageRank是一致的,即都通过反向链接的数量和质量来确定搜索结果的排序权重。但超链接的应用存在着许多的潜在的问题,如大量的链接是为了导航或付费广告而创建的。而出于商业竞争的原因,尽管内容相关,有些网站又不会把超链接指向他们的竞争对手。HITS算法认为网页的重要性应该依赖于用户提出的查询请求。而且对每一个网页应该将其authority权重(由网页的导出链接决定)和hub权重(由网页的进入链接决定)分开来考虑,通过分析页面之间的超链接结构,可以发现以下两种类型的页面:中心网页(hub):一个指向权威页的超链接集合的Web页(如图1所示);权威网页(authority):一个被多个Hub页指向的权威的Web页(如图2所示)。
HITS算法发现,在很多情况下,同一主题下的权威网页(authority)之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。HITS算法描述了权威网页(authority)和中心网页(hub)之间的一种依赖关系:一个好的中心网页(hub)应该指向很多好的权威性网页(authority),而一个好的权威性网页(authority)应该被很多好的中心性网页(hub)所指向。[3]
3Web结构挖掘算法应用于电子商务网站
3.1 选择链接策略
在互联网中,最重要的就是互联互通,Web结构挖掘所有算法都将网页中的链接作为主要挖掘的对象,特别是实际应用中,大多数用户都是使用基于PageRank算法的Google、Yahoo和Baidu等搜索引擎,因此可以采取以下几种策略,以提高电子商务网站的排名。
3.1.1 广泛链接策略
尽可能多地让其他跟你主题相关的网站链接你,目前已成为在搜索引擎排名成功的关键性因素。有了这些网站链接你,即使不向搜索引擎提交网站,搜索引擎也自然找到你并给予好的排名。另一方面,如果网站提供与主题相关的导出链接,被搜索引擎认为有丰富的与主题相关的内容,也有利于排名。同时如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。
3.1.2 高质量链接策略
搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接展开分析。对网站排名致关重要的影响因素是获得尽可能多的高质量外部链接,也称导入链接。务必做到获得PageRank高并与你的主题相关或互补的网站的链接,在流量大、知名度高、频繁更新的重要网站上出现你的链接,如新闻源,与内容质量高、PageRank值上升潜力大的网站链接,与以你的网站关键词在搜索结果中排名前三页的网站进行链接。
3.1.3 无空链接策略
应当经常利用坏链接检查工具检查网站中是否有死链接,同时保持网页内容或链接的稳定性和持久性,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。
3.2 构建友好的网站结构
链接是网站的灵魂。用户通过超级链接获得丰富的网站内容,搜索引擎蜘蛛(Spider)也是沿着一个网站的页面链接层层跟踪深入,完成对该网站的信息抓取。有了合适的链接,就可以在算法中取得一个比较理想的分值,但由于数据的挖掘过程中由机器搜索引擎蜘蛛自动完成。因此还必须考虑让引擎能完整的采集到所设计的链接,这就需要构建友好的网站结构。
3.2.1 网站结构扁平化
网站目录结构要扁平,因为每深一级目录,PageRank降低1-2个档次。假设首页是PageRank值是3,其子目录可能PageRank值就是1了,更深可能就无法列入评级范围了。所以有必要合理安排文件目录结构,简单的网站最多呈现三个层次就可以了。
3.2.2 表现和内容的分离
因为挖掘引擎会更倾向于
关键词:数据挖掘;结构挖掘;网页级别;HITS
中图分类号:TP31文献标识码:A 文章编号:1009-3044(2007)05-11215-01
互联网信息资源越来越庞大,一方面为信息传播开辟了新的途径,另一方面也给用户的利用带来新的挑战。针对Web上的信息只有很小的一部分是相关的或有用的,而且存在大量的垃圾信息问题,人们迫切需要能从这些海量的信息中找到有用知识的工具,Web挖掘随着时代的需求出现了。
Web挖掘指在WWW上挖掘潜在的、有用的模式及隐藏的信息过程。Web数据主要来自于三个方面:Web服务器中的日志文件、Web服务器中的其他信息以及客户的背景信息。按照对应的数据类型,Web挖掘可分为:Web内容挖掘、Web结构挖掘和Web使用挖掘(即用户访问模式挖掘)。[1]
1 Web结构挖掘
Web结构挖掘即挖掘Web潜在的链接结构模式,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML,XML表示成的树开结构,以及文档URL中的目录路径结构等。Web页之间的超链接结构中包含了许多有用的信息,当网页A到网页B存在一个超链接时,则说明网页A的作者认为网页B的内容非常重要,且两个网页的内容具有相似的主题。如果大量的链接都指向了同一个网页,我们就认为它是一个权威页。这种思想有助于对搜索引擎的返回结果进行相关度排序,从WWW的组织结构和链接关系中推导知识。这种模式通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,并且可以由此确定有关不同网页间的相似度和关联度信息。Web结构挖掘有助于用户定位到相关主题的权威站点,并且可以指向众多权威站点的相关主题的站点,极大的提高检索结果的质量。[2]
2 Web结构挖掘算法概述
基于超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。
2.1 PageRank算法
PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。搜索引擎Google、Yahoo、Baidu都是利用该算法对检索出的大量结果进行相关度排序,将最权威的网页尽量排在前面。PageRank的发明者把引文分析思想借鉴到网络文档重要性的计算中来,通过对网络超链接结构进行研究,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A 投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。
根据因特网自身的性质,因为网页的发布非常自由、成本很低并缺乏控制,用一个简单的程序就可以产生大量的网页和很多链接,而且网页的链接范围领域很广,所以简单的链接数量计算并不能客观真实地反映网页的重要性,所以PageRank不仅考虑了网页引用数量,还特别考虑了网页本身的重要性,重要网页所指向的链接将大大增加被指向网页的重要性。简单地说,PageRank就是要从链接结构中获取网页的重要性。[3]
2.2 HITS算法
HITS算法的指导思想和PageRank是一致的,即都通过反向链接的数量和质量来确定搜索结果的排序权重。但超链接的应用存在着许多的潜在的问题,如大量的链接是为了导航或付费广告而创建的。而出于商业竞争的原因,尽管内容相关,有些网站又不会把超链接指向他们的竞争对手。HITS算法认为网页的重要性应该依赖于用户提出的查询请求。而且对每一个网页应该将其authority权重(由网页的导出链接决定)和hub权重(由网页的进入链接决定)分开来考虑,通过分析页面之间的超链接结构,可以发现以下两种类型的页面:中心网页(hub):一个指向权威页的超链接集合的Web页(如图1所示);权威网页(authority):一个被多个Hub页指向的权威的Web页(如图2所示)。
HITS算法发现,在很多情况下,同一主题下的权威网页(authority)之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。HITS算法描述了权威网页(authority)和中心网页(hub)之间的一种依赖关系:一个好的中心网页(hub)应该指向很多好的权威性网页(authority),而一个好的权威性网页(authority)应该被很多好的中心性网页(hub)所指向。[3]
3Web结构挖掘算法应用于电子商务网站
3.1 选择链接策略
在互联网中,最重要的就是互联互通,Web结构挖掘所有算法都将网页中的链接作为主要挖掘的对象,特别是实际应用中,大多数用户都是使用基于PageRank算法的Google、Yahoo和Baidu等搜索引擎,因此可以采取以下几种策略,以提高电子商务网站的排名。
3.1.1 广泛链接策略
尽可能多地让其他跟你主题相关的网站链接你,目前已成为在搜索引擎排名成功的关键性因素。有了这些网站链接你,即使不向搜索引擎提交网站,搜索引擎也自然找到你并给予好的排名。另一方面,如果网站提供与主题相关的导出链接,被搜索引擎认为有丰富的与主题相关的内容,也有利于排名。同时如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。
3.1.2 高质量链接策略
搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接展开分析。对网站排名致关重要的影响因素是获得尽可能多的高质量外部链接,也称导入链接。务必做到获得PageRank高并与你的主题相关或互补的网站的链接,在流量大、知名度高、频繁更新的重要网站上出现你的链接,如新闻源,与内容质量高、PageRank值上升潜力大的网站链接,与以你的网站关键词在搜索结果中排名前三页的网站进行链接。
3.1.3 无空链接策略
应当经常利用坏链接检查工具检查网站中是否有死链接,同时保持网页内容或链接的稳定性和持久性,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。
3.2 构建友好的网站结构
链接是网站的灵魂。用户通过超级链接获得丰富的网站内容,搜索引擎蜘蛛(Spider)也是沿着一个网站的页面链接层层跟踪深入,完成对该网站的信息抓取。有了合适的链接,就可以在算法中取得一个比较理想的分值,但由于数据的挖掘过程中由机器搜索引擎蜘蛛自动完成。因此还必须考虑让引擎能完整的采集到所设计的链接,这就需要构建友好的网站结构。
3.2.1 网站结构扁平化
网站目录结构要扁平,因为每深一级目录,PageRank降低1-2个档次。假设首页是PageRank值是3,其子目录可能PageRank值就是1了,更深可能就无法列入评级范围了。所以有必要合理安排文件目录结构,简单的网站最多呈现三个层次就可以了。
3.2.2 表现和内容的分离
因为挖掘引擎会更倾向于
……之间的内容,而不是正文。所以JavaScript和CSS要尽可能和网页分离,一方面提高代码重用度,另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重。
3.2.3 建立网站地图
基于文本的网站地图内含网站所有栏目、子栏目。网站地图的三大因素:文本、链接、关键词,都极其有利于搜索引擎抓取主要页面内容。因此,动态生成目录网站尤其需要创建网站地图。网页栏目若有所更新需要及时在网站地图上体现出来,让所有的页面都有能够快速入口:网站地图,如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外。
4 结束语
Web结构挖掘技术是比较成熟的技术,特别是PageRank算法已经广泛应用到各大搜索网站中,所有的结构挖掘算法都是基于网页结构中超链接的分析。通过对网站结构算法的研究,可以有效地采取应对措施,提高网站在搜索引擎中的排名,从而网站可以有效的被客户搜索。随着电子商务的迅猛发展,网站的经营者应当尽早地应用Web结构挖掘技术对电子商务网站进行优化以提高价值和知名度,实现其最大的经济效益。
参考文献:
[1]高晓琴,蒋朝哲,涂瑞.等. Web使用挖掘研究[J].微计算机信息,2006,7(3):200-202.
[2]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.
[3]黄晓斌.网络信息挖掘[M].北京: 电子工业出版社,2005.
本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
3.2.3 建立网站地图
基于文本的网站地图内含网站所有栏目、子栏目。网站地图的三大因素:文本、链接、关键词,都极其有利于搜索引擎抓取主要页面内容。因此,动态生成目录网站尤其需要创建网站地图。网页栏目若有所更新需要及时在网站地图上体现出来,让所有的页面都有能够快速入口:网站地图,如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外。
4 结束语
Web结构挖掘技术是比较成熟的技术,特别是PageRank算法已经广泛应用到各大搜索网站中,所有的结构挖掘算法都是基于网页结构中超链接的分析。通过对网站结构算法的研究,可以有效地采取应对措施,提高网站在搜索引擎中的排名,从而网站可以有效的被客户搜索。随着电子商务的迅猛发展,网站的经营者应当尽早地应用Web结构挖掘技术对电子商务网站进行优化以提高价值和知名度,实现其最大的经济效益。
参考文献:
[1]高晓琴,蒋朝哲,涂瑞.等. Web使用挖掘研究[J].微计算机信息,2006,7(3):200-202.
[2]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.
[3]黄晓斌.网络信息挖掘[M].北京: 电子工业出版社,2005.
本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。