论文部分内容阅读
网络信息计量学是一门计算机科学,是一门研究互联网上数据相互引用的科学,是一门对网络文献规律进行统计分析的科学,基于Web和软件计量分析工具,集计算机技术、网络技术、计量学方法、统计学方法于一体,其应用范围覆盖了所有基于网络通信技术的信息测度。它是综合采用文献计量、信息计量、统计学方法、计算机技术和网络技术对网络文献规律进行统计分析的一门科学;是采用数学、统计学的各种定量方法,对网络信息的组织、存储、分布、传递、相互引证和开发利用进行定量描述和统计分析,借以揭示网络信息的数量特征和内在规律的一门新兴学科;它主要是由网络技术、网络管理、信息资源管理与信息计量学等相互结合、交叉渗透而形成的一门交叉性边缘学科。
1.网络信息计量学的研究对象
网络信息计量学的研究范围十分广泛,包括网络技术、网页中文献计量学方法、万维网的电子数据库分析、数字图书馆等。网络信息计量学的对象主要涉及3个层次:
(1)网络信息的直接计量问题。如,对集文字、图像、声音为一体的多媒体数字信息的计量方法研究,对以字节为单位的信息量和流量的计量研究等,包括计量站点的数量、静止的网页数、静止网页的平均规模、交互式网页的数量等。
(2)网上文献、文献信息及其相关特征信息的计量问题。如,网上电子期刊、论文、图书、报告等各种类型的文献,以及文献的分布、学科主题、关键词、著者信息、出版信息等的计量,既涉及此文献的计量,又涉及网上二、三次文献的计量问题。
(3)网络结构单元的信息计量问题。如,网络站点的文献信息增长、学科分布、信息传递,以及各单元之间的相互引证和联系等的计量研究。
当前,网络信息计量学更加注重科学计量学、文献计量学和信息计量学研究中与网络相关的内容研究。从2003年起,Webometrics将关注的焦点集中于以下几个方面:应用科学计量学方法对万维网和世界性的新闻组网络中科学信息的分析;对超文本链接现象、信息计量学规律、信息分布的数学模型分析;关于科学合作、科研组织、信息流和跨学科链接的网络影口向;电子科学杂志的评价以及在万维网上的快速处理程序的研究等。
2.网络信息计量学的研究方法
从目前情况来看,网络信息计量学研究方法大致可以归为以下几种类型:
(1)运用推理统计对数据进行统计分析。不少研究机构就是采用这种简单易行的方法,对网站数量、服务器数量、网络用户的特征及网络发展的增长率进行分析。这种方法的局限性在于,面对网络的迅猛发展及日益复杂的网络结构,统计数据难以保证准确性,需要构建一些宏观的测量统计指标体系。
(2)运用图论的方法对数据进行可视化研究,即运用网络绘图和信息技术来讲究网页间超链接的拓扑结构,直观反映网页间的关系。但其缺点是限制了对内容的研究,并且常常是自我结论性的,不具有普遍性。
(3)运用揭示数据聚簇和分散的工具进行数据挖掘研究。与统计方法相比,数据挖掘可对一个站点上的各种特征进行深度研究,包括站点的交通测度及各个国家IP地址的分布等,但它不能用来研究整个网络的特征。
(4)运用解释和模拟网络结构与增长的理论工具进行模型研究,即通过构建网络结构的模型来研究网络。如,网络的相互连接及拓扑结构,主要用于研究各个国家域的等级频次分布,网页之间和网页内部、外部的超链接等。
3.网络信息计量学
网络信息计量学的应用主要有以下几个方面:
(1)研究因特网的知识结构、网络信息的评价指标,指导和管理网络信息资源的组织建设。对于因特网的知识结构及其信息资源的发展状况,人们知之甚少。网络信息计量学的兴起则为把握因特网的发展状况,加强网络信息资源的组织管理提供了可能。对于因特网的知识结构,国外已有学者进行了探索,根据主题特征或国别特征进行计量。例如,阿曼德和英格维森将信息计量学方法应用于万维网上,利用AltaVista收集研究数据,通过对丹麦在网上的可视性及其科学数据库的发展情况的定量分析,得出了丹麦的网络发展严重落后于其他北欧国家的结论,其研究具有开创性的意义。此外,对网站链接的分析可以用于确定网络信息资源的权威性和可靠性。例如,阿·史密斯通过计算网站的被链接率来确定网站的网络影响因子。埃达等人发现网页的受欢迎程度可以用齐普夫定律来表述;运用布拉德福定律对核心期刊的测定方法就能找出所需的核心网站,由此便解决了网络信息检索中如何准确、快速查找信息资源的难题。
(2)在数字图书馆中的应用。网络资源的激增给数字图书馆的建设和管理带来了困难。网络计量学的发展将对数字图书馆的资源管理进行科学指导,并提供定量的依据,提高数字图书馆的管理水平,既可进行馆藏的动态维护,在探明信息资源数量特征的基础上判断其价值和实效性,又可对各类信息源的分布进行定量分析评价,确定出核心信息来源,有效地指导信息收集。
(3)研究网络环境下的科学信息交流,分析建立新的科学发展指标,为有关科技决策提供参考。通过对因特网上的有关各学科的站点、讨论组、电子期刊等的计量分析,可以掌握科学信息在网络上的分布;通过对相关网站之间的链接用于被引分析乃至利用专用软件分析特定对象的电子邮件使用情况,可以了解网上的科学信息交流情况。例如,尼泊尔学者戴哈尔将科学计量方法用于Web上的科学信息交流和科技信息指标分析,他运用了引文分析(包括对超链接的分析)方法,还将信息计量学的重要定律用于对网上信息分布规律的分析,从而对因特网及科技研究机构之间的科研合作、信息流动和科技政策实施的影响作了探索性的研究。
(4)研究网络信息资源的挖掘、分类、过滤与排序等,指导网络搜索引擎的研究开发。例如,凯勒随机选取了361个网页及其所在网站,利用Flashsitel.01每周搜集数据,对网页关键词和全文索引作分析,考察网页的超链接和其他引文系统、网上即时动态信息的特点及其分类,并提出了利用自动程序对网上动态信息进行抓取、过滤、测度和分类的方法。这一研究对于信息搜索过程的设计具有一定的参考价值。此外,Google搜索引擎则通过对搜索到的网页的超链接进行定量分析来对其搜索结果排序。
(5)网络信息资源的老化研究。在万维网上,一个网页或网站可能随时增加新内容而成为新网页、新网站,也可能因过时而从网上消失。个人主页和网站也可因内容长期未更新而被主页空间提供者关闭。一些网站也可能因不善经
1.网络信息计量学的研究对象
网络信息计量学的研究范围十分广泛,包括网络技术、网页中文献计量学方法、万维网的电子数据库分析、数字图书馆等。网络信息计量学的对象主要涉及3个层次:
(1)网络信息的直接计量问题。如,对集文字、图像、声音为一体的多媒体数字信息的计量方法研究,对以字节为单位的信息量和流量的计量研究等,包括计量站点的数量、静止的网页数、静止网页的平均规模、交互式网页的数量等。
(2)网上文献、文献信息及其相关特征信息的计量问题。如,网上电子期刊、论文、图书、报告等各种类型的文献,以及文献的分布、学科主题、关键词、著者信息、出版信息等的计量,既涉及此文献的计量,又涉及网上二、三次文献的计量问题。
(3)网络结构单元的信息计量问题。如,网络站点的文献信息增长、学科分布、信息传递,以及各单元之间的相互引证和联系等的计量研究。
当前,网络信息计量学更加注重科学计量学、文献计量学和信息计量学研究中与网络相关的内容研究。从2003年起,Webometrics将关注的焦点集中于以下几个方面:应用科学计量学方法对万维网和世界性的新闻组网络中科学信息的分析;对超文本链接现象、信息计量学规律、信息分布的数学模型分析;关于科学合作、科研组织、信息流和跨学科链接的网络影口向;电子科学杂志的评价以及在万维网上的快速处理程序的研究等。
2.网络信息计量学的研究方法
从目前情况来看,网络信息计量学研究方法大致可以归为以下几种类型:
(1)运用推理统计对数据进行统计分析。不少研究机构就是采用这种简单易行的方法,对网站数量、服务器数量、网络用户的特征及网络发展的增长率进行分析。这种方法的局限性在于,面对网络的迅猛发展及日益复杂的网络结构,统计数据难以保证准确性,需要构建一些宏观的测量统计指标体系。
(2)运用图论的方法对数据进行可视化研究,即运用网络绘图和信息技术来讲究网页间超链接的拓扑结构,直观反映网页间的关系。但其缺点是限制了对内容的研究,并且常常是自我结论性的,不具有普遍性。
(3)运用揭示数据聚簇和分散的工具进行数据挖掘研究。与统计方法相比,数据挖掘可对一个站点上的各种特征进行深度研究,包括站点的交通测度及各个国家IP地址的分布等,但它不能用来研究整个网络的特征。
(4)运用解释和模拟网络结构与增长的理论工具进行模型研究,即通过构建网络结构的模型来研究网络。如,网络的相互连接及拓扑结构,主要用于研究各个国家域的等级频次分布,网页之间和网页内部、外部的超链接等。
3.网络信息计量学
网络信息计量学的应用主要有以下几个方面:
(1)研究因特网的知识结构、网络信息的评价指标,指导和管理网络信息资源的组织建设。对于因特网的知识结构及其信息资源的发展状况,人们知之甚少。网络信息计量学的兴起则为把握因特网的发展状况,加强网络信息资源的组织管理提供了可能。对于因特网的知识结构,国外已有学者进行了探索,根据主题特征或国别特征进行计量。例如,阿曼德和英格维森将信息计量学方法应用于万维网上,利用AltaVista收集研究数据,通过对丹麦在网上的可视性及其科学数据库的发展情况的定量分析,得出了丹麦的网络发展严重落后于其他北欧国家的结论,其研究具有开创性的意义。此外,对网站链接的分析可以用于确定网络信息资源的权威性和可靠性。例如,阿·史密斯通过计算网站的被链接率来确定网站的网络影响因子。埃达等人发现网页的受欢迎程度可以用齐普夫定律来表述;运用布拉德福定律对核心期刊的测定方法就能找出所需的核心网站,由此便解决了网络信息检索中如何准确、快速查找信息资源的难题。
(2)在数字图书馆中的应用。网络资源的激增给数字图书馆的建设和管理带来了困难。网络计量学的发展将对数字图书馆的资源管理进行科学指导,并提供定量的依据,提高数字图书馆的管理水平,既可进行馆藏的动态维护,在探明信息资源数量特征的基础上判断其价值和实效性,又可对各类信息源的分布进行定量分析评价,确定出核心信息来源,有效地指导信息收集。
(3)研究网络环境下的科学信息交流,分析建立新的科学发展指标,为有关科技决策提供参考。通过对因特网上的有关各学科的站点、讨论组、电子期刊等的计量分析,可以掌握科学信息在网络上的分布;通过对相关网站之间的链接用于被引分析乃至利用专用软件分析特定对象的电子邮件使用情况,可以了解网上的科学信息交流情况。例如,尼泊尔学者戴哈尔将科学计量方法用于Web上的科学信息交流和科技信息指标分析,他运用了引文分析(包括对超链接的分析)方法,还将信息计量学的重要定律用于对网上信息分布规律的分析,从而对因特网及科技研究机构之间的科研合作、信息流动和科技政策实施的影响作了探索性的研究。
(4)研究网络信息资源的挖掘、分类、过滤与排序等,指导网络搜索引擎的研究开发。例如,凯勒随机选取了361个网页及其所在网站,利用Flashsitel.01每周搜集数据,对网页关键词和全文索引作分析,考察网页的超链接和其他引文系统、网上即时动态信息的特点及其分类,并提出了利用自动程序对网上动态信息进行抓取、过滤、测度和分类的方法。这一研究对于信息搜索过程的设计具有一定的参考价值。此外,Google搜索引擎则通过对搜索到的网页的超链接进行定量分析来对其搜索结果排序。
(5)网络信息资源的老化研究。在万维网上,一个网页或网站可能随时增加新内容而成为新网页、新网站,也可能因过时而从网上消失。个人主页和网站也可因内容长期未更新而被主页空间提供者关闭。一些网站也可能因不善经