论文部分内容阅读
摘要: 当今社会的发展离不开信息技术,网络数据资源在其中占据重要位置。尤其是随着网络的不断发展,网络信息资源也在急剧的增长,因而网络信息过载的问题日益突出,网络信息挖掘也是在此基础上发展起来的。则主要针对网络信息资源数据的挖掘类型及其应用展开概述。
关键词: 网络信息资源;数据挖掘;类型;应用
中图分类号:G354文献标识码:A文章编号:1671-7597(2011)0510154-01
网络数据资源相比较其他的数据资源具有更强的优势,比如其更新速度快、检索更加方便快捷以及内容更为丰富等优点,已成为当前社会发展中不可缺少的资源,网络信息资源数据的挖掘也渐渐的浮出水面,引起人们的重视。网络信息的数据挖掘既包括对于网页内容本身的一种挖掘,而且还包括了对链接模式,以及用户浏览、存取、发布等相关的操作行为及访问行为所产生信息的一种挖掘。有效地挖掘、利用网络信息可以进一步增强网站的吸引力,吸
引更多的用户群,实现网络资源的高效利用。
1 网络信息资源的特点
网络信息资源所涉及的内容十分复杂,如下是对其特点的几点概述:1)数量比较大,内容也十分繁杂,其质量也是不一致的。网络信息资源不仅会涉及到最新的一些科研动态与学术成果,而且还存在一些涂鸦之作。2)网络信息资源中容纳了丰富的资料,在瞬息间会发生巨大的变化,它具有高度的动态性以及暂时性。3)其种类也是多种多样的,既有文本性的内容,也包含了以声音、图像以及图形等形式存储的信息。4)其关联性比较强,可以实现不同地区以及不同国度间的链接,在很大程度上加强了信息之间的关联性。5)网络信息资源的有序性、规范性比较差,在网络信息范围内依然没有形成统一的,共同遵循的数据描述规范。
数据挖掘过程主要分为四个阶段:确定对象,数据准备、数据挖掘、数据评价。
第一步:确定对象。先确定要分析的业务对象,虽然结果不可预测,但是我们必须清楚要分析业务对象的方向,不能盲目进行数据挖掘,不然后期无法明确如何进行对数据的处理,也就根本得不到正确的结果。
第二步:数据准备。这个阶段是最重要的阶段,基本上会占用60%—80%的时间,只有建立在详细准确的数据之上,后面的挖掘才不会得出错误的结果,下面會详细介绍数据准备的具体流程:1)数据收集过滤及录入。数据采集渠道广,数据收集要尽量完全完整,尽量收集内部和外部关于此业务对象的数据。录入的时候要保证数据的准确完整,数据尽量保证在储存在同一处。2)数据预处理。预处理基本上是在上步收集好数据的基础上对数据进一步对数据进行处理,此时的数据不只包括刚刚输入的数据,也包括已经存在的数据,对他们可以进行数据清理、数据集成、数据变换、数据规约或者离散化。3)数据分析及建模。通过上一步对数据的处理,现在的数据已经是可以直接进行处理的优化后数据,现在就对已有的数据进行分析,将数据转换成一个分析模型,而这个分析模型是针对挖掘算法建立的,建立一个适合挖掘算法的分析模型也是成功的关键之一。
第三步:数据挖掘。具体数据挖掘过程设计涉及的知识领域有:
1)广义知识:对类别特征的概括性描述,从数据的微观特性中发现较高层次的带有普遍性宏观性的能反映同类事物共同性质的知识,是对数据的概括精炼与抽象。2)关联知识:反映一个事件与另一个事件依赖或者关联的知识,如果发现多项存在关联,就可以依据一项对其他项进行预测,这一般是计算量最大的部分。3)分类知识:反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。4)预测型知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。5)偏差型知识:是对差异和极端特例的描述,揭示事物偏离常规的异常现象的知识。
第四步:数据评价。经过上面的三步,通过对数据的处理分析、适当模型的建立、合适分析方法的选择以及相关算法的使用,我们得出了结果,这时一般会结合可视化技术来展现得到的结果,可视化技术的好处就是将得到的结果直观的展示出来,有助于直接发现具体关联,得到有用知识。
2 网络信息资源的数据挖掘类型
由于网络挖掘的对象不同,因而网络挖掘信息也分为不同的类型,其中主要包括网络内容挖掘、网络结构挖掘以及网络用法的挖掘。如下主要是针对网络内容挖掘以及网络结构挖掘进行分析。
1)网络内容挖掘。网络内容挖掘主要是对网络信息资源中的相关内容进行挖掘。网络信息资源所涉及到得种类很多,当前万维网的信息资源已成为网络信息资源的主体,在早前出现的FTP以及Gopher等资源已被逐渐的隐藏,但是依然可以通过Web对这些资源进行访问。
2)网络结构挖掘。它是对网络信息资源的各种异构数据、数据源之间、页面之间及数据源与页面之间的联系结构以及组织方式进行挖掘。网络结构挖掘主要是为了发现Web与页面结构以及在这些结构中的有用模式、对于页面以及与其相关链接进行分类,从而可以获取有关不同网页之间的相似度以及关联度之间的信息,这可以帮助用户找到更具权威性的站点,也能够及时了解一些动态信息,为社会发展带来了更大的便捷。
3 网络信息资源数据挖掘类型的应用
3.1 网络信息数据挖掘在电子商务中的应用。1)网络信息数据挖掘在电子商务中应用的重要性。电子商务主要是企业或者个人依靠互联网,通过数字化方式进行商务数据交换以及开展各种商务业务活动。在电子商务实现的过程中会产生大量数据,通过数据挖掘在对这些数据进行有效的分析,此技术已成为当前使用十分广泛的信息传播技术。2)以顾客行为模式进行分析。通常情况下,数据挖掘技术不是在线创建模型,与其相关的数据从服务器上下载下来,并进行必要的处理。如下是对其数据处理的相关步骤:① 数据的聚合和过滤,从不同的文档中将所有的数据汇聚在一起组成基本的数据记录,在进行聚集的过程中,需要将信息中错误或者漏掉的部分进行修正。② 数据的整合,数据的挖掘工具只能对数字进行处理,如果是文字数据则需要进行提前处理,将其转化出来。不同的数据挖掘则会采用不同的挖掘技术,应根据具体情况实施。
3.2 网络信息数据挖掘在竞争情报中的应用。1)网络信息数据的意义。竞争情报工作在进行过程中通过互联网获取了丰富的信息资源,但是在获取其中有价值的信息过程中依然缺少较好的网络信息挖掘工具。尤其是面对当前如此激烈的竞争,几乎每个企业都拥有自己的竞争情报系统,以此来提高自身的竞争力。尤其是面对当前的网络环境,如果哪个企业缺少对网络信息资源的开发与利用方面的重视工作,谁就会失去发展的领先机会。2)网络信息挖掘在竞争情报工作中的应用。现阶段,互联网在企业发展中已得到广泛的应用,从网上可以挖掘更多的企业信息,也将会涉及到更多的内容。依靠网络信息数据挖掘可以获取大量完整的信息,还能够获取一些事先未知的有用信息,揭示数据内在的复杂性,这也有助于对情报人员进行更深层次的分析,从而可以获得更有价值的竞争情报信息。
参考文献:
[1]王真,谈网络信息资源的组织与相关技术[J].科技情报开发与经济,2006(23).
[2]井卫平,网络信息资源的数据挖掘与应用研究[J].科技信息,2009(19).
[3]石鸿飞,基于网络的信息资源开发与服务[J].图书馆理论与实践,2006(1).
[4]陈征华、杨内,基于数据挖掘的网络信息采集与服务研究[J].情报理论与实践,2007(5).
[5]周秀明,高校网络数据库的建设与应用方略[J].甘肃科技,2008(15).
关键词: 网络信息资源;数据挖掘;类型;应用
中图分类号:G354文献标识码:A文章编号:1671-7597(2011)0510154-01
网络数据资源相比较其他的数据资源具有更强的优势,比如其更新速度快、检索更加方便快捷以及内容更为丰富等优点,已成为当前社会发展中不可缺少的资源,网络信息资源数据的挖掘也渐渐的浮出水面,引起人们的重视。网络信息的数据挖掘既包括对于网页内容本身的一种挖掘,而且还包括了对链接模式,以及用户浏览、存取、发布等相关的操作行为及访问行为所产生信息的一种挖掘。有效地挖掘、利用网络信息可以进一步增强网站的吸引力,吸
引更多的用户群,实现网络资源的高效利用。
1 网络信息资源的特点
网络信息资源所涉及的内容十分复杂,如下是对其特点的几点概述:1)数量比较大,内容也十分繁杂,其质量也是不一致的。网络信息资源不仅会涉及到最新的一些科研动态与学术成果,而且还存在一些涂鸦之作。2)网络信息资源中容纳了丰富的资料,在瞬息间会发生巨大的变化,它具有高度的动态性以及暂时性。3)其种类也是多种多样的,既有文本性的内容,也包含了以声音、图像以及图形等形式存储的信息。4)其关联性比较强,可以实现不同地区以及不同国度间的链接,在很大程度上加强了信息之间的关联性。5)网络信息资源的有序性、规范性比较差,在网络信息范围内依然没有形成统一的,共同遵循的数据描述规范。
数据挖掘过程主要分为四个阶段:确定对象,数据准备、数据挖掘、数据评价。
第一步:确定对象。先确定要分析的业务对象,虽然结果不可预测,但是我们必须清楚要分析业务对象的方向,不能盲目进行数据挖掘,不然后期无法明确如何进行对数据的处理,也就根本得不到正确的结果。
第二步:数据准备。这个阶段是最重要的阶段,基本上会占用60%—80%的时间,只有建立在详细准确的数据之上,后面的挖掘才不会得出错误的结果,下面會详细介绍数据准备的具体流程:1)数据收集过滤及录入。数据采集渠道广,数据收集要尽量完全完整,尽量收集内部和外部关于此业务对象的数据。录入的时候要保证数据的准确完整,数据尽量保证在储存在同一处。2)数据预处理。预处理基本上是在上步收集好数据的基础上对数据进一步对数据进行处理,此时的数据不只包括刚刚输入的数据,也包括已经存在的数据,对他们可以进行数据清理、数据集成、数据变换、数据规约或者离散化。3)数据分析及建模。通过上一步对数据的处理,现在的数据已经是可以直接进行处理的优化后数据,现在就对已有的数据进行分析,将数据转换成一个分析模型,而这个分析模型是针对挖掘算法建立的,建立一个适合挖掘算法的分析模型也是成功的关键之一。
第三步:数据挖掘。具体数据挖掘过程设计涉及的知识领域有:
1)广义知识:对类别特征的概括性描述,从数据的微观特性中发现较高层次的带有普遍性宏观性的能反映同类事物共同性质的知识,是对数据的概括精炼与抽象。2)关联知识:反映一个事件与另一个事件依赖或者关联的知识,如果发现多项存在关联,就可以依据一项对其他项进行预测,这一般是计算量最大的部分。3)分类知识:反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。4)预测型知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。5)偏差型知识:是对差异和极端特例的描述,揭示事物偏离常规的异常现象的知识。
第四步:数据评价。经过上面的三步,通过对数据的处理分析、适当模型的建立、合适分析方法的选择以及相关算法的使用,我们得出了结果,这时一般会结合可视化技术来展现得到的结果,可视化技术的好处就是将得到的结果直观的展示出来,有助于直接发现具体关联,得到有用知识。
2 网络信息资源的数据挖掘类型
由于网络挖掘的对象不同,因而网络挖掘信息也分为不同的类型,其中主要包括网络内容挖掘、网络结构挖掘以及网络用法的挖掘。如下主要是针对网络内容挖掘以及网络结构挖掘进行分析。
1)网络内容挖掘。网络内容挖掘主要是对网络信息资源中的相关内容进行挖掘。网络信息资源所涉及到得种类很多,当前万维网的信息资源已成为网络信息资源的主体,在早前出现的FTP以及Gopher等资源已被逐渐的隐藏,但是依然可以通过Web对这些资源进行访问。
2)网络结构挖掘。它是对网络信息资源的各种异构数据、数据源之间、页面之间及数据源与页面之间的联系结构以及组织方式进行挖掘。网络结构挖掘主要是为了发现Web与页面结构以及在这些结构中的有用模式、对于页面以及与其相关链接进行分类,从而可以获取有关不同网页之间的相似度以及关联度之间的信息,这可以帮助用户找到更具权威性的站点,也能够及时了解一些动态信息,为社会发展带来了更大的便捷。
3 网络信息资源数据挖掘类型的应用
3.1 网络信息数据挖掘在电子商务中的应用。1)网络信息数据挖掘在电子商务中应用的重要性。电子商务主要是企业或者个人依靠互联网,通过数字化方式进行商务数据交换以及开展各种商务业务活动。在电子商务实现的过程中会产生大量数据,通过数据挖掘在对这些数据进行有效的分析,此技术已成为当前使用十分广泛的信息传播技术。2)以顾客行为模式进行分析。通常情况下,数据挖掘技术不是在线创建模型,与其相关的数据从服务器上下载下来,并进行必要的处理。如下是对其数据处理的相关步骤:① 数据的聚合和过滤,从不同的文档中将所有的数据汇聚在一起组成基本的数据记录,在进行聚集的过程中,需要将信息中错误或者漏掉的部分进行修正。② 数据的整合,数据的挖掘工具只能对数字进行处理,如果是文字数据则需要进行提前处理,将其转化出来。不同的数据挖掘则会采用不同的挖掘技术,应根据具体情况实施。
3.2 网络信息数据挖掘在竞争情报中的应用。1)网络信息数据的意义。竞争情报工作在进行过程中通过互联网获取了丰富的信息资源,但是在获取其中有价值的信息过程中依然缺少较好的网络信息挖掘工具。尤其是面对当前如此激烈的竞争,几乎每个企业都拥有自己的竞争情报系统,以此来提高自身的竞争力。尤其是面对当前的网络环境,如果哪个企业缺少对网络信息资源的开发与利用方面的重视工作,谁就会失去发展的领先机会。2)网络信息挖掘在竞争情报工作中的应用。现阶段,互联网在企业发展中已得到广泛的应用,从网上可以挖掘更多的企业信息,也将会涉及到更多的内容。依靠网络信息数据挖掘可以获取大量完整的信息,还能够获取一些事先未知的有用信息,揭示数据内在的复杂性,这也有助于对情报人员进行更深层次的分析,从而可以获得更有价值的竞争情报信息。
参考文献:
[1]王真,谈网络信息资源的组织与相关技术[J].科技情报开发与经济,2006(23).
[2]井卫平,网络信息资源的数据挖掘与应用研究[J].科技信息,2009(19).
[3]石鸿飞,基于网络的信息资源开发与服务[J].图书馆理论与实践,2006(1).
[4]陈征华、杨内,基于数据挖掘的网络信息采集与服务研究[J].情报理论与实践,2007(5).
[5]周秀明,高校网络数据库的建设与应用方略[J].甘肃科技,2008(15).