论文部分内容阅读
摘 要: 数据挖掘技术适用于许多领域,能够利用其数据处理和分析能力,为各领域及相应的平台软件数据提取具有向导性的价值信息,引导行业的发展,其在软件应用方面具有广阔的前景。
关键词: 数据挖掘;软件;应用
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)0120181-01
1 数据挖掘技术
数据挖掘技术,从广义上来说,为一个提取潜在信息的过程。从海量原始信息中挖掘或者提取有用信息,它能够自动的分析和处理原有数据,提炼出具有规律性的模式,从而分析出对象的行为。数据挖掘的数据对象一般特征为数据量大,信息补不完全,存在噪音,并且模糊,随机性强。
数据挖掘是多个领域的交叉学科,剥壳数据库,机器学习,可视化和信息科学等。在使用数据挖掘技术的同时,需要配合其他技术剥壳神经网络技术,模糊及粗糙理论,知识表示,归纳逻辑程序,或者高性能计算。数据挖掘系统可以继承空间数据分析,信息提取,模式识别,图像分析,信号处理,计算机图形学,Web技术,经济,或者心理学等技术。数据挖掘需要对原始的数据进行预处理,主要处理方式包括数据清理。数据集成、数据变换、数据归纳等。从分析数据角度,数据挖掘主要分为两类,分别为描述式的数据挖掘和与预测式的数据挖掘。其中描述式的通常以简洁的语言方式描述数据,并且同时提供数据的一般性质。而预测性的类别,主要分析数据,建立一个或者一组数据模型,并且推算出新数据集的行为。
2 数据挖掘在软件中应用
数据挖掘技术根据其本身挖掘类型分为多种技术,譬如关联规则挖掘技术,通过发现存在海量数据中数据集的关联性及相关性,所采取的算法为Apriori算法。Apriori算法是一种逐层搜索迭代的算法,利用频繁项目集中任何子集一定为频繁集的Apriori性质,最后迭代推出最后的频繁子集,达到挖掘的目的。关联规则挖掘技术一般应用于具有客户关系领域,包括金融,通信或者培训,餐饮业等。
Apriori算法形式描述为:设定相关规则的频繁集I={i1,i2,……,im},设定事务数据稽核D,假定事务T是I中一组项的集合,即为T被包含I,T的唯一标记为TID。若集合项X完全被包含I且X完全被包含T,则事务项T包含集合项X。关联规则是X推出Y。若关联规则X推出Y成立,则还需具备两个标志参数:支持度S,既事務数据库D中至少存在S%的事务,同时包含X和Y中所有项。置信度C,既在事务数据库D中包含X的事务至少有C%,同时也包含Y。在X推出Y中,X被称为规则前件,被称为规则后件,其中的X和Y均可以由合区表达式构成。
数据挖掘技术还包括决策数据挖掘,通过采集过去经验的数据,包括所有经验行为,形成状态集,通过决策算法推到出最后决策。此应用一般应用在体育运动或者金融交易、或者公司管理决策等方面。决策数据挖掘,所采取的算法基于马尔科夫过程的算法。其主要思想为,把所需要挖掘的海量数据视为一个有多个状态组成的系统,而状态之间的转化过程为马尔科夫过程转化,通过统计整个状态矩阵,计算出系统可靠性,得出差分,设置微小增量,最后得出最后决策状态行为。
数据挖掘技术在生物医学和DNA数据分析的应用。目前生物医学的大量研究都集中在对DNA数据分析上,正符合数据挖掘的基本条件。DNA数据分析重点关注DNA序列研究。通过异构、分布基因数据库的语义集成,以此方便对DNA数据库进行系统而系统的分析,促使集成式数据仓库和分布式的联邦数据库开发,以此来存储和管理原始DNA数据。通过数据挖掘的数据清洗和数据集成方便基因数据集成和用于基因数据分析的数据的构造。通过关联分析,同时出现的基因序列识别,帮助确定在目标样本的出现的基因种类,以此发现基因组和对基因间的交叉研究。通过路径分析发现疾病不同阶段的致因基因,找到疾病的发展的不同阶段的遗传因素序列,可以开发出针对疾病的不同阶段的治疗药物。通过可视化的工具和遗传数据分析,方便结构和模式的了解,和知识的发现,以及数据的交互。
数据挖掘在金融数据分析,银行和金融机构中有大量比较完整、可靠和高质量的数据,通过多维的数据分析和数据挖掘设计,构造数据仓库。通过信息中的贷款偿还预测和客户信用政策分析,通过客户的数据特征选择和属性相关性的计算,分析客户的偿还历史信息,可以得出可以发现偿还的收入比不是主导因素,而是所受的教育水平和负债率为是主导因素这样的客户习性的结果,银行可以根据此调整贷款的发放政策。通过数据挖掘可以对目标市场客户分类和聚类。通过数据挖掘的多维聚类分析,可以将具有相同储蓄的和贷款偿还行为的客户分为一组,有效的聚类和协同过滤方法可以识别客户组,将新的客户关联到适合的客户组,推动市场发展。利用数据挖掘技术有助于将洗黑钱和其他金融犯罪侦破。通过数据挖掘的数据分析工具分析出异常模式,识别出中重要的活动关系和模式,帮助调查人员聚焦可疑人员线索。
3 前景分析
数据挖掘人物和数据挖掘方法的多样性,给数据挖掘这个方向的研究带来了许多挑战性的课题和方向。其中数据挖掘的语言设计,高效而又有效的数据和系统研发,交互和集成数据挖掘环境的建立,还有利用数据挖掘技术解决大型应用系统的课题。
就分析整个数据挖掘应用研究前景,主要表现在应用扩展,目前随着数据挖掘技术日益发展和普及,现在已经设计到了多个领域包括生物医学,金融,电信等领域。同时随着电子商务技术的发展,数据挖掘技术不断扩充其应用领域。建立伸缩的数据挖掘方法,是数据挖掘应用的里一个方向,它能在用户交互的同时提高挖掘效率,引导数据挖掘系统对感兴趣的模式搜索。将数据挖掘系统与数据库,数据仓库、WEB数据系统集成,这可保证数据的可获得性,同时也保证了数据挖掘的可一致性,可伸缩性,高性能,以及对多为数据的分析和扩展集成处理能力。其次,可视化数据挖掘、复杂数据类型挖掘新方法、Web挖掘、数据挖掘在隐私保护和信息安全的应用等都是数据挖掘应用的方向,并且都具有极大的应用价值,对于扩展新市场,对经济发展都有巨大的推动效果。
4 总结
本为对数据挖掘技术在各领域进行分析和展望,数据挖掘是一个非常有价值的数据处理和预测方法。世界上任何实体、事务都是一个复杂的数据系统,如何从这些复杂系统中提取有用价值的信息和知识,是科学研究的最重要的方面,而数据挖掘技术正提供研究的方向和方法。在如今社会方面,各个行业都需要预测行业发展,为管理决定或者投资决定,市场走向进行分析、抉择,而数据挖掘技术提供了这样的手段。所以对于数据挖掘技术在应用系统分析都具有非常的价值,本文对其进行初步的分析,以后的工作还需要更多的分析角度和方法,将数据挖掘技术在各领域普及。
参考文献:
[1]蒋良孝、蔡之华,空间数据挖掘的回顾与展望[J].计算机工程,2003(06).
[2] 王海起、王劲峰,空间数据挖掘技术研究进展[J].地理与地理信息科学,2005(04).
[3]毛克彪、田庆久,空间数据挖掘技术方法及应用[J].遥感技术与应用,2002(04).
[4]周海燕、王家耀、吴升,空间数据挖掘技术及其应用[J].测绘通报,2002(02).
[5]刘霞、王爱民,数据挖掘技术在CRM中的应用[J].现代管理科学,2004(03).
[6]张丽,数据仓库与数据挖掘[J].贵州民族学院学报(哲学社会科学版),2006(02).
[7]张蓉,数据挖掘技术在客户关系管理系统中的应用[J].重庆广播电视大学学报,2003(02).
[8]张诚洁.电子商务中数据挖掘技术的选择[J].烟台师范学院学报(自然科学版),2004(03).
关键词: 数据挖掘;软件;应用
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)0120181-01
1 数据挖掘技术
数据挖掘技术,从广义上来说,为一个提取潜在信息的过程。从海量原始信息中挖掘或者提取有用信息,它能够自动的分析和处理原有数据,提炼出具有规律性的模式,从而分析出对象的行为。数据挖掘的数据对象一般特征为数据量大,信息补不完全,存在噪音,并且模糊,随机性强。
数据挖掘是多个领域的交叉学科,剥壳数据库,机器学习,可视化和信息科学等。在使用数据挖掘技术的同时,需要配合其他技术剥壳神经网络技术,模糊及粗糙理论,知识表示,归纳逻辑程序,或者高性能计算。数据挖掘系统可以继承空间数据分析,信息提取,模式识别,图像分析,信号处理,计算机图形学,Web技术,经济,或者心理学等技术。数据挖掘需要对原始的数据进行预处理,主要处理方式包括数据清理。数据集成、数据变换、数据归纳等。从分析数据角度,数据挖掘主要分为两类,分别为描述式的数据挖掘和与预测式的数据挖掘。其中描述式的通常以简洁的语言方式描述数据,并且同时提供数据的一般性质。而预测性的类别,主要分析数据,建立一个或者一组数据模型,并且推算出新数据集的行为。
2 数据挖掘在软件中应用
数据挖掘技术根据其本身挖掘类型分为多种技术,譬如关联规则挖掘技术,通过发现存在海量数据中数据集的关联性及相关性,所采取的算法为Apriori算法。Apriori算法是一种逐层搜索迭代的算法,利用频繁项目集中任何子集一定为频繁集的Apriori性质,最后迭代推出最后的频繁子集,达到挖掘的目的。关联规则挖掘技术一般应用于具有客户关系领域,包括金融,通信或者培训,餐饮业等。
Apriori算法形式描述为:设定相关规则的频繁集I={i1,i2,……,im},设定事务数据稽核D,假定事务T是I中一组项的集合,即为T被包含I,T的唯一标记为TID。若集合项X完全被包含I且X完全被包含T,则事务项T包含集合项X。关联规则是X推出Y。若关联规则X推出Y成立,则还需具备两个标志参数:支持度S,既事務数据库D中至少存在S%的事务,同时包含X和Y中所有项。置信度C,既在事务数据库D中包含X的事务至少有C%,同时也包含Y。在X推出Y中,X被称为规则前件,被称为规则后件,其中的X和Y均可以由合区表达式构成。
数据挖掘技术还包括决策数据挖掘,通过采集过去经验的数据,包括所有经验行为,形成状态集,通过决策算法推到出最后决策。此应用一般应用在体育运动或者金融交易、或者公司管理决策等方面。决策数据挖掘,所采取的算法基于马尔科夫过程的算法。其主要思想为,把所需要挖掘的海量数据视为一个有多个状态组成的系统,而状态之间的转化过程为马尔科夫过程转化,通过统计整个状态矩阵,计算出系统可靠性,得出差分,设置微小增量,最后得出最后决策状态行为。
数据挖掘技术在生物医学和DNA数据分析的应用。目前生物医学的大量研究都集中在对DNA数据分析上,正符合数据挖掘的基本条件。DNA数据分析重点关注DNA序列研究。通过异构、分布基因数据库的语义集成,以此方便对DNA数据库进行系统而系统的分析,促使集成式数据仓库和分布式的联邦数据库开发,以此来存储和管理原始DNA数据。通过数据挖掘的数据清洗和数据集成方便基因数据集成和用于基因数据分析的数据的构造。通过关联分析,同时出现的基因序列识别,帮助确定在目标样本的出现的基因种类,以此发现基因组和对基因间的交叉研究。通过路径分析发现疾病不同阶段的致因基因,找到疾病的发展的不同阶段的遗传因素序列,可以开发出针对疾病的不同阶段的治疗药物。通过可视化的工具和遗传数据分析,方便结构和模式的了解,和知识的发现,以及数据的交互。
数据挖掘在金融数据分析,银行和金融机构中有大量比较完整、可靠和高质量的数据,通过多维的数据分析和数据挖掘设计,构造数据仓库。通过信息中的贷款偿还预测和客户信用政策分析,通过客户的数据特征选择和属性相关性的计算,分析客户的偿还历史信息,可以得出可以发现偿还的收入比不是主导因素,而是所受的教育水平和负债率为是主导因素这样的客户习性的结果,银行可以根据此调整贷款的发放政策。通过数据挖掘可以对目标市场客户分类和聚类。通过数据挖掘的多维聚类分析,可以将具有相同储蓄的和贷款偿还行为的客户分为一组,有效的聚类和协同过滤方法可以识别客户组,将新的客户关联到适合的客户组,推动市场发展。利用数据挖掘技术有助于将洗黑钱和其他金融犯罪侦破。通过数据挖掘的数据分析工具分析出异常模式,识别出中重要的活动关系和模式,帮助调查人员聚焦可疑人员线索。
3 前景分析
数据挖掘人物和数据挖掘方法的多样性,给数据挖掘这个方向的研究带来了许多挑战性的课题和方向。其中数据挖掘的语言设计,高效而又有效的数据和系统研发,交互和集成数据挖掘环境的建立,还有利用数据挖掘技术解决大型应用系统的课题。
就分析整个数据挖掘应用研究前景,主要表现在应用扩展,目前随着数据挖掘技术日益发展和普及,现在已经设计到了多个领域包括生物医学,金融,电信等领域。同时随着电子商务技术的发展,数据挖掘技术不断扩充其应用领域。建立伸缩的数据挖掘方法,是数据挖掘应用的里一个方向,它能在用户交互的同时提高挖掘效率,引导数据挖掘系统对感兴趣的模式搜索。将数据挖掘系统与数据库,数据仓库、WEB数据系统集成,这可保证数据的可获得性,同时也保证了数据挖掘的可一致性,可伸缩性,高性能,以及对多为数据的分析和扩展集成处理能力。其次,可视化数据挖掘、复杂数据类型挖掘新方法、Web挖掘、数据挖掘在隐私保护和信息安全的应用等都是数据挖掘应用的方向,并且都具有极大的应用价值,对于扩展新市场,对经济发展都有巨大的推动效果。
4 总结
本为对数据挖掘技术在各领域进行分析和展望,数据挖掘是一个非常有价值的数据处理和预测方法。世界上任何实体、事务都是一个复杂的数据系统,如何从这些复杂系统中提取有用价值的信息和知识,是科学研究的最重要的方面,而数据挖掘技术正提供研究的方向和方法。在如今社会方面,各个行业都需要预测行业发展,为管理决定或者投资决定,市场走向进行分析、抉择,而数据挖掘技术提供了这样的手段。所以对于数据挖掘技术在应用系统分析都具有非常的价值,本文对其进行初步的分析,以后的工作还需要更多的分析角度和方法,将数据挖掘技术在各领域普及。
参考文献:
[1]蒋良孝、蔡之华,空间数据挖掘的回顾与展望[J].计算机工程,2003(06).
[2] 王海起、王劲峰,空间数据挖掘技术研究进展[J].地理与地理信息科学,2005(04).
[3]毛克彪、田庆久,空间数据挖掘技术方法及应用[J].遥感技术与应用,2002(04).
[4]周海燕、王家耀、吴升,空间数据挖掘技术及其应用[J].测绘通报,2002(02).
[5]刘霞、王爱民,数据挖掘技术在CRM中的应用[J].现代管理科学,2004(03).
[6]张丽,数据仓库与数据挖掘[J].贵州民族学院学报(哲学社会科学版),2006(02).
[7]张蓉,数据挖掘技术在客户关系管理系统中的应用[J].重庆广播电视大学学报,2003(02).
[8]张诚洁.电子商务中数据挖掘技术的选择[J].烟台师范学院学报(自然科学版),2004(03).