数据挖掘综述

来源 :速读·下旬 | 被引量 : 0次 | 上传用户:caoyouwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据采掘是数据库技术、人工智能、机器学习、统计分析、模糊逻辑、模式识别、人工神经网络等多个学科相结合的产物。最后探讨了数据挖掘的发展趋势,这对我国的数据挖掘研究具有一定的参考价值。
  关键词:数据挖掘;发展前景
  一、引 言
  数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscovery in Database), 数据挖掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和模式识别与人工智能等领域有机结合起来,它能组合各个领域的优点,从而能从数据中挖掘到其他传统方法不能发现的有用知识。在最近几年里已被数据库界所广泛研究,随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术,在这些数据当中我们可以找出“金子”来。
  二、数据挖掘应用
  数据挖掘是面向实际应用的技术,现在已经广泛应用于金融、银行、农业、制造业、零售业、电信、医疗卫生、教育和生物科学等领域。在信息技术方面,将数据挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。在医疗卫生方面,探讨了各种数据挖掘方法在生物医学研究领域中的应用,可以用分类方法对疾病进行诊断,用神经网络、支持向量机等数据挖掘方法对某些疾病进行预测,研究表明,预测效果良好。在研究MRI乳腺非肿块样强化病灶对乳腺癌的诊断时,发现决策树模型的灵敏度、特异性和准确率等性能均优于传统统计学中的 logistic 回归模型。
  三、数据挖掘发展趋势
  目前数据挖掘技术的研究已成为国内外研究的热点,最近几年在国内发展迅速,今后该领域发展的趋势可能主要表现在以下几方面:
  (1)随着互联网技术的发展,网络上的资源越来越多,如何通过数据挖掘技术对互联网上的资源进行挖掘,并从中发现有用的信息,将成为一个热点问题。Web 数据挖掘目前的研究虽然比较多,但是还有很多不足,需要进一步研究完善。
  (2)數据挖掘算法的改进和数据挖掘可视化。数据挖掘算法一般要处理海量的数据,如何在算法效率和算法准确度之间寻找平衡点,是一个值得研究的课题。另外,数据挖掘结果的友好可视化展现也是一个重要的研究课题。
  (3)多媒体数据挖掘。多媒体包含视频、音频、图像等,这些数据的结构往往比较复杂,传统的数据挖掘算法处理多媒体数据效果比较差。为了挖掘多媒体资源,需要设计和开发更好的数据挖掘算法。
  (4)数据挖掘和隐私保护。数据挖掘的个人隐私与信息安全问题备受人们关注。误用和滥用数据挖掘可能导致用户数据特别是敏感信息的泄露,越来越多的人对此表示担忧,如何在不暴露用户隐私的前提下进行数据挖掘,将成为非常值得关注的研究课题。
  (5)数据挖掘技术与其他系统的集成。数据挖掘应该是一个完整的过程,不单单是一个算法,为了将数据挖掘技术更好地应用于现实生活中,需要研究如何将数据挖掘与其他系统有机地集成,从而最大化地发挥数据挖掘的优势。
  (6)空间和时序数据挖掘。空间数据库与关系数据库不同,空间数据库具有丰富的数据类型,带有拓扑、距离信息,空间数据有很强的局部相关性等特点。挖掘空间数据库需要特殊的数据挖掘方法。另外,有一类数据集的数据之间存在着时间上的关系,这类数据被称为时序数据。在对时列数据进行挖掘的过程中,必须考虑数据集数据间存在时间上的关系,如何高效地处理空间和时序数据,仍有大量问题需要解决。
  (7) 适合中小企业使用的数据挖掘系统。目前国外著名的数据挖掘软件有:SAS Enterprise Min-er、SPSS Clementine(现被IBM收购并改名为IBMSPSS Modeler)和RapidMiner(开源)等 。除开源软件外,数据挖掘软件一般价格昂贵,中小企业往往望而却步。针对我国中小企业的特点,开发一套适合我国国情的数据挖掘软件具有重要的现实意义。
  四、结束语
  总之,数据挖掘只是一个工具,但不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。
  参考文献:
  [1]朱明.数据挖挖掘[M].合肥:中国科学技术大学出版社,2003.
  [2]邵峰晶、于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.
  [3]范明.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
  [4]夏火松主编.数据仓库与数据挖掘技术[M].北京:科学出版社.
其他文献
随着社会经济的日益发展,人民生活水平的不断提高,汽车的保有量增长迅猛,加之物流行业的快速发展,行驶高速公路的车流量呈快速增长的趋势,导致部分高速公路出入口收费站呈阶
目前,农村中学的英语教学成绩普遍比城市差,大多数学生感到英语难学,失去了学习英语的兴趣和自信心,产生厌学情绪,这让老师痛心却又无可奈何。  究其主要原因有几个方面:  (1)教材词汇量太大,内容多,语法语言点相对较散,需要大量时间去记忆,而且有的记忆时间很短,即好学易忘,有的虽然记住了,但不会运用,没有学习的成就感,所以被动,厌学。  (2)小学基础不好。我们学校的学生大多数来自附近的村小,虽然开
期刊
一、问题的提出众所周知,初中是当前基础教育最为困难的阶段。特别是在高中优质教育资源比较稀缺的背景下,高考竞争前移到中考。初中阶段成为了学生学业负担最重的阶段。我们
摘 要:电视新闻娱乐化是一种信息传播手段,也是一种文化传播行为和经济运作方式。它满足了受众的心理需求,体现了电视文化的平民性、形象性的特点,但也产生了过于追求收视率而造成成媒体告知功能的丧失、新闻报道的公信度和公正性下降、人文关怀缺失等问题,应采取积极措施加以规范。  关键词:电视新闻;娱乐化;弊端;对策  新闻娱乐化现象是一股风行世界的思潮,中国媒介也受到影响。娱乐化是新闻在大众文化和大众娱乐普
摘 要:中学生语文素养是中学生素质的重要组成部分,也是一个人世间最基本的生存素质。“为了中华民族的复兴,为了每一位孩子的发展”。《全日制九年义务教育语文课程标准》首先突出的是语文素养的培养问题。它在前言部分明确指出在“九年义务教育阶段的语文课程,必须面向全体中学生,使中学生获得基本的语文素养。”“全面提高中学生的语文素养。”“语文课应致力于中学生语文素养的形成与发展。  关键词:语言积累 人文精神
国有企业是中国特色社会主义的重要物质基础和政治基础,国有企业技术部门是新时代国有企业高质量发展的新动力源,要充分发挥好新时代国有企业的党建优势,不断提升技术部门党
摘 要:高中化学知识点多、课堂容量大,如果继续沿袭初中听讲——作业——记忆的学习方法,势必非常被动,往往产生“学不下去”的感觉。在这里,通过培养探究性思维方式来提升思维品质,增加学习兴趣,提高学习成绩就显示出独特的魅力。本文从四个方面分析、论述了高中生在化学课学习中,如何多层次、多角度地透彻理解、熟练运用化学知识,主动钻研,融会贯通,从而达到培养探究性思维方式的目的。  关键词:高中化学;探究性思
外部信息只有经学习主体的主动选择才能被纳入认知领域,且只有与学习主体内需相一致的信息才能够引起学习者的关注并选择吸收,才有知识重建的可能。而中职学习者对于课外英语
在中学教科书中有这样两个化学方程式:  Cu + 4HNO3(浓) === Cu(NO3)2 + 2NO2↑+ 2H2O  3Cu + 8HNO3(稀) === 3Cu(NO3)2 + 2NO↑+ 4H2O  (1)稀硝酸与硫化物反应时,只能将S2- 离子氧化成单质硫,而浓硝酸与硫化物反应时,能将S2-离子进一步氧化成SO42-离子。  3CdS + 8HNO3(稀) === 3Cd (NO3)2
摘要:在义务教育阶段,物理教学不仅应该注重科学知识的传授和技能的训练,注重将物理科学的新成就及人类文明的影响等纳入课程中,而且更应重视对学生终身学习愿望、科学探究能力、创新意识及科学精神的培养,中学物理教学特别要培养学生自主学习的能力。   关键词:自主学习 创新精神 锐意求索    一、研究目的  为了适应时代的要求,突出物理学科在教育中的特殊地位,在物理教学中培养学生自主学习、勇于探究的良好习