什么是数据挖掘?怎样通过分析获得洞见

来源 :计算机世界 | 被引量 : 0次 | 上传用户:qqwc112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  编译 Charles
  数据挖掘是一种自动化的过程,对大量的数据集进行排序,确定趋势和模式,并建立关系。
  当今的企业正在收集各种来源日益增长的信息,包括网站、企业应用程序、社交媒体、移动设备,以及越来越多的物联网(IoT)设备等。
  最大的问题是怎样从这些信息中获得真正的商业价值?这正是数据挖掘大显身手的地方。数据挖掘是一种自动化的过程,对大量的数据集进行排序,确定趋势和模式,并建立关系,通过分析数据来解决业务问题,或者发现新机会。
  这不仅仅是通过检查数据来看看过去发生了什么,而是要在当下采取明智的行动。数据挖掘工具和技术使您能够预测未来会发生什么,并据此采取行动,顺势而为。
  术语“数据挖掘”在IT行业应用得相当广泛。它经常应用于各种大规模数据处理活动,例如收集、提取、存储和分析数据等。它还可以包括决策支持应用程序和技术,例如人工智能、机器学习和商业智能。
  数据挖掘被用于业务和研究的很多领域中,包括产品开发、销售和市场营销、遗传学和控制论,等等。如果应用的合适,数据挖掘和预测分析相结合能够让您比那些不使用这些工具的竞争对手更有优势。
  从数据挖掘中获取业务价值
  数据挖掘的真正价值源于能够挖掘出隐藏在模式和数据关系中的“宝石”,用于做出对企业产生重大影响的预测。
  例如,如果一家公司确定经过某次营销活动后,某一产品型号在该国某些地区的销售要比其他地区好得多,那么今后就可以重新调整这类活动以获得最大回报。
  技术所能带来的好处取决于业务类型及其目标。例如,与航空公司和金融服务行业相比,零售业的销售和营销经理会以不同的方式来挖掘客户信息,以吸引更多的客户。
  不论是那种行业,过去应用于销售模式和客户行为的数据挖掘可以用来创建预测未来销售和行为的模型。
  数据挖掘还有助于消除可能危害企业的活动。例如,您可以使用数据挖掘来提高产品的安全性,或者检测保险和金融服务交易中的欺诈行为。
  数据挖掘的应用
  数据挖掘几乎可以应用到所有行业的各种应用中。
  ● 零售商可以部署数据挖掘,更好地识别出人们会根据过去的购物习惯来购买哪些产品,或者在一年中的某些时间段哪些商品会销售得更好。这可以帮助商家做好库存计划和店面布局。
  ● 银行和其他金融服务提供商可以挖掘与客户账户、交易和渠道偏好相关的数据,以更好地满足客户需求。他们还可以收集来自网站和社交媒体互动的数据,以帮助提高现有客户的忠诚度,并吸引新客户。
  ● 制造企业可以使用数据挖掘来发现生产过程中的规律,精确地识别出存在瓶颈和缺陷的方法,找到提高效率的途径。他们还可以把数据挖掘中的知识应用到产品设计中,并根据客户体验反馈进行调整。
  ● 教育机构能够从数据挖掘中获益,例如,分析数据集以预测学生未来的学习行为和表现,然后利用这些知识改进教学方法或者课程。
  ● 卫生保健提供商可以挖掘并分析数据,以确定护理病人更好的方式,并降低成本。在数据挖掘的帮助下,他们可以预测需要照顾多少病人,以及病人需要什么样的服务。在生命科学中,数据挖掘可以用来从大量生物数据获得深度分析结果,帮助开发新药和其他治疗方法。
  ● 在很多行业中,包括卫生保健和零售业,可以使用数据挖掘发现欺诈和其他犯罪行为——能够比传统方法更迅速地识别出此类活动。
  数据挖掘的关键组成
  数据挖掘过程包括几个不同的组成,以满足不同的需求:
  ● 预处理。在应用数据挖掘算法之前,您需要构建一个目标数据集。数据的常见来源是数据集市或者数据仓库。您需要执行预处理才能分析数据集。
  ● 数据清洗和准备。必须对目标数据集进行清洗和准备,去掉“噪声”,处理缺失值,筛选无关的数据点(用于异常检测),以消除错误,或者进行进一步的研究,创建分段规则,执行与数据准备相关的其他功能。
  ● 关联规则学习(也称为市场购物篮分析)。这些工具搜索数据集中变量之间的关系,例如确定一个商店中哪些产品会被经常一起购买。
  ● 聚类。数据挖掘的这一特性被用来发现数据集中在某种程度上相似的群组和结构,而不必使用数据中已知的结构。
  ● 分类。执行分类的工具将已知的结构归纳应用到新的数据点,例如电子邮件应用程序把消息分类为合法邮件和垃圾邮件。
  ● 回归。这种数据挖掘技术用于预测某一具体数据集的数值范围,例如销售额、住房价值、温度或者价格等。
  ● 总计。这种技术提供了一个数据集的紧凑表示,包括可视化和报表生成。
  数十家供应商提供数据挖掘软件工具,一些提供专有软件,另一些则通过开源工作交付产品。
  提供专有数据挖掘软件和應用的主要供应商有Angoss、Clarabridge、IBM、微软、Open Text、Oracle、RapidMiner、SAS研究院和SAP。
  提供开源数据挖掘软件和应用的企业有Carrot2、Knime、Massive Online Analysis、ML-Flex、Orange、UIMA和Weka。
  数据挖掘的风险和挑战
  数据挖掘也伴随着风险和挑战。与任何涉及使用敏感或者个人身份信息的技术一样,安全和隐私都是最令人关注的问题。
  从根本上讲,被挖掘的数据应完整、准确和可靠;毕竟,您使用它来做出重大业务决策,经常与公众、管理方、投资方和商业合作伙伴进行交流。现代形式的数据也需要新技术,例如将各种分布式计算环境产生的数据集(也称之为大数据集成)与图像和视频、时域数据和空域数据等更复杂的数据集成在一起。
  获取正确的数据,然后把它们整合在一起,这样就可以对其进行挖掘——IT面临的挑战远不止这些。云、存储和网络系统需要高性能的数据挖掘工具。从数据挖掘中得到的信息应能够清晰地呈现给那些希望采取行动并解释它的广大用户。您需要有数据科学和相关领域技能的人才。
  从隐私的角度看,如果挖掘与人们的行为、购买什么、访问哪些网站等相关的信息,那么这种想法可能会让人们担心公司收集的信息太多了。这不仅影响您的技术实现,而且还影响您的业务策略和风险分析。
  除了全方位跟踪个人的伦理问题之外,对于怎样收集数据、确定个人身份以及共享这些信息等也有法律规定。美国的健康保险流通与责任法案(HIPAA)和欧盟的通用数据保护条令(GDPR)都是人们所熟知的法规。
  在数据挖掘中,最初的准备活动,例如汇集然后使数据合理化等,能够发现可能危及数据机密性的信息或者模式。因此,有可能在无意间与伦理问题或者法律要求相冲突。
  数据挖掘还需要数据保护,每一步都是如此,以确保数据不会被窃取、更改或者被偷偷地访问。安全工具包括加密、访问控制和网络安全机制。
  数据挖掘是关键的不同之处
  尽管存在这些挑战,数据挖掘已成为很多企业IT战略的关键组成,这些企业希望能够从他们收集或者访问的信息中获取价值。随着预测分析、人工智能、机器学习以及其他相关技术的不断进步,这种发展趋势无疑会进一步加速。
  Bob Violino——目前在纽约,是Computerworld、CIO、CSO、InfoWorld和Network World的特约撰稿人。
  原文网址:
  http://www.infoworld.com/article/3218151/data-mining/what-is-data-mining-how-analytics-uncovers-insights.html
其他文献
宁波,中国近现代工业的发源地之一,全国首个“中国制造2025”试点示范城市。  SAP,“德国工业4.0”的主要发起者和推动者,拥有全球领先的数字化创新技术优势和深厚的行业经验。  无论“中国制造2025”还是“德国工业4.0”,智能制造都是核心出发点。  近日,由SAP携手宁波市北仑区人民政府(以下简称“北仑区政府”)共同打造的“思爱普宁波智能制造创新中心”正式揭牌。借助SAP全球领先的物联网、
“前来见证2011年将是什么年?”这是苹果上周发出的邀请函中的主题句。美国当地时间3月2日上午10点,苹果将在旧金山芳草地艺术中心召开特别发布会,iPad2要来了,平板电脑年的旋风将再度掀起。    戴尔收购数据存储公司Compellent    本报综合消息 戴尔于上周宣布已完成对数据存储公司Compellent的收购,收购总额约为8亿美元。目前计划将Compellent的数据分层技术应用于公司
“五千年文化,三千年诗韵。”中央电视台于2018年推出了大型诗词文化音乐节目——《经典咏流传》。这个新节目的形式是为流行乐填上古诗词,为古诗词谱上新曲调,而后由经典传唱人传唱,节目中的很多歌曲令人泪目刷屏。《经典咏流传》很好地诠释着在今天,我们应该如何实现文化创新。  一、文化创新的根本途径是立足社会实践  《经典咏流传》是立足于中国特色社会主义实践基础上的创新。如清代袁枚的《苔》被梁俊师生演绎得
摘要:随着时代的发展和社会的进步,人们更加关注初中物理实验教学。新课程改革倡导,在初中物理教学过程中,学生要进行物理实验的演示教学。因此,在教学过程中,教师应及时转变教学方式,引导学生重视物理演示实验教学,并向学生强调在实验过程中,同学之间要互相帮助、互相配合,从而使物理演示实验教学成为学生的互助平台。与此同时,在初中物理演示实验教学中,教师要改变学生被动接受的学习态度,使学生真正成为学习的主人。
语文是一门包罗万象的学科,传统单一的课堂教学模式已经无法体现出语文的魅力,反而会让学生产生厌倦心理,不利于课堂效率的提高。在新课程改革的背景下,教师的课堂主体地位已发生改变,教师应以学生为中心,以促进学生学习能力的提高为目的实施教学。在语文课堂上运用分层导学模式,有助于促进课堂教学多样化,增强学生对语文学科的喜爱,能够更好地提高课堂教学效率。  一、利用分层导学,分化教学目标  新课程改革要求教师
摘要:小学美术课程是培养学生高雅兴趣和艺术细胞的独特课程,凭借其课堂趣味性和学习压力小的特点受到了广大学生的喜爱。小学是培养学生创新能力的重要时机,美术教师应在课堂中添加培养学生创新能力的教学内容。本文主要探究了在小学美术课堂上培养学生创新能力的具体策略,以便给予广大美术教师理论支持。  关键词:小学美术课堂 创新能力 教学策略  学生的创新能力建立在对世间万物的广泛认知及特立独行的思维模式上,教
摘要:传统高校思想政治教育由于教学模式单一,考核形式固定及教学方法陈旧,不利于思想政治教学目标的实现。微媒体具有方便性、快捷性、信息性等特征,为传统思想政治教育注入了新的活力。本文探讨了在微媒体技术下高校思想政治教育的新模式。  关键词:微时代 高校思想政治教育 新模式  随着互联网信息技术和移动通信技术的高速发展,新媒体传播平台迅速崛起,对经济、社会、文化等各方面产生了重要影响。高校思想政治课是
摘要:“学习投入度”是一种“以学生为中心”的教学质量评价体系,对科学评估教学质量、提高教学水平具有重要意义。本文以学习投入度量表(UWES—S)为研究工具,以南京信息职业技术学院物联网应用技术和机械工程两个专业的学生为研究对象,对高职院校专业课程混合学习模式的有效性进行了研究。研究结果表明,高职生总体学习投入度处于中等水平,且教学模式的选取对学生学习投入度具有较大影响。根据研究结果,本文提出了几点
摘要:为培养学生的综合素养,游戏教学已成为新的教学模式,深受广大师生的青睐。游戏化教学结合游戏与传统教学的优势,其自身具有的教育性与游戏性为实现新课程改革教育理念提供了新的途径。本文以小学数学课程为例,探讨了在小学数学教学中运用游戏化教学方式思考。  关键词:小学数学 游戏化教学 策略  新课程改革的深入开展对传统教学模式提出了新的挑战。在教学中,为了调动学生的学习积极性,教师要将游戏化教学引入小
摘要:新课程改革背景下,小学六年级数学教学不仅要求学生具备基本的应试能力,还对学生的学科综合能力提出了很高的要求。其中,学生数学思维的培养占据着重要位置,因为小学数学思维培养不仅影响学生现阶段的学习效果,还对后期学习习惯的培养起着关键作用。本文分析了现阶段小学六年级学生数学思维培养存在的问题,并探究了数学思维的培养方法。  关键词:小学六年级学生 数学思维 培养  随着新课程改革的逐渐深入,小学六