数据挖掘算法的研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:hyq20061001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于现在科学技术的迅猛发展以及人民生活水平的不断提升,互联网行业在悄无声息的进入大众的生活中,计算机也被应用在各行各业中。从社会网络到蛋白质交互网络等不同的领域产生了大量的数据,而图作为统计这些巨大数据的一个载体不仅能精确的描述出数据的属性,还能说明数据结构的特征,这些优势让以不确定图模型的数据挖掘算法在社会中得到广泛的应用。
  关键词:数据;挖掘算法;不确定图
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)12-0182-02
  Research on Data Mining Algorithm -- with Uncertain Graph Model as an Example
  HUANG Xin
  (Dehong Normal College, Dehong 678400, China)
  Abstract: since the rapid development of science and technology and the continuous improvement of people’s living standards, the Internet industry in quietly into the public life, computer has been used in all walks of life. From the field of social network to different protein interaction networks produce a large amount of data, and the map as a carrier of these huge data statistics can not only accurately describe the attribute of the data, but also illustrate the characteristics of the data structure, these advantages make with uncertain graph data mining algorithm is widely used in the society.
  Key words: data mining; algorithm; uncertain graph
  现代的科学技术正在以飞快的速度发展,其中互联网和计算机技术也在蓬勃发展,国内的每个行业都会积累大量的数据信息来促进本企业的迅猛发展。不同的领域都会使用不同的图结构来记录这些数据,而不确定图模型就是统计这些数据的结构之一。但是在实际应用当中,不同的获取数据的工具以及原始数据的微小差距都能使获得的数据不精确,再加上人们个体之间的工作关系网和生活关系网都能用图来描述,将这些不确定的数据信息用图来说明就形成了不确定图模型数据。由于这些不确定图数据存在的量比较大,所以它包涵着丰富的信息,从中挖掘有用的知识是非常重要的,也是极具现实意义的。
  1 数据挖掘
  在利用不同的技术手段或者查阅大量的资料所获得的这些真实的、可能含有噪声的数据中挖掘出用户感兴趣的、能够理解的的有效数据的过程就称之为数据挖掘。换句话说用户需要从不完整的、模糊的、有噪声的大量的数据中发现突出点以及潜藏的有用信息。数据挖掘所涉及到的学科非常广泛,其最重要的就是借助计算机技术来完成这个过程,在最初搜集数据时需要数理统计、数据库方面的知识,在进行数据挖掘时需要各种分析工具,最后再将有效的数据与对应的模型进行转化时需要数学知识。
  2 确定图数据挖掘
  由于真实物理世界中的网络普遍具有不确定性,因此网络可以表示为不确定图。Jin等使用数据挖掘方法研究了如何从不确定图中挖掘连通可靠性高于某阈值的全部导出子图。该问题在蛋白质复合体发现、通信网络路由和社会网络分析中具有重要应用。
  2.1 图
  图,就是我们在数据结构中学到的图,它是一中存储信息的结构,在数据结构中它是被安排在后面的章节,所以很容易被我给忘记。图,在数据结构中的定义的基本意思是这样的:图中的每个节点都可以有多个父节点,多个子节点。所以图的结构是非常灵活的,它包含了链表的结构,包含了树的结果。它是整个数据结构的综合体。它的信息存储也是通过节点和边的形式进行存储。这就是图的概念,下面也给出了一个基本的图的结构图:
  如图1就是一个图,该图是一个无向带权重的图,在我们现实生活中这样的图是存在的,例如我们全国的交通网络图,就是一个无向图,因为你可以到一个地方去肯定也可以沿着这条路返回,无向是两个节点不管是哪到哪沿着这条路径都可到达,例如:上图的V1——>V6可达,同时V6——>V1也可达,这样就称之为无向边。当然也存在有向边。
  2.2 图数据挖掘
  那么上面介绍了图的概念,那么什么事图数据挖掘,这个概念比较广,它是属于数据挖掘中的一种,我们知道数据挖掘有web数据挖掘(就是我们的百度/google等)、还有图像数据挖掘、还有基于场地的图像数据挖掘。那么图数据挖掘是什么呢?我们知道百度/谷歌是IR,他是信息检索,他是对文本信息进行检索,也就是我们的html页面。那么图的关键词搜索和IR有什么不同呢?我们知道IR是搜索包含我们关键词的文本内容全部返回给用户,但是返回的内容是否存在关系那就不好说,所以此时就出现了图的关键词搜索。图的关键词搜索就是返回给用户你输入的关键词相互之间的关系,例如:你输入张三、李四这两个人名关键词,那么图的关键词搜索机制将会返回包含在图中包含这两个关键词的节点这件的一个关系,一般是采取树的方式展现出来。那么究竟是什么关系呢?例如:张三是李四的同学,张三是李四的哥哥、张三和李四是老乡。那么这里的同学、哥哥、老乡就是这个两个关键词之间的关系。想想在IR中能做到这些吗?因为IR搜索注重的不是关系,它注重的是信息,他是将包含关键词的信息返回给用户,而不考虑关键词之间的关系。   那么在图数据挖掘中找这种关系是如何实现的呢?例如上图:假设要查找张三、李四这两个关键词,刚好在上图中有V1包含关键词张三,V2包含关键词李四,在普通的IR系统中是就将同时包含张三、李四的节点返回给用户(注意:此处的节点就是一个信息点,里面有内容而V1,V2....只是一个代号)。那图的关键词搜索返回关系,到底是返回什么关系呢?上图,我们知道从V1到V2有多条路径,如:V1——>V5——>V2、V1——>V3——>V2等等,此处就不一一列举出。那么我上面举出的两条路径,不就是一个棵树吗?一个是以V5为根节点,一个是以V3为根节点。那么节点V5和V3就是这两个关键词之间的一个关系,这就是我上面说的如何找出两个关键词之间的关系。这里就将如何找到两个关键词之间的关系总结一句话:找到包含关键词的节点公共父节点。那么这时候就面临这两个关键词的公共父节点肯定不只一个,那么我们该返回哪个?这就要看到我们图中边的权重了,这里就要用到了对图遍历的一些算法(Dijkstra),此处就不对搜索的详细过程进行过多的描述,后期我会发到此博客上。此处肯定的是将结果排序,按照到达公共父节点的路径消耗和节点的权重来排序。
  2.3 不确定图数据的产生
  伴随着数据收集以及存储技术日新月异的变更,互联网在社会中的应用随之增加,同时也会产生巨大的数据并且这些数据是不确定的。造成数据不确定的原因有很多种,首先其直接原因就是原始数据的不确定性,一般情况下这种不确定图数据是不能通过外在方式进行补偿的。其次要原因这里介绍三种,一是在对这些数据处理过程中要进行编码、索引、量化、存储等,每一个过程都会存在着不确定因素,这就造成了抽象数据误差。二是具体应用到每个用户的手中,而用户为了保护自己的隐私就会对加密数据进行干扰处理,使外人无法识别这些数据从而造成数据在还原过程中也出现不确定性。三是对数据进行分析完之后,往往会有缺失值的处理问题,由于仪器故障、接收双方字段不统一等因素导致最后出现缺失值,这种不确定图数据的缺失值可以通过插值的方法来削弱或解决,但是这种方法不能保证原始数据的不变,进而也引入了不确定性。
  3 不确定图数据挖掘的算法研究
  虽然用确定图的挖掘办法可以解决一部分不确定图数据挖掘,但是这种方法确实对确定图有极大的用途,对不确定图将会造成重要语义的严重丢失。现在数据库、网络等领域的科学研究人员讨论最多的话题就是不确定图数据的研究,他们主要针对不确定图模型的数据挖掘算法进行深入的探讨,让这种方法更好的服务于人们。
  3.1 不确定图数据分类
  数据挖掘方法通常是根据数据的不准确性来进行划分的,一般包括以下几种技术及方法:关联挖掘、数据划分、数据集聚三种。但是这些技术要通过相应的改进才能运用于不确定图数据的算法。其中,数据集聚可以划分为一般集聚和模糊集聚两类。一般集聚是通过针对预期的数据来提高算法的精准度;模糊集聚表示集聚的数据的结果为一个模糊的状态,可以表示为表格或者一定的概率。
  3.2 不确定图数据模型
  目前在国内使用最多也是应用最广的不确定图数据类型应该是可能世界模型,顾名思义这种模型是将每一个组成元素进行任意的拼凑,这种组合完的图形就能构成可能世界实例,他的概率由组成该图的元组的概率来计算。除了这种模型之外还包括半结构化数据模型、概率P—文档数据模型、关系数据模型等。
  3.3 不确定图上子图研究
  通过对相关资料的综合分析,可以将不确定图数据分为图的查询和图的数据挖掘两个部分。本论文着重研究对于不确定图的挖掘的研究。到目前为止,关于不确定图的研究尚未形成完整的理论体系,但不可否认的是在一定程度上已经取得了较为有价值的成就,尤其在最可靠子图问题的研究方面。针对某一用户特定的搜索值的涉及的最可靠字图课题的研究,可以通过一种两个阶段的数据挖掘的算法来解决此类搜索,首先使用抽样技术搜索可靠子图,通常可靠子图存在高概率的近似性;然后进行相应的确定图的相应指令,需要继续挖掘关键不确定图数据的算法。
  4 不确定图模型数据挖掘运用
  数据挖掘是为了在这个信息爆炸的大时代获取对实现目标有一定作用的信息。信息质量的优劣从其本质分析主要决定于其对原始数据挖掘的程度。当原始数据信息丰富、数据准备、挖掘方法合适的时候,其所获得的信息价值就会很高;反之,如果原始数据信息匮乏、数据模糊,挖掘方法失当,其所获得的信息价值就会很低。本节主要是为了提高获取信息价值,探讨对于不确定图模型数据挖掘技术及方法的运用。
  数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。本论文着重针对不确定图模型进行相关的数据挖掘算法的运用的研究。
  不确定图模型的数据挖掘完整的步骤如下:
  1)理解不确定图模型。2)确定不确定图模型的数据。3)图模型数据分类。4)获取相关数据挖掘算法的知识与技术。5)分析不确定图模型数据。6)删掉错误图模型的数据。7)实际不确定图模型数据挖掘算法工作。8)测试和验证挖掘算法的结果。
  由上述步骤可看出,针对不确定图模型的数据挖掘算法工作涉及了许多环节的工作,其中在数据预处理阶段的工作尤为重要,是整个不确定数据挖掘算法工作顺利开展以及取得成功的基础。
  参考文献:
  [1] 翟秋瑛.基于可达性的不确定图查询研究[D]. 哈尔滨:哈尔滨工业大学, 2013.
  [2] 王文龙.一种高效的不确定图数据库上频繁子图模式挖掘算法[D]. 哈尔滨:哈尔滨工业大学, 2013.
  [3] 杨健.不确定数据频繁模式挖掘算法研究[D].赣州:江西理工大学, 2012.
  [4] 丁悦.不确定图聚类分析研究[D].西安:西北农林科技大学, 2012.
  [5] 汪金苗.基于不确定数据的频繁项集挖掘算法的研究[D].淄博:山东理工大学, 2012.
  [6] 周傲英,金澈清,王国仁,等.不确定性数据管理技术研究综述[J].计算机学报, 2009(01).
  [7] 夏菁.基于可信度计算的不确定数据起源研究[D]. 南京:南京航空航天大学, 2012.
  [8] 汪金苗,张龙波,邓齐志,等.不确定数据频繁项集挖掘方法综述[J].计算机工程与应用, 2011(20).
其他文献
摘要:“数据湖”是通过将原始数据分类存储到不同数据池,并在各数据池里将数据整合转化成容易分析的统一存储格式进行存储,以方便用户对大量原始数据池中原本几近废弃的数据加以分析利用,从而产生经济效益。该文首先介绍了数据湖的结构,其次介绍了数据湖中各数据池的特点及应用;最后介绍了各数据池之间的联系并举例说明了数据湖的架构。  关键词:数据湖;数据池  中图分类号:TP391 文献标识码:A 文章编号:10
摘要:在组网工程课程教学过程中,出现专业人才培养目标定位太低,教学内容与社会需要相脱节,理论和实践教学分离等突出问题,该文针对应用型本科院校组网工程课程的教学改革提出基本思路,教学计划的修订、课程内容的增删、实践环节教学改革以及师资队伍建设等具体措施,大大提高了学生工程实践能力和创新素质。  关键词:组网工程;网络生命周期;双师型  中图分类号:G424 文献标识码:A 文章编号:1009-304
理性思维是一种有明确的思维方向,有充分的思维依据,能对事物或问题进行观察、比较、分析、综合、抽象与概括的一种思维。简言之,理性思维就是建立在证据和逻辑推理基础上的思维方式。“语文教育本质上是一种感性教育,需要语文教师具有感性的气质,充满活动和激情,还需要理性地审视,发现文本的独特价值。”事实上,小学语文课堂上,师生往往沉浸于教学情境中,在语言文字的品味与运用中不断升华情感,却往往忽视了学生理性思维
摘要:《Access 数据库》课程现如今已经成为很多高校开设的计算机基础课程,该文主要探索如何将项目教学法引入《Access 数据库》课程教学过程,最终达到良好教学效果,提高学生使用Access解决实际问题的综合能力。  关键词:项目教学法;Access数据库;教学过程  中图分类号:G642 文献标识码:A 文章编号:1009-3044(2014)31-7244-02  1 概述  随着计算机使
摘要:对于高职院校而言,公文处理工作非常重要,随着校园网络技术的发展,越来越多的高职院校都开发专门公文处理平台,关于平台的研究与实现提出了新的需求。高职院校每天要处理很多的公文文件,传统的公文流转方式己不再满足业务工作的实际需求,还停留在纸质的处理模式,导致效率低下、成本高现象。  关键词:高职院校;公文处理系统;B/S  模式中图分类号:TP315 文献标识码:A 文章编号:1009-3044(
摘要:针对当前在线课程教学和在线学习正被人们广泛接受,该文以中山中专《计算机应用基础》课在线课程的设计与应用为例,对在线课程的设计原则与设计步骤进行了探讨,提出了在线课程设计网络平台化,在线课程应用学习模块化的基本思想与应用策略。  关键词:在线课程;网络课程建设平台;教学设计;教学应用  中图分类号:G424 文献标识码:A 文章编号:1009-3044(2014)07-1454-02  近几年
摘要:受韦伯局部描述子和LBP特征的启发,针对Haar特征维度高、冗余度大以及对光照变化适应性差等缺点,提出了一种于显著性的局部二值化Haar特征。首先将8种Haar特征组合形成一个3*3的块,利用局部二值化思想得到二值化Haar特征;然后根据韦伯定律求取该块的显著性因子;最后把显著性因子作为权重将二值化Haar特征统计成直方图而得到SLBH特征。通过在INRIA行人样本库上实验,表明该特征具有较
摘要:目前量子可逆逻辑电路的绘制工作十分复杂。虽然现有的自动绘图工具只能满足基本的绘图需求,但是它们绘制出的是低分辨率的点阵图,而这种点阵图很难满足研究者们在论文发表时对高清图像的要求。因此,用C#对Visio绘图功能进行二次开发,解析并描述用户提供的量子电路TFC文件, C#读取用户对电路多种格式的自定义参数,依次画出所需的量子门,则可自动绘制出符合高清要求的矢量量子电路图。因为可逆逻辑量子电路
摘要:随着在线教育的蓬勃发展和教育大数据时代的来临,一种新型学习支持工具——学习支架应运而生。该文从学习支架的基本概念以及类型出发,分析了学习支架以不同形式在信息技术课堂中的使用情况,并结合案例分析了在教学中应该如何合理使用与教学相匹配的学习支架来提高学习者的学习能力。  关键词: 学习支架;最近发展区;信息技术  中图分类号:G43 文献标识码:A 文章编号:1009-3044(2016)34-
摘要:该文针对利用动态库技术进行通信协议模块化设计进行研究,首先简要地介绍了动态库基本理论,然后给通信协议动态库设计方法和设计要点,最后给出了基于UDP的通信协议动态库开发实例。  关键词:动态库  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)09-0058-03  在设计通信程序时,在其程序的实现形式上主要分为可执行应用程序和动态链接库。前者能够独立运行,通常