达梦数据挖掘工具的设计与实现

被引量 : 0次 | 上传用户:hziyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,又称为数据库中的知识发现,数据挖掘,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提炼出新颖的、有效地、潜在的、有用的知识,提取的知识表示为概念、规则、规律、模式的形式。挖掘工具作为数据挖掘的应用手段,也是一个备受关注的研究内容。目前,数据挖掘的工具有很多,一般都使用复杂,不能满足应用需要。易用,交互功能良好的数据挖掘工具已经成为当前研究的热点之一。围绕数据挖掘工具存在的三个问题即挖掘过程是否反映了实际的业务问题,挖掘结果是否能让用户深入理解,开展了三个方面的研究:运算链的设计,Java与Flash的结合,数据预处理过程的改进。为了克服现有数据挖掘工具不能反应实际业务问题,提出了用运算节点和运算链的解决方案,即将获取数据源、数据预处理、挖掘算法选择这三个处理阶段作为一个个具有相应功能的运算节点,每个运算节点具有独立性,同时又一起构成运算链,运算链的高度灵活性克服了现有挖掘工具只能直线式处理的不足,符合了数据挖掘过程是一个反复进行的本质特点。在这个方案基础上,建立了运算链正确性检查规则,帮助用户对建立的挖掘过程进行正确性判断,克服了传统数据挖掘工具因为过于专业性而带来易用性很差的问题。为了使挖掘结果能有丰富的图形展示,以帮助用户理解挖掘结果,在研究了一般结果表现方式的基础上,使用Flash展示挖掘结果,相比用Java的图形展示,Flash有着更为丰富的图形表现能力,又不会带来过大的系统开销。两者的结合,使工具既有了强大的挖掘计算能力,又有了生动的图像表现能力。为了使待挖掘的数据不妨碍挖掘算法的执行效率,研究现有的挖掘工具对于原始数据的处理特点,在此基础上,一方面通过尺度同步的方法将待挖掘数据中的“坏”数据转换为“好”数据,另外一方面通过基于χ2统计的方法将符号型属性和数值型属性进行处理,以减少原始数据集的大小。
其他文献
海关大监管体系建设在本质上是海关现代化制度研究的进一步深化,是现代海关制度建设的关键所在。本文通过引入二元结构理论,特别是美国发展经济学家H.明特,在《组织二元结构
拓展训练是一种值得认真研究的学习方法和能力训练方式,它不断利用自然环境和经过人工智慧设制的各种复杂环境,以心理挑战和技能训练为重点,为达到“激发个人潜能、熔炼各类
IKEv2协议中最重要的内容是消息的协商,消息协商系统也是整个IKEv2系统中的难点。本文实现的方案中,根据协商消息的转换定义了多个状态值和状态转换表,通过对状态转换的跟踪,
低氧诱导因子-1α(HIF-1α)是重要的转录因子,能与β亚基结合形成具有转录活性的二聚体复合物,调控众多下游靶基因的表达,参与低氧适应、血管生成、免疫应答、细胞凋亡等多种
随着全球经济的日趋发展,现金流已成为企业最重要的资源,它是现代企业生存与发展的的"血脉",只有企业的现金流保持流转通畅,企业才能获得持续、稳定的发展。而企业实施价值链
自从1973年美国会计学家罗伯特.N.安东尼教授在《哈佛企业评论》发表了题为"权益资本成本会计"的论文之后,资本成本会计问题一度成为会计学界关注的热点。资本成本会计冲淡了
经济的快速发展离不开基建行业的支撑,房屋建筑作为人们生产生活的重要场所,其质量优劣将直接影响人们的生命财产安全,近年来对房屋建筑的质量问题关注度也逐渐加强。为了保
玉米又称棒子、苞米,在我国粮食作物体系中占据着重要的地位,主要种植在我国黄河以北的广大地区。玉米育种技术作为提高玉米产量的关键所在,是值得相关人员努力去探索研究的
我国房地产业是伴随着住房制度改革深化而不断发展的,计划经济体制时期,由于将住房视为福利产品,否定了其商品属性,住房由政府部门和企事业单位投资、建设、分配和维修,住宅
养猪废水有机物、氮磷、悬浮物含量高,臭味大,属于高浓度有机废水,处理不当将会对环境造成严重的污染。厌氧生物处理技术不仅可以有效处理高浓度有机废水,而且可以产生沼气、