论文部分内容阅读
在我国随着计算机的普及和应用,企业积累了大量的原始数据,然而却不能有效的利用这些资源,形成了数据丰富知识贫乏的局面。数据挖掘技术正是开启这扇大门的金钥匙。本文以证券行业为例,将数据挖掘技术应用到实际工作中,以积累的历史数据为基础,并结合行业特点,为证券企业提高竞争力及业务的拓展提供科学的分析和建议。首先简单的介绍了数据挖掘的概念和一些基本方法,然后详细地讲述了聚类方法(数据挖掘中常用的一种技术),这其中包括划分方法、层次方法、密度方法和网格方法。文中对聚类技术的现状和发展方向作了阐述。本文的重点是使用密度方法对证券公司的交易数据进行聚类分析,发现其中有意义的模型来支持证券业务的开展。作者提出基于 X 树技术的 GDBSCAN算法,该算法有效地解决了处理高维度数据性能低下的问题。文中还研究了算法的时间复杂度并给出在不同试验数据量下程序运行时间。最后以一个证券公司为例,验证了基于 X 树技术的 GDBSCAN 算法的有效性。实例中首先介绍公司数据应用面临的问题,分析了数据平台组织结构。接着展示了实际中一个数据挖掘的全部过程。它包含了问题的定义,数据的定位,数据的描述,数据的清洗、整合与变换,模型的建立,挖掘结果的理解和解释。