【摘 要】
:
随着计算机技术快速发展、网络的迅速普及,人们生产、收集数据的能力不断提高,数据量以前所未有的速度海量增长。面对海量数据,如何从海量数据中提取信息、建立知识资源,从而
论文部分内容阅读
随着计算机技术快速发展、网络的迅速普及,人们生产、收集数据的能力不断提高,数据量以前所未有的速度海量增长。面对海量数据,如何从海量数据中提取信息、建立知识资源,从而避免“数据丰富而知识匾乏”的局面,已经成为一个迫切需要解决的问题。数据挖掘是为了解决这个问题而产生的技术。作为数据挖掘领域的一个主要技术领域,聚类分析是将相似的对象划分为簇,从而帮助人们查询和找出有用的信息和知识。CLIQUE算法是基于密度和网格的聚类方法。在高维的大数据集上,该算法的聚类效果较好,但是由于其子空间剪枝方法的简单、网格单元采用硬化分等缺陷,导致了其效率和聚类质量不够高。针对上述问题,本文对CLIQUE算法进行了改进。新算法的基本思路是将约束条件同CLIQUE算法的单调性质结合起来,共同用于对候选聚类进行“剪枝”操作,减少CLIQUE算法搜索过程中的“盲目性”;利用自适应网格划分技术大大减少密集单元候选集的输入,同时,也减小了要处理的数据集的大小;利用边界调整技术提高聚类的精度。为了证明新算法的先进性,本文在UCI数据集上对两种算法进行了实验,结果表明,新算法聚类速度较快,可伸缩性较强,聚类质量较好。最后给出了新算法在入侵检测系统中的应用。在KDDCUP99的入侵检测数据集上,分别应用新算法对各种攻击类型的连接记录数据集进行实验,然后又对混合攻击类型的连接记录数据集进行实验。结果表明,新算法较原算法具有较好的质量。
其他文献
<正>三、设备资产管理信息化系统逻辑功能架构设备资产管理信息化系统主要围绕设备状态和维修成本展开,贯穿对设备进行终生管理的思想。武汉钢铁股份有限公司设备资产管理信
背景与目的:早在半个多世纪之前,临床观察和动物实验的结果表明,减少血小板可以显著抑制肿瘤生长和转移。但是血小板减少引起出血而限制其临床应用。活化的血小板和血管内皮
以民族音乐学的视角,对当代美籍华裔作曲家周文中先生的作品内涵及其创作风格进行探讨,可以分析他作品中的东方文化精神,解读出他在田野实践中倡导的对中国传统音乐文化进行"
1中国奶业发展存在的问题1.1奶源不足是突出问题当前,我国奶业发展的状况是奶源不足和局部过剩,生产、加工和销售不平衡,中间强。两头弱。据了解,我国目前实际日处理鲜奶量只
传统的议论文写作,对倒数第二段的作用常常重视不够。文章提出的写好倒数第二段,就是指在最后一段前打进一个楔子,目的就是起到突出新高峰的作用,突破前文的既成逻辑,再向前
相关统计表明,近几年,我国交通事故死亡人数居世界前列。在已发生的道路交通事故中,山区公路发生重大事故所占的比例较大,其中纵坡路段最易引发交通事故。驾驶人因素是导致道
近几年,随着微机电系统技术、数字信号处理技术、无线通信技术和计算技术的发展,无线传感器网络(Wireless Sensor Network,WSN)应运而生。它是由集感知、计算和通信能力的微
中铝广西分公司热电厂4#、5#锅炉引风机为烧结离心式风机,每运行4~5天风机轴瓦振动速度就超标。经多次现场诊断,判定风机振动系由转子不平衡引起。
针对传统六足机器人腿机构自由度较多、控制较复杂的情况,综合考虑了足端运动轨迹对机器人越障能力和行进速度的影响,设计了一种具有单自由度腿机构的六足机器人。基于机械动