【摘 要】
:
聚类是一种有效的数据挖掘和文本挖掘方法。进一步改进聚类算法,提高聚类的性能,使其更加适合数据和文本挖掘技术的要求,具有重要的理论和实践意义。本文对聚类算法中涉及代
论文部分内容阅读
聚类是一种有效的数据挖掘和文本挖掘方法。进一步改进聚类算法,提高聚类的性能,使其更加适合数据和文本挖掘技术的要求,具有重要的理论和实践意义。本文对聚类算法中涉及代表点的密度聚类和层次聚类的问题进行了深入研究,提出了基于代表点和密度的聚类方法和基于代表点的文本层次聚类方法,主要包括以下两个内容:提出一种新的高效的基于代表点和密度的聚类方法。该方法首先寻找可以反映数据空间的几何特征的代表点,然后计算每个代表点的密度,再按照本文提出的一种新的距离公式计算每两个代表点之间的距离。距离值最小的两个代表点为邻接代表点,用无向图来描述生成的代表点集,并利用图的广度优先搜索算法将处于同一连通子图中的代表点找出来,从而得到聚类结果。其中新的距离公式考虑到代表点的密度和它们之间的距离同样重要,故将密度信息加入到距离计算之中,从而使聚类结果更加精确。与传统的数据聚类方法相比,该方法无需预先给出类的个数,只需一个密度阈值e,参数设置非常简单且对聚类结果影响很小;算法运行效率高,具有近线性时间复杂度,可适用于大规模及高维属性的数据聚类问题。提出一种新的文本聚类方法,基于代表点的文本层次聚类方法。该方法采用划分的方法将数据分成原子簇,然后在数量大为减少的原子簇集上,实行自底向上的层次聚类得到最终的聚类结果。与传统的文本聚类方法相比,该方法不仅大大加快了文本聚类的速度,而且能够识别任意形状和大小的类,并过滤噪声数据,更适合于高维文本向量的聚类。
其他文献
本论文的主要内容之一是提出选择加权函数的新方法来设计H∞回路成形鲁棒控制器,之二是对回路成形方法与结构化奇异值μ结合设计的μ回路成形控制器和H∞回路成形控制器二者的加权函数之间的关系给出分析。在本文中,首先针对非结构不确定性扰动,介绍了SISO回路成形的设计概念,它利用小增益理论来达到系统鲁棒稳定,并推导出开回路函数L(GK)与系统的鲁棒性能和鲁棒稳定之间的关系,从这些概念又延伸到H∞回路成形法。
随着市场竞争将愈演愈烈。对此,工程公司能否抓住有利时机,正确掌握工程投标报价技术与决策技巧,以经营战略的高度做出是否投标、是否争取承包该项目的决策,进而在工程投标竞
随着嵌入式系统的发展和Internet的普及,越来越多的嵌入式系统将网络引入其中。这样嵌入式系统能接入Internet从而具有网络服务器功能,用户可以在任何时间、任何地点,对系统
蓝牙(Bluetooth)是一种无线数据及语音通信的开放性全球技术,它以低成本的近距离无线连接为基础,为固定与移动设备通信环境建立一个特别连接。随着技术的发展和完善,具有非常广
随着控制技术的进步,工业控制系统已经呈现了网络化的发展趋势。伴随着现场总线技术和以太网技术的发展,工业以太网应运而生,成为了一种新型控制技术。工业以太网的出现,将为实现
车载导航定位系统在过去十年内已经成为汽车工业发展的焦点。在欧美国家和日本,车载导航系统在最近几年内得以广泛的应用,而随着国内汽车工业发展,国内的车载导航系统的市场需求
随着计算机软、硬件技术的发展,嵌入式系统在工业控制中的应用越来越广。但在工业控制领域中已取得巨大成功的组态软件却很少能够直接运行在嵌入式平台上。而现今工业控制领
本文首先介绍了多智能体系统,并回顾了机器人足球世界杯赛事,然后研究了机器人足球仿真比赛中多智能体系统的构建,即设计并实现了一支机器人足球仿真比赛队伍BJUT。本文的主要研
网络控制系统(Networked Control Systems)是一类通过有线/无线通信网络将传感器、控制器和执行器进行互联的分布式控制系统,网络化提高了控制系统的效率、灵活性和可靠性,降
本文针对一般离散非线性被控对象,以神经网络模型参考自适应控制为基础,通过大量的仿真,分析各种不同类型的干扰对系统的影响以及影响机理。并提出了一种鲁棒神经网络自适应控制