半监督尺寸约束聚类方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:R_Edge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中无监督学习的一项基础研究内容,它能够揭示无标签数据的内在联系。在实际应用中存在许多关于类尺寸的先验信息,然而传统聚类算法并不能很好地解决这种带有尺寸约束的半监督聚类问题。现有尺寸约束聚类方法大多关注于软约束,对于硬约束关注较少,且现有方法的准确度、时间复杂度等仍有相当大的改进空间。同时研究人员对于尺寸约束聚类最优化的建模方式也存在一定程度上的忽视。本文针对上述主要问题,基于整数规划(Integer Linear Programming,ILP),研究了硬尺寸约束聚类的两种新方法,具体研究内容如下:第一,本文提出平衡尺寸约束聚类方法。平衡尺寸约束聚类指划分得到的类尺寸应当尽可能的等大(±1)。本文通过结合ILP,优化均方误差(Mean Squared Error,MSE)来最优化建模平衡尺寸约束聚类问题。针对所提模型,我们提出一种迭代的方法来求解,每次迭代主要包含两个步骤:分配步骤和更新步骤。分配步骤将数据均衡的分配到每个类,该平均分配问题表现为ILP形式,我们证明了该ILP的约束矩阵是一个全幺模矩阵。因此我们可以将之松弛为线性规划(Linear Programming,LP)问题从而可以使用单纯形法进行快速求解。在更新步骤中,我们将每个类的中心更新为当前类内数据点的平均。我们在随机数据集和UCI公共数据集上开展了多组实验,结果表明本文所提平衡尺寸约束聚类方法平均时间复杂度为(8)9)1.65)-(8)9)1.70),其中8)表示迭代次数,9)表示数据点个数。同现有平衡尺寸聚类方法相比,所提方法可以高效地产生更准确的聚类结果。第二,在本文第一点工作的基础上,将平衡尺寸约束聚类拓展为任意尺寸约束聚类,即每个类的尺寸可以由用户指定。给定一个无序的尺寸约束集合,该问题的关键在于如何使类在聚类过程中自动地选择最优的尺寸。我们同样将该问题建模为一个优化MSE的ILP问题。我们使用相似的迭代策略求解,在每次迭代中,同样包含一个分配步骤和一个更新步骤。在分配步骤中,该问题仍然被表示为ILP问题,我们将用来表示数据点分配情况的变量命名为数据点分配决策变量(Observation Partition Decision Variables,OPDVs),我们还引入了类尺寸决策变量(Cluster Size Decision Variables,CSDVs)。我们证明了OPDVs的约束矩阵是一个全幺模矩阵,所以我们只需要保留CSDVs上的整数约束,从而将该ILP问题松弛为混合整数规划(Mixed Integer Linear Programming,MILP)问题,极大降低了求解复杂度。此外,更新步骤与平衡尺寸聚类中的更新步骤相同。UCI数据集上的实验表明了(1)用所提方法增加尺寸约束可以提升聚类性能;(2)与现有尺寸约束聚类算法相比,所提方法能更高效地产生更好的聚类结果。最后为了进一步验证所提方法在实际应用场景中的有效性,基于本文所提出的尺寸约束聚类模型,我们设计了相应的原型系统。通过原型系统,我们可以发现,所提算法不仅具有理论上的进步意义,而且具有较好的实际应用价值。
其他文献
在当前国内轨道交通行业利好的大环境下,作为轨道装备的零部件生产企业,为更好的满足国内国际市场的需求,通过应用精益理念、工具以及IE的一些方法对动车组齿轮箱驱动装置生产线进行系统改善,能够提升公司在行业内的竞争优势。本论文以动车组齿轮箱驱动装置的生产过程作为改善对象,通过价值流分析,找到了齿轮箱产品的零件生产和组装过程中不增值的浪费现象,明确改善方向并制定改善方案;通过工作研究改善、生产线布局优化、
现有的图像聚类方法以数据全局线性分布为前提,利用先验约束估计未标记数据点的低维子空间,并将其聚类到相应簇中,因此对非线性结构的数据处理存在一定缺陷。受启发于深度学
随着无线通信的快速发展,频谱资源变得愈发的紧缺。科学家研究发现,携带轨道角动量的涡旋电磁波在模式值不相等的条件下具有相互正交性,而OAM模式可取任意值,所以可将多路信
在支持视频随机访问的应用中,一个视频会被多个随机访问点划分成多个能独立解码的随机访问片段。因此视频图像的参考图像不能跨随机访问点,相似的随机访问片段之间的时域相关
通勤班车的优点很多,它可以树立企业良好的形象,发挥广告效应等,但任何事情都具有两面性,通勤班车也存在有很多的不足,比如高额的运营成本,影响正常的公交系统运行、能源浪费
随着互联网的快速发展,Web系统访问量日益升高,网络拥堵和用户访问时延问题愈发严重,现有的网络带宽已经不能很好的满足用户的服务请求。因此,数据缓存技术应运而生,缓存技术
偏振作为光的基本物理特性之一,它也可以作为信息的载体,偏振因其携带了多维参量,不仅包括所探测目标的准确信息,还能反映传输介质的内部分布特征。本论文主要利用蒙特卡洛算
重大脱轨事件与钢轨损伤密切相关,因此对在役钢轨进行定期损伤检测显得尤为重要。本文基于压电陶瓷传感器利用Lamb导向波对钢轨无损检测进行探究,通过主动激励的检测方法对钢轨有损无损状态进行辨别,同时利用反射波及时间反转等方法对损伤进行定位。首先,为了了解结构中传播信号的组成及其传播速度,利用Lamb波频散方程数值解对频散曲线进行绘制;同时,为了满足应力波信号远距离传播的要求,通过主动检测方法,利用接收
桥梁的设计要求不仅需要在静载试验下能满足相应的承载能力,在车辆动载作用下,其振动挠度也应当控制在合理的范围。过大的振动响应不仅会对桥梁结构造成损伤影响桥梁的使用寿命造成安全隐患,还会使得人们在桥梁上的行车舒适性受到影响造成心理压力,基于此本文展开了如下研究。首先文章对车桥耦合的相关基础理论进行了介绍和推导,得到了理论模型的运动微分方程,并在MATLAB中编制了数值算法对其求解,同时在ANSYS软件
自主导航技术作为航天器自主运行的关键技术之一,近年来得到了广泛的重视和发展,自主光学导航方法具有自主性强、实时性好等优点,是目前自主导航技术研究的重点。本学位论文针对导航方案设计、系统可观测性分析、状态滤波估计等问题,开展了基于图像/星光测量的航天器自主导航方法研究。论文主要研究内容介绍如下:首先,完成了基于图像/星光测量的自主光学导航方案设计。考虑航天器环境特性及导航敏感器测量特点,设计了两种图