符号数据聚类评价指标研究

来源 :山西大学 | 被引量 : 11次 | 上传用户:deterly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督的机器学习方法,它可以将原本杂乱无章的数据分成一系列有意义的簇,使得每一个簇由具有较高相似性的数据组成,这就可以为后续的数据处理带来极大的便利。聚类分析已经广泛应用在生物信息学、心理学研究、商业分析、文本处理等领域。聚类分析虽然是一种比较成熟的技术,但是它在一些领域仍然存在一些问题需要研究。聚类结果评价是聚类分析的一个重要步骤,是机器学习研究的一个重要领域,通过聚类评价我们可以确定数据的聚类趋势,也可以确定聚类的个数。世界上有各种各样的聚类算法和不同类型的数据,以至于没有一种聚类指标能够对于所有的聚类算法都适用,因此,我们必须对各种指标都有所了解,针对不同的情况选取不同的指标,必要的时候还需要提出新的指标来解决碰到的问题。聚类评价指标大多都是针对数值类型数据,但是,在实际的应用中,很多一部分数据都是符号类型的,原有的许多指标在这种情况下就不再适用。因此,在本文中我们将一些数值数据评价指标进行变化使它们能够对符号数据聚类结果进行评价。我们通过几个实验对选取的几种不同类型的指标在几个不同的符号类型数据集上进行了实验,并对实验结果进行了分析,这些结果能够证明这些指标基本上是有效的,并能基本能够满足我们的需要。
其他文献
随着嵌入式技术及无线通信技术的发展,将家庭中各种通讯设备、家用电器、家庭安防设备等利用现代计算机技术、现代通信技术自动控制技术实现家庭内部各种信息的采集、处理、传
Web服务是一些自描述、松耦合、模块化、自包含、平台独立的应用程序,可以发布到互联网上,供需求者发现和调用。然而,单一的Web服务提供的功能有限,不能满足复杂的业务需求,
OPC规范作为工控领域数据交换接口的标准,为硬件制造商与软件开发者提供了一座很好的桥梁。目前应用的传统OPC COM服务器依赖于Microsoft平台,不能满足企业互操作性以及跨平台
随着互联网的普及,电子邮件作为一种方便、快捷、费用低廉的通讯方式得到了极大的普及。电子邮件在给人们工作生活带来巨大方便的同时,随之而来的垃圾邮件泛滥也使整个网络不
人类情感的识别在日常的应用方面起到的作用变得越来越重要,由此产生了许多针对人类情感进行研究的方法,其中脑电信号特征提取是研究人类情感的主要手段之一。复杂度是脑电特
网络舆情是网民通过互联网提供的各种媒体,所表达的对某一事件的认知、情感、态度和行为倾向性的总和。随着互联网在生活中的应用范围不断扩大,网络舆情在社会中的影响力也越
中国因特网信息中心发布的信息报告显示:截至2009年9月,中国互联网网民数量已经达到3.38亿,也就是说,超过了美国整个国家人口总数,雄居世界第一!然而,互联网使用的32位二进制I
云计算利用虚拟化技术将物理资源转换成可动态伸缩的虚拟资源,使得企业能够按需访问云中的资源。通过云计算,用户可以访问到大量的计算以及存储资源,享受云端强大的计算能力,而不
随着计算机技术和通信网络的迅速发展以及相关应用技术的广泛普及,在信息化发展进程中,各行各业、各个单位均建立了大量的业务管理系统用来管理相关的数据,但是这些数据管理
随着软件产业的迅速发展,软件产品的版权保护已成为一个十分重要的问题。现在,各种软件版权保护技术成为了研究热点。传统的软件版权保护主要通过加密技术实现,但随着软件破