【摘 要】
:
作为一种无监督的学习方式,聚类分析在无标记样本的条件下将数据对象进行分组,挖掘数据的潜在结构,是数据分析的有效工具。在现实应用的待处理数据中,大多是同时包含数值属性和分类属性的混合属性数据,此外,这些数据往往含有大量不确定知识,处于类簇交叉区域,具有亦此亦彼的特点,不能简单地将其归入某一类中,使用传统聚类算法处理这些数据时,会导致聚类结果有较大的误差,因此,结合能够处理不确定信息的理论方法研究混合
论文部分内容阅读
作为一种无监督的学习方式,聚类分析在无标记样本的条件下将数据对象进行分组,挖掘数据的潜在结构,是数据分析的有效工具。在现实应用的待处理数据中,大多是同时包含数值属性和分类属性的混合属性数据,此外,这些数据往往含有大量不确定知识,处于类簇交叉区域,具有亦此亦彼的特点,不能简单地将其归入某一类中,使用传统聚类算法处理这些数据时,会导致聚类结果有较大的误差,因此,结合能够处理不确定信息的理论方法研究混合属性数据的聚类方法具有重要意义。然而,实际应用中大多数现有的聚类算法需要事先给定类簇数目,这种主观选取的不合理会导致聚类精度的降低,继而影响聚类算法的性能。此外,初始类簇中心的随机选取则会导致聚类算法的稳定性和效率降低。因此,最佳聚类数目和初始聚类中心的合理高效自适应调整是当前聚类方法研究亟待解决的问题。另外,目前针对混合数据的聚类算法研究大都只关注了簇内紧密度这一点,忽略了簇间分离度的重要性,如何保证聚类结果同时具有较高的簇内紧密度和簇间分离度亦是当前混合属性数据聚类算法的研究热点。本文以类簇自适应调整的软聚类算法研究→基于簇间信息的混合属性粗糙聚类方法研究→混合属性粗糙聚类在粮油加工数据分析的应用探索为主线,研究类簇自适应调整的混合属性数据聚类方法,并探讨聚类算法在制备十一碳烯酸甲酯生产过程中的应用。主要研究工作包括:(1)基于混合度量与类簇自适应调整的粗糙模糊K-means聚类算法针对粗糙K-Means(RKM)聚类及其相关衍生算法需要提前人为给定聚类数目,且随机选取初始类簇中心导致类簇交叉区域的数据划分准确率偏低等问题,提出了一种类簇自适应调整的粗糙模糊K-Means聚类算法。该算法在计算边界区域的数据对象归属于不同类簇的隶属程度时,综合考虑了局部密度和距离的混合度量,并采用一种自适应调整类簇数目的策略来获得最佳聚类数目,选取数据对象稠密区域中距离最小的两个样本的中点作为初始类簇中心,将附近局部密度高于平均密度的对象划分至该簇后再选取剩余的初始类簇中心,使得初始类簇中心的选取更为合理。在人工数据集和UCI标准数据集上的对比测试验证了算法在处理类簇交叠严重的球簇状数据集时,具有自适应性和聚类精度方面的优势。(2)基于OTC相似度与簇间信息的粗糙K-prototypes型聚类算法现有混合数据聚类算法在类簇中心和划分矩阵迭代更新过程中大多只考虑了簇内信息带来的影响,而忽略了簇间信息,导致聚类结果的簇间分离度较低。鉴于此,提出一种基于簇间频分信息的粗糙混合数据聚类算法。在度量数据对象与类簇之间的相似性时,采用统一的处理混合属性数据的OTC相似度,避免了传统混合属性聚类算法中分类属性和数值属性的转换和参数调整,并在算法迭代过程中加入簇间频分信息来保证聚类结果的簇内紧密度和簇间分离度。通过多组实验对比分析,验证了算法的有效性。(3)混合属性数据粗糙聚类分析在十一碳烯酸甲酯生产案例中的应用将确定初始类簇中心的方法与基于OTC相似度和簇间信息的粗糙K-prototypes型聚类算法结合,应用于制备十一碳烯酸甲酯产品的数据分析。首先,使用Aspen Plus软件对工艺流程进行模拟,而后基于本文所提出的聚类算法,分析工艺流程中原料纯度、预热温度、裂解温度、物料流量、抗氧剂种类与产品收率之间的潜在联系,并依聚类分析结果挖掘出影响生产的关键因素,给出指导和建议。
其他文献
作为信息存储以及信息查询的主要载体,网络中存储图片数据总量每年呈指数规模增长,如何有效地使用搜索引擎查询关键字,搜索相关图片成为各大图片检索应用的重要问题。事实上,网络中大量的图片信息并没有其对应的描述标签,因此利用高效的算法对大量无标签图片标注准确的图像描述并将其展示给用户,在图像检索系统中是一个极其重要的的问题。近年来人工智能技术发展迅速,深度学习技术结合大规模GPU在各个领域拥有广泛的应用场
减税降费一定程度上会影响财政收入的可持续性,所以研究纳税遵从以提高税收收入从而缓解财政压力,就具有一定意义。本文主要探究银行卡的使用与个人所得税纳税遵从的关系。本文在前人已有的纳税遵从研究的理论基础上分析了银行卡作为收入信息载体如何影响个人所得税纳税遵从。然后对中国的个人所得税收入现状进行了横向和纵向对比,运用收入能力测算法测算了我国个人所得税税收流失。接下来本文在理论分析和现状分析的基础上运用西
钢铁行业是我国经济发展的中坚力量,为我国国民生产总值的增长作出了突出贡献。目前,全球货币紧缩和贸易保护主义的兴起阻碍了中国的经济增长,作为劳动力集中型的钢铁行业与国民基础性行业有较高的关联度,且具有资金和技术“双高壁垒”的特点,其所面临的风险也随之增加。加之近年来,生产钢铁的原材料价格居高不下,钢铁行业的经营风险日益加大。在国家供给侧改革过程中,钢铁行业作为产能过剩的代表首当其冲。化解产能、减少粗
伴随着信息技术和计算机科学的快速发展,存在于互联网世界中的数据量越来越巨大,因此形成的数据过载问题也给互联网用户造成了很大的困扰。推荐系统的出现则很好的解决了这一问题。通过推荐系统的帮助,用户可以快速准确高效地获得自身真正需要的信息数据。大多数传统的推荐系统所推荐的目标为独立的用户,它们并不具备为一个由若干用户组成的群组推荐项目的能力。然而现实生活中,很多服务的提供对象往往不是单独的用户。例如,电
税务征管体制改革是实现国家治理体系和治理能力现代化的重大战略部署。2018年7月,全国范围内的市级国税局与地税局进行合并,由此迎来国税地税征管体制改革。在国税地税实现合并的情况下,优化营商环境、“放管服”改革与大规模减税降费任务的持续推进,给新成立的税务机关带来了挑战。一方面,在原国地税政策存在差异的同时,税务人员还面临着知识更新、岗位调整、执法风险、内外部监督等方面带来的压力。另一方面,社会的发
金融自由化是未来金融改革的主题,利率市场化被视为这一主题的重要组成部分,也是当前我国金融改革的重要内容。十八届三中全会提出加快推进利率市场化改革,让市场在资源配置
无线射频识别(Radio Frequency Identification,RFID)技术是一种使用无线通信的自动识别技术。由于RFID系统具有识别速度快、实现成本低、识别工作无需人工干预等优势,受到了人们的广泛关注,并被应用于销售点(POS)、车辆自动识别(AVI)系统、资产跟踪、图书馆管理系统等诸多领域。而随着RFID应用规模不断扩大,许多实际应用场景下需要同时对多个标签进行认证,RFID群组
本文重点以新疆师范大学国际文化交流学院商务汉语专业为例,以汉语作为第二语言教学、商务英语ESP需求理论为参考,通过晚自习调查和实习追踪,以问卷调查,访谈为主要研究方法,客观反映目前新疆师范大学国际文化交流学院商务汉语专业教学情况,结合文献资料,数据分析,总结目前新疆师范大学商务汉语专业的优势和问题,并针对这些问题,提出相应的对策。本文总共分为五个部分:第一部分论述了选题的目的,意义,方法,研究的内
关于短期资本流动驱动因素的研究一直是学术界的热点话题。2020年初在世界范围内爆发的新冠疫情引发了全球金融市场的剧烈波动,在中国金融开放程度不断加深的背景下,该外部不确定性冲击将通过短期资本流动渠道对境内金融市场的稳定产生冲击。厘清中国短期资本流动的驱动因素作用机制及其时变特征是扩大金融开放、维持金融稳定的基础。本文构造了中国短期资本流动时变影响机制的理论模型,并基于2000年1月至2019年9月
随着我国教育事业的发展,留学生教育成为了我国教育事业中重要的组成部分。我国对留学生的教育出发点和落脚点是培养知华、友华学友所成全面发展的有用人才。然而,长期以来,我国高校的留学生教育一直侧重于为留学生的学习和生活提供必要的教学支持和服务,忽视了留学生思想道德教育和综合素质提升方面的核心职能,存在管理和育人相分离的现象,管理育人的重要价值没有充分挖掘,这也正是导致留学生群体出现各种问题的源头所在。思