混合属性聚类算法的研究及应用

来源 :燕山大学 | 被引量 : 0次 | 上传用户:qwer2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是指按照“物以类聚,人以群分”的思想,将数据集划分成簇,使得簇内样本之间的相似性尽可能的大,同时,簇与簇之间的相似性尽可能的小。聚类算法已经在工程学、经济学、社会科学等领域得到广泛的应用。现有的大多数聚类算法只能处理数值属性或分类属性,无法满足现实数据挖掘的需求,而且,处理混合属性的聚类算法虽然已经得到研究,但是存在着一些问题:混合属性之间的相似性测量不合理;混合属性之间可能存在冗余信息。针对上述问题,本文在研究分析了现有的聚类算法的基础上,提出了基于特性比较的混合属性聚类算法和基于主成分分析的混合属性聚类算法,并使用UCI数据集通过实验验证了算法的有效性。论文的主要内容如下:首先,介绍了聚类分析的意义、研究现状和聚类分析的五个维度,并且,着重从相似性度量和算法思想两个角度对现有的聚类算法进行了分类。其次,研究了现有的混合属性聚类算法的缺点,针对现有的混合属性相似性度量方法无法处理多概念之间重叠的问题,本文基于提出的特性比较函数,设计了新的混合属性相似性度量方法,结合划分式思想设计了混合属性聚类算法,通过实验验证了算法的可行性。再次,针对混合属性数据集中的数据集冗余问题,在综合分析了现有的相关性计算方法之后,提出了分类属性与数值属性相关性计算方法,通过创建混合属性相关矩阵对混合属性数据集进行了主成分分析,进而提出了基于主成分分析的改进混合属性聚类算法并通过实验验证了算法的正确性。最后,对改进的混合属性聚类算法进行了实际应用。针对客户细分中由于筛选过程中刻意避免出现混合属性而导致的评价不全面的问题,重新建立了客户评价体系并选取了客户属性,进而采用混合属性聚类算法来对客户群体进行细分,并且针对不同的客户群体提出了相应的营销策略。
其他文献
【目的】 探讨厌食症患儿血清瘦素与微量元素锌、铁、铜之间的关系。 【方法】 应用IRMA测定 5 4例厌食症患儿及 46例正常对照组儿的血清瘦素水平 ,用原子吸收法测定其血
<正>因各种原因导致采供血机构血液库存偏少或紧缺的情况,在世界各国均有发生,如何解决血液短缺是值得探讨的问题[1,2]。利用短信平台向无偿献血者发布血液库存偏少及招募献
【目的】 综合评价我国儿童单纯性肥胖症发生的危险因素。 【方法】 应用Meta分析方法对国内 2 1篇有关儿童单纯性肥胖危险因素的病例对照研究进行定量综合分析。统计处理
本文研究的是内蒙古自治区赤峰市敖汉旗的蒙古语地名。以文化语言研究理论为指导,结合解析、分类等方法对敖汉旗蒙古语地名进行探讨。本论文由引论、第一章、第二章、第三章、结论、参考文献以及附录等部分组成。引论部分主要描述了敖汉旗概况、敖汉旗地名研究概况、选题原因及意义、资料来源及研究方法。第一章,研究了敖汉旗历史蒙古语地名(地名考、结构特点、种类以及文化内涵)。第二章,简单介绍了蒙古语地名的罗马拼写规则以
随着配电网中自动化工业生产流程和高效率生产设备的日益更新,用户对于电能质量的要求逐步提高。在诸多电能质量问题中,电压暂降对广泛使用的电压敏感性负荷会产生最严重的影
采用FTIR(傅立叶红外光谱)和DSC(差示扫描量热)方法研究了二胺型苯并噁嗪预聚物/双噁唑啉共混物的固化反应及动力学,并确定了其固化工艺。研究结果表明,二胺型苯并噁嗪预聚物
【目的】 建立遗尿症的生理心理治疗模式 ,评估其可行性及有效性。 【方法】  42例遗尿症儿童排除器质性疾病及泌尿生殖系统畸形 ,其中男 2 3例 ,女 19例 ,年龄为 5~ 10岁
目的探讨人乳头瘤病毒(HPV)E6/E7 mRNA联合液基薄层细胞学(TCT)检测在宫颈病变筛查中的应用价值。方法收集2016年6月至2018年6月于本院行宫颈癌筛查患者2 317例,分别行HPV E6
<正>人们无偿献血的行为是心理活动的结果,心理活动是内隐的行为,而行为是心理活动的外在表现。决定人们采取某种行为的最直接心理活动就是人的知觉、态度和信念。就无偿献血
本文对大一学生在普化实验中测定醋酸解离常数中出现的常见误差进行了实验研究。根据误差产生原因分析学生实验中存在的问题以提高学生的实验悟性,加强工科院校学生科学素质的