基于多元正态潜变量高斯混合模型的稀疏有序类别数据聚类分析

来源 :浙江大学 | 被引量 : 0次 | 上传用户:honghongjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督的聚类算法是机器学习领域的重要分支,在机器学习,模式识别,图像分析,信息压缩等各个方面均有广泛的应用.随着互联网大数据技术发展,出现了很多稀疏的有序类别数据集用于聚类.这类任务对传统的聚类算法提出了巨大的挑战,绝大多数聚类算法难以直接应用在稀疏有序类别数据上.一是因为难以用传统的距离来描述有序类别数据中样本间的差异,那么就不能展现不同类别之间的结构差异;二是信息量过少,难以选择合适的模型来确定不同特征对聚类的重要程度,不同的特征间相关性也就难以刻画.
  为了解决稀疏的有序类别数据聚类问题,本文提出了基于多元正态潜变量的高斯混合模型.假设观测的有序类别数据是受潜在的服从正态分布变量影响,采用多分段相关(Polychoric Correlations)来刻画不同特征间的相关性,利用复合似然(Composite Likelihood)方法对似然函数进行近似简化运算,综合EM算法对基于多元正态潜变量的参数进行合理估计,保证了估计参数的稳定和准确.通过多次数值模拟,从聚类正确率和参数估计的均方误差两方面验证了估计方法的有效性.并将该算法应用在实际数据中,同其他算法相比有较好的估计效果.
其他文献
现阶段,我国经济运行中存在一种结构性困境:流动性的释放难以充分进入实体经济,货币政策传导机制难以有效调节企业投资经营需要。基于这样的困境,本文尝试将融资配置过程对国有和民营企业投资行为的影响纳入到产能周期波动的理论分析框架,探索利率管制、融资偏向和产能失衡的微观基础,并运用动态随机一般均衡模型(DSGE)对利率管制、融资偏向等造成的企业投资非对称效应展开分析,力图将产权异质、产能失衡和货币政策非对
学位
价值投资,是指通过对被估值目标上市公司的经营状况和各项财务数据结合未来行业发展的前景以及宏观经济的动态变化进行分析,合理的对公司未来的发展做出预测,从而使用有效的估值模型进行财务估值建模,评估出企业的内在价值。当价格大幅低于股票的内在价值时,保留足够的安全边际进行投资,长期持有下来,往往会获得不错的超额收益。  今年,在政府工作报告中,明确提出:要加快金融体制改革,逐渐放开或取消银行,证券,基金管
学位
目的:(1)通过对湘西州农村妇女进行问卷调查,了解其生命质量和社会支持的现状。(2)利用交互效应分析年龄、职业、慢性病、婚姻状况对湘西州农村妇女的生命质量和社会支持是否具有交互影响。(3)采用结构方程模型分析湘西州农村妇女社会支持与生命质量的关系,并运用分组结构方程模型来检验年龄、职业、慢性病、婚姻状况在社会支持对生命质量的影响中是否存在调节效应。  方法:本研究以湘西州农村妇女为研究对象,采用理
学位
“一带一路”倡议的提出促进了新疆物流发展与对外贸易增长,同时物流的不断发展与对外贸易的不断增长也为新疆形成全面开放的新格局创造了条件。  新疆处于丝绸之路经济带的核心区域,是中国向西开放的门户,地缘优势明显。近年来,新疆物流发展与对外贸易增长虽呈现出向好的态势,但相比我国中东部地区,还存在较大的差距,且二者出现失衡现象。因此,为实现新疆物流与对外贸易的协调发展,促进新疆经济可持续增长,定量研究二者
学位
新疆是中国主要农业生产基地之一,农业的稳定发展是关乎经济持续增长的根本性问题,但由于生态环境薄弱、自然条件相对恶劣,农业抵抗天灾的力量明显不足。农业保险作为国家帮扶农业发展的金融工具,在解决“三农”问题和稳固经济增长进程中扮演着无可替代的角色,即通过灾前风险管理、事后经济补偿等途径,在提升农业产出水平和保障农民收入增长方面起到了促进作用。因此,立足于新疆区域实际,解析影响农户参与农业保险的深层次原
学位
随着牧民的生活水平快速发展,牧民对借贷资本的需求日益强烈。在正规金融机构无法满足牧民资金需求的情况下,民间借贷成为牧民的主要融资渠道。因此,从牧民参与民间借贷角度出发,掌握牧民民间借贷行为的特点和影响因素,以牧民参与民间借贷为导向提出解决牧区金融供给不足,完善牧区金融服务体系的对策建议,对解决阿勒泰地区牧民贷款难问题具有重要意义。  本文通过分析新疆阿勒泰地区哈萨克族牧民民间借贷问题,利用统计年鉴
学位
新疆作为我国最大的产棉区,全疆农户中大约有50%的农户种棉,其中南疆地区种棉的县大约占90%以上,种棉收入是当地少数民族农户重要的收入来源。近年来,随着棉花目标价格政策的实施,南疆棉花产业快速发展,棉农收入水平逐年增加。棉花产业在发展的同时依旧存在诸多问题,尤其棉农资金短缺的问题突出,但目前南疆农村金融体系满足不了农户多样化的资金借贷需求,供需双方处于失衡地位。农户借贷难是制约农户增收和农村发展的
学位
作为企业扩张的主要战略——横向并购,一直以来受到学术界、商界及政府的密切关注。由于横向并购具有提高产业资源配置效率,同时减弱产业内竞争趋势的双向效应,在反垄断规制中,横向并购被视为理论研究的重点。此外,横向并购对于制约中国普遍存在于我国的重复建设,提高产业资源配置效率,减弱产业内过度竞争趋势,实现企业规模经济效益、产业均衡效益有深刻的理论意义。  本文以数理模型为主要对象,合作博弈作为研究工具和方
学位
在金融和保险中,风险是这个领域中时时刻刻要面临的问题.如何去度量风险、评估风险是这个领域所要面临的首要问题.本论文将从风险的度量、风险的比较、风险控制等角度,运用概率、随机分析、经济学等知识来进行相关的研究工作.  首先,扭曲风险测度是一族特殊而又非常重要的风险测度,它作为监管者和管理者对风险度量、评估和资本要求的准则,在金融与保险中被广泛的应用.在论文中,我们着重研究了扭曲风险测度的定义、性质、
学位
在生存分析问题研究中,如何选取对生存时问真正有影响的变量是一个十分重要的问题.正则化方法是统计研究上常用于变量选择的方法,本文主要通过正则化方法对两类带协变量的生存分析模型进行变量选择的讨论.  由于我们所获得的生存数据往往存在不独立的情形,学者们引入随机效应来刻画数据之间的相关性,冗余的随机效应会造成估计上的困难,若忽略掉随机效应则无法描述数据之间真实的结构关系,因此正确选择随机效应非常重要.但
学位