【摘 要】
:
聚类是一种常见的无监督学习技术,用于发现一组数据中的类别结构。尽管有许多用于聚类的算法,但是很少涉及特征选择的问题,即聚类算法应该使用数据的哪些特征。与监督学习技术不同,聚类的特征选择比较困难,它没有数据的类别标签,也没有明显的准则来指导搜索,同时还需要确定聚类的类别数量,这些也会对特征选择问题造成影响。在本文中,我们使用含无关特征的多元混合厄朗模型进行特征选择,先用CMM算法选取具有较高质量的初
论文部分内容阅读
聚类是一种常见的无监督学习技术,用于发现一组数据中的类别结构。尽管有许多用于聚类的算法,但是很少涉及特征选择的问题,即聚类算法应该使用数据的哪些特征。与监督学习技术不同,聚类的特征选择比较困难,它没有数据的类别标签,也没有明显的准则来指导搜索,同时还需要确定聚类的类别数量,这些也会对特征选择问题造成影响。在本文中,我们使用含无关特征的多元混合厄朗模型进行特征选择,先用CMM算法选取具有较高质量的初值,然后使用含特征显著度的GECM算法对模型参数进行拟合,并在其中加入了最小信息长度(MML)准则,使得无关特征的特征显著度降低并趋向于0,符合特征选择的目的,该算法能同时估计特征显著度和聚类数。最后在模拟数据和实际数据中进行应用,对GECM-MML算法进行验证,并与其他模型的特征选择结果进行对比,可以得到,使用该算法进行特征选择后,模型的拟合效果和聚类效果都得到了优化,能有效地降低模型的预测错误率。
其他文献
本文以可公开查询的基金经理从业年限及从业背景的角度,通过私募排排网、朝阳永续等两个核心数据网站,最终获得10000名对冲基金经理数据作为样本,通过对对基金经理的业绩水平进行了分析和筛选,最终选出5055位基金经理作为有效样本。本文主要包括六个部分:第一章绪论,主要阐述了本文研究背景、研究思路及创新点和难点;第二章文献综述对于国内外相关文献进行综合评述;第三章对于中国对冲基金的发展和现状进行详细分析
近两年在世界经济结构性低迷期的持续性影响下,中国经济增速已放缓,进入新常态发展模式。当然顺应时势的同时也需积极应对,避免陷落中等收入陷阱,走出颓靡,开启经济增长的新发展内涵。主要坚持实施可持续发展的创新驱动战略,以原创科技创新取代模仿创新作为核心引擎,通过技术创新尤其是自主创新原动力推动经济增长。同样金融发展也是作为现代经济发展的核心动力,运用供给侧改革转变传统经济模式,结合新工业革命浪潮探寻经济
科技型中小企业是“双创”的主体,科技企业孵化器对科技型中小企业至关重要,然而融资问题却一直阻碍着科技型中小企业的生存和发展。因此,如何解决科技型中小企业融资问题是当前一大研究热点。目前,有效解决科技型中小企业融资问题途径尚不明确。本文通过孵化器融资服务深入分析,试图厘清科技型中小企业融资障碍现实原因,提出能够有效解决其融资困难的融资服务模式。首先,从国内孵化器融资服务现状及存在主要问题着手,在借鉴
区块链是随着比特币等数字加密货币的日益普及而逐渐兴起的一门新兴技术。区块链因其具有去中心化、防篡改、公开透明等特点而备受重视。从主要应用于数字货币和支付行为的区块链1.0,到可以自动执行一系列操作的区块链2.0,再到应用于医疗、工业、文化、健康、艺术等多领域的区块链3.0,区块链的重要性不言而喻。随着区块链的普及,越来越多的人关注、使用区块链,而区块链又具有公开透明的特点,容易造成用户隐私泄露的问
我国的改革开放至如今已有四十余年,而基础建设不足一直是我国经济发展的一大制约因素。传统而言,政府一般具有两种主要方式动员社会力量并为公众提供公共服务,分别为政府购买模式和政府与社会资本合作模式。其中,政府和社会资本合作模式也可称之为PPP模式,其优点如打破了政府强主导性、激发市场积极性、缓解地方财政压力等等显而易见。但是直到今日,如何让PPP模式的项目成功落地依然是个亟需解决的问题,财政部前不久公
近年来,国际宏观经济形势严峻,美国、欧盟、日本等发达国家与中国等发展中国家经济都面临增速下滑的风险,另外国际贸易保护主义抬头,黄金、白银等具有避险保值功能的贵金属受到广大投资者的追捧。然而,我国贵金属市场相比欧美等发达国家起步较晚,且市场主流风险管理模型VaR、CVaR依旧存在一定的问题,因此本文试图引入SRM模型来解决当前VaR、CVaR模型所存在的问题。本文梳理贵金属的影响因素、贵金属价格波动
设k是代数闭域,给定一个Artin k-代数A,子模范畴S(A)中的Auslander-Reiten变换的逆可通过A-mod中Auslander-Reiten变换的逆τA-1来计算,即τS-1=KerMepiτA-1.当A的模范畴存在预投射分支时,我们用例子阐述了S(A)的预投射分支的计算方法与步骤,其中的关键是确定S(A)的Auslander-Reiten序列的中间项.任给一个有限无圈箭图Q,类
在过去的几十年中,时间分数阶扩散方程广泛应用于工程、物理、生物等多个领域。本文在总结近年来时间分数阶扩散方程数值解法的基础上,构造了一种求解时间分数阶扩散方程的数值格式。新的算法的主要思想分为两步,第一步是先对二维空间区域利用谱方法进行离散,得到分数阶常微分方程的线性系统;第二步针对常微分方程的线性系统,可以直接得到解析解,根据右端项的不同,对解析解中的积分形式进行时间方向的离散。求解线性系统的关
因子分析模型是多元统计分析中最常用的对协方差阵进行降维的技术.现存的分析方法主要是在正态假定下进行的.当观测数据具有重尾或存在异常值时,正态性假定将会使参数的估计失去稳健性.代替多元正态分布,本文采用自由度未知的多元T分布,并利用完全的Bayes方法来分析因子分析模型.由于自由度的全条件后验分布密度中含有无解析表达式的项,采用传统的M-H算法抽样时需要首先利用数值方法近似计算出该项的值,导致所得到
本文主要研究美式看跌期权的有效数值方法。首先从美式期权定价最简单的结构化方法入手,接着探讨基于Black-Scholes方程的期权定价方法,并揭示不同方法之间的联系。然后在比较已有研究方法的基础上,提出了一个带随机波动率的最小二乘蒙特卡洛方法。该方法的基本思想是利用分数阶几何布朗运动来模拟随机波动率的样本路径,再通过与最小二乘方法相结合来计算美式看跌期权的价格。其中我们借助一组基函数使用回归估计来