【摘 要】
:
数据聚类是计算机视觉、数据挖掘、信息检索和模式识别等领域的基本无监督学习任务。为了更好地拟合非高斯数据尤其是正数据向量,并有效解决有限高斯混合模型的参数估计和模型选择困难的问题,本研究将基于逆贝塔刘维尔(Inverted Beta-Liouville,IBL)混合模型进行建模方法分析。首先,提出了一种具有Dirichlet复合多项式先验的有限IBL混合模型。在模型中,本文假设上下文混合比例服从Di
论文部分内容阅读
数据聚类是计算机视觉、数据挖掘、信息检索和模式识别等领域的基本无监督学习任务。为了更好地拟合非高斯数据尤其是正数据向量,并有效解决有限高斯混合模型的参数估计和模型选择困难的问题,本研究将基于逆贝塔刘维尔(Inverted Beta-Liouville,IBL)混合模型进行建模方法分析。首先,提出了一种具有Dirichlet复合多项式先验的有限IBL混合模型。在模型中,本文假设上下文混合比例服从Dirichlet复合多项分布,这使模型对噪声具有更强的鲁棒性。为了验证模型的有效性,本文把模型运用到图像分割中。由于模型是基于混合模型的,模型中每个混合成分可以解释给定图像中的特定部分。为了增强图像的分割性能,本文利用广义均值对模型施加空间约束,同时提高模型对于噪声的鲁棒性。模型采用变分贝叶斯方法对模型的参数进行估计,得到封闭解并减少模型的迭代次数。通过与其他图像分割方法的性能比较,证明了该方法的优越性。针对组数据聚类问题,提出基于Hierarchical Dirichlet Process(HDP)的分层IBL混合模型。提出的聚类方法解决了对分组数据建模的问题,其中观察数据被组织成组,允许通过共享混合组件保持统计上的联系。所得到的聚类模型的参数是使用变分贝叶斯推理算法进行学习的,能够避免陷入局部最优解。通过文本分类和图像识别实验来验证该模型的有效性。为了解决含有大规模数据和流数据的聚类问题,提出基于在线变分推断算法的无限IBL混合模型。该分层模型使用Pitman-Yor过程构建,其成分密度分布为IBL分布,在文本数据建模方面表现出优于广泛使用的高斯分布。本文利用在线学习算法进行模型参数估计,该算法能够有效地从基于变分贝叶斯的新闻报道流中学习TDT模型。通过与其他基于聚类的TDT方法在不同新闻数据集上的分类比较,说明了本文提出的模型在TDT方法的优越性。
其他文献
中国股票市场存在着上涨与下跌不对称性现象,对于股票收益率整体的可预测性一直以来是学术界重要的研究问题之一,但缺少对于股票市场上涨与下跌分别可预测性的研究。本文尝试利用机器学习算法来探索股市收益率上涨与下跌各自可预测性的问题。本文主要贡献之一是结合中国股市涨跌不对称性现象,对股市收益率整体预测转变为对收益率上涨与下跌的单独预测,发现涨跌分开预测的LSTM模型比收益率整体预测的LSTM模型在上涨和下跌
本研究选题源于无缝钢管制造企业为了应对近些年国际国内社会经济发展政策的出台和市场变化,特别是经济全球化过程遇到频繁爆发的国际间贸易摩擦,国际原油价格巨幅震荡,而引发的思考。与此同时环保加严、限电限产、双碳政策等因素叠加,这些因素都对无缝钢管行业带来前所未有的影响。目前中国已成为全球无缝钢管产量和消费量最大的国家,面对无缝钢管领域全球竞争愈加激烈,如何让中国无缝钢管制造企业转危为机,转型升级,深入研
股票和债券市场间的相关性关系到投资者的获利能力、市场的整合等,一直是资本市场上的一项重要话题。近年来,导致国内外经济政策不确定性事件频发,这种经济政策的不确定性会对投资者的投资活动发产生影响,进而导致“流向质量”现象的出现,从而对股票和债券市场间相关关系发生作用。同时,已有文献较少涉及到经济政策不确定性、利率、汇率等因素以及四个细分经济政策不确定性对股票市场和债券市场动态相关关系的影响研究。基于此
2019年,时任美国总统特朗普接连实施了对华为、字节跳动、小米等中国公司的科技制裁。中美两国间的科技争端因此拉开了序幕,两国的主流报纸对该事件进行了许多报道。在两国的报道中,均包含了大量的态度资源。这些态度资源反映出该国或相关政党对这一系列事件的观点、立场和意识形态,具有一定的研究价值。本文以评价理论为理论框架,基于其中的态度子系统,对中美两国针对科技争端的新闻报道进行态度资源分析。本研究自建小型
GPS(L1C,民用信号)导航技术和设备正变得越来越流行,这使我们的生活变得非常轻松。1993年以来,GPS L1C信号已经成为面向公众的开放源代码,但这些技术也可能被用于可以用来监视或攻击其他工具的无人机等飞行小工具上。这样的技术应用带来的威胁可能会上升到国家国家安全问题的层面。已有研究表明,GPS接收器很容易受到干扰和欺骗,而欺骗技术主要是“录音播放”技术。已有研究同时表明,通过不同的技术,可
近年来,随着学者们对行为金融学的关注及研究加深,该学科的研究成果让人们逐渐意识到传统金融学中提出的“理性人”的假设在现实经济活动中并不总是能得到满足,公司的各个利益相关者都有可能具有非理性的心理特征,尤其是公司的管理层更容易在主观上出现错误,产生这些非理性心理特征进而影响到公司的很多决策。在这些非理性特征中,“过度自信”是在学术界里最受关注的,即一种对自己的能力和未来前景有着不切实际的乐观,并认为
我国的法律服务市场初步形成于20世纪80年代中期。随着经济的快速发展,法律服务需求不断增加,法律服务人员及机构加速增长。截至2020年底,全国共有执业律师52.2万多人,其中山东执业律师超过3万人,法律服务市场竞争异常激烈。LC(济南)律师事务所简称LC(济南),作为LC体系分所之一,成立于2012年,近10年不断稳步向前发展,已成为山东省内大规模的综合性律师事务所,执业律师人员规模在济南闯入前3
随着日益繁琐的医疗工作及医学成像技术的逐步成熟,计算机辅助诊断与医疗的紧密结合成为了现代医学伟大进步的里程碑。肝脏肿瘤和肋骨骨折是医生常遇见的疾病,具有高发病率、死亡率和误诊率。但是肝脏肿瘤形状多样,结构各异,肋骨骨折病灶区域目标较小,放射科医师手动标注费时费力,并在过程中易出现漏判、误判现象。因此,为了简化整体流程,提高医疗工作者的工作效率,获得高精度的结果,提出相关快速全自动分割/检测算法具有
布谷鸟算法(Cuckoo Search,CS)作为一种新兴的群智能算法,目前已在各个领域得到了广泛应用,已被证明是一种有效的问题求解方法。布谷鸟算法虽然具有结构简单、控制参数少等优点,然而该算法在处理一些复杂问题时会存在过早收敛、局部搜索能力弱等问题。针对布谷鸟算法的不足,本文提出的算法对原始的布谷鸟算法变异策略进行了改进,并在标准测试函数和相关优化问题上验证了算法的有效性。本文主要研究内容如下:
安全有效可共享的电子医疗病历系统是整个社会急需的,如果把区块链技术和电子医疗病历相结合就可以解决电子病历存在的共享困难、数据丢失、容易被篡改等关键问题,从而保证患者数据的安全性和隐私性。然而基于区块链技术的电子医疗病历对于系统中的执行效率有较高的要求,因此要想将此电子病历实际应用到生活当中则需要研究如何提高共识系统的共识效率。共识机制作为区块链技术的核心,整个共识系统的效率则取决于共识机制。但是现