一种有效估计负二项分布参数的EM算法及其应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:deathadam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然环境的变化和科学文化的普及,人们对基因测序、地震频率和空气污染等影响人类生命健康的话题和数据日益关注。其中计数数据(count data)是大数据与人工智能时代进行信息挖掘不可或缺的组成部分。在多数计数数据集中,过分散(over-dispersion)即方差大于均值是一种普遍存在的现象,这使得比泊松分布更为灵活的负二项分布受到越来越多研究人员的关注。然而,有关负二项分布的参数估计问题一直是一项具有挑战性的研究课题。由此,本文研究了一种有效的用于估计负二项分布中参数的期望最大化(EM)算法并考察其在无监督分类模型,即混合负二项分布模型和输出分布为负二项分布的隐马尔可夫模型中的推广和应用。此项工作不仅能够丰富针对分类模型的参数估计方法,而且也扩展了基于负二项分布的分类模型。对于具有广泛应用背景的混合负二项分布模型,本文提出了一种有效的用于参数估计的EM算法。此算法避免了在EM算法中M步嵌套迭代数值解的步骤,是对传统算法的优化。数值模拟的结论表明,该新算法明显提高了运算速度,并且在分类准确度方面与传统方法一致。在具体应用中,该算法在拟合地震数据及分类问题中表现优异。对于更为复杂的输出分布为负二项分布的隐马尔可夫模型,类似的可有效避免嵌套迭代的EM算法得到了推广。数值模拟的结论显示,所提出的算法在参数估计和分类问题中都表现出了良好的性能。通过负二项分布与隐马尔可夫模型在空气污染分类方面的应用,不仅实现了基于PM2.5数据的空气污染分类与应用模型的创建,而且在实践中验证了新参数估计算法的准确性和在运行速度上的极大优势。
其他文献
在我国,农产品批发市场是农产品流通体系的核心和枢纽,也是农产品物流、商流以及信息流的集散中心。做好农产品批发市场建设有利于推动农业产业结构优化,带动农村社会经济发
蒙古国东戈壁盆地与中国二连盆地、海—塔盆地和银额盆地相邻,均属兴—蒙弧形褶皱带上发育的断陷盆地群。它们是在古生代褶皱基底上发育起来的中新生代断陷盆地,具有相似的地
2,2,6,6-四甲基哌啶氮氧自由基(TEMPO)具有稳定性好、选择性高、绿色环保等优点,因此常被应用到醇和胺的催化氧化中。而将TEMPO修饰到电极上,采用电化学方法实现醇的选择性氧化
煤炭地下气化(UCG)作为一种新型的采煤方法,多个国家已经对其进行了大规模、多方位的研究开发,但是到目前为止仍然未能实现产业化生产,其原因之一是不能有效得判断煤炭地下气化燃烧区的范围与位置,然而实现及时掌握煤炭地下炉燃烧状态是对煤炭地下气化过程进行有效控制的前提之一。本论文以乌兰察布地区国家高新技术发展“863”项目重大研究课题“煤炭地下气化产业化关键技术”的子课题“气化工作面的综合探测技术”为前
在人类文明发展历史进程中,贫困问题是我国乃至全球一直备受关注的重要议题。“十三五”规划提出,到2020年我国现行标准下农村人口实现脱贫,贫困县全部摘帽,解决区域性整体贫
高原红细胞增多症(high altitude polycythemia,HAPC)是高原居民中发病率最高、危害最大的慢性高原病,多见于高原移居民族,尤其是生活在海拔4000m以上地区的人群,最高时发病率可达85.7%。因红细胞和血红蛋白过度增生而导致血流淤滞、血流速度变慢、组织缺氧加重、血栓形成及栓塞等可造成多系统、多器官损害,尤以心血管系统以及神经系统表现明显,严重危害高原人民的生命健康。相关研
资本资产定价模型(CAPM)自问世以来,实证检验中出现了诸多异象,部分异象始终没有得到很好的解释,随着近来行为经济学的兴起,对于这些异象的研究逐渐找到新的突破口。其中,贝
收益共享契约是现代商业社会一种常见的契约合同,它是生产商与零售商在产品销售之前就签订,生产商会给予零售商一个较低的批发价格,零售商因此会以更低的零售商价格进入市场
发射装药发射安全性一直倍受国内外兵器界广泛关注。内弹道初期发射药床的挤压破碎是导致膛炸的根本因素,弹底发射药床在高应力下的破碎程度,已成为发射装药发射安全性研究的核心问题。发射药床本质上是由六棱柱发射药粒组成的散粒体系统。本文基于离散元法,系统地研究了多面体颗粒破碎的离散元程序实现,并将其应用到高冲击荷载下发射药床挤压破碎过程的研究中。本文的主要研究内容如下:1.研究了离散元法的基本理论和破碎模型
随着知识经济社会的深入发展,技术的更新换代越来越迅速。在经济全球化大背景下,国家之间知识产权与技术创新的竞争也越来越激烈,知识产权必将成为国家重要的战略资源,社会对