【摘 要】
:
概率密度函数(Probability Density Function,简称p.d.f.)估计是指利用统计学的方法来估计未知分布的数据集的概率密度函数。它是机器学习和数据挖掘等领域的基础性研究。核密度估计(Kernel Density Estimation,简称KDE)方法,又称为Parzen窗口法,是一种常用的无参数的概率密度估计方法。如何确定最优窗口宽度参数是KDE方法的关键问题。本文以经典的
论文部分内容阅读
概率密度函数(Probability Density Function,简称p.d.f.)估计是指利用统计学的方法来估计未知分布的数据集的概率密度函数。它是机器学习和数据挖掘等领域的基础性研究。核密度估计(Kernel Density Estimation,简称KDE)方法,又称为Parzen窗口法,是一种常用的无参数的概率密度估计方法。如何确定最优窗口宽度参数是KDE方法的关键问题。本文以经典的KDE方法为基础,从两个方面对经典KDE进行改进:(1)典型的确定最优窗口宽度参数的方法是最小化积分均方误差(Mean Integrated Square Error,简称MISE),MISE是一个常用的度量估计p.d.f.与真实p.d.f.之间误差的函数标准,这会导致在确定最优窗口宽度参数时引入一个和真实p.d.f.有关的未知项,经典的KDE方法采用启发式的策略来估计这一未知项,从而导致用未知去估计未知现象的发生,这会使得估计的p.d.f.不稳定。受熵这个概念的启发,本文提出了一个基于最小熵的核密度估计器(Minimum Entropy-based Kernel Density Estimator,简称ME-KDE),不同于经典的KDE以MISE作为目标函数,ME-KDE以给定数据集的代入熵作为目标函数,这样做的好处就是,在确定最优窗口宽度参数时,不会再引入未知项,从而使估计的p.d.f.的稳定性增强。此外,为了计算最优窗口宽度参数,此处本文设计了一个新的不动点迭代算法。理论分析和实验结果都证明了ME-KDE模型相比于经典的KDE方法,不仅提升了p.d.f.估计的精确度,同时也增强了p.d.f.估计的稳定性。(2)在处理流式数据或者大规模数据的p.d.f.估计问题时,经典的KDE方法因为需要针对所有数据进行训练而存在训练时间太长和计算资源浪费等不足。受增量学习这个概念的启发,本文提出了一个基于增量学习的核密度估计器(Incremental Kernel Density Estimator,简称I-KDE),经典的KDE方法在面对新到达的数据时,总是将新数据和原有数据结合在一起,然后对所有数据进行重新训练,而本文提出的I-KDE模型则是采用流数据计算的方式,先对新到达的数据进行p.d.f.估计,随后使用基于新数据的估计p.d.f.去更新基于原有数据的估计p.d.f.,随着新数据的不断到达,这个更新过程也是动态的。为了保证I-KDE模型的收敛性,本文在此处设计了一个基于无偏交叉验证的多变量不动点迭代算法,这个算法可以确定最优窗口宽度参数。之后,我们通过理论分析和模拟实验证明了I-KDE模型的收敛性,不动点迭代算法的收敛性以及I-KDE模型的估计性能。
其他文献
在当下中国的社会转型阶段,社会矛盾、社会问题日益凸显,越来越多的社会议题成为公众舆论探讨的主题。“平静”了千年的普洱茶在一时间被推上了舆论的风口浪尖,整个网络空间中充斥着关于普洱茶的非理性、极化的声音,这些极端对立的的舆论鲜明地映射着国人在现实社会中的多元利益诉求,以及由于理性和常识的缺位而产生的偏执与焦躁。这场愈演愈烈的普洱茶舆论风波,成为窥察转型期社会矛盾冲突加剧以及民众心态发生激烈分化和碰撞
稀疏优化是目前最优化领域中的前沿课题.它主旨是从少量的样本中重构高维信号,在信号处理、机器学习等领域广泛应用.结构稀疏优化是稀疏优化领域的重要课题,旨在利用问题的特定结构来提升稀疏优化的能力.Peng等人在研究DNA与RNA转录调控关系问题中,发现问题不仅具有组稀疏结构,在组内也具有稀疏结构,由此衍生出双层稀疏优化并广泛应用于基因工程、光谱分析等领域.贪婪算法具有思想简单,操作方便,计算快速等优势
随着社会的发展,人类已经进入到了复杂网络时代。复杂网络的蓬勃发展既给人类社会带来了便利,也带来了很多负面影响,如少量的破坏或传染病更容易扩散到整个复杂网络系统。因此,人类的活动越来越依赖于各种复杂网络系统的鲁棒性和有效性。网络鲁棒性评估系统对指导人们制定策略至关重要,比如,指导如何提高网络的稳健性、如何缓解蓄意攻击带来的破坏性后果、以及如何抵御可能发生的危机。显然,网络结构推断是分析网络各种性质的
在现实世界中,很多系统以网络的形式表现,例如社交网络、因特网、科学家协作网、电力系统中的电力网等等。但是原始的网络数据具有冗余性、关联性、大规模等特性,这加大了对算法效率的要求和影响了数据处理的效果。网络表征学习将原始网络数据压缩到低维空间进行表达,不仅降低了计算成本,而且提升了网络数据挖掘任务的效果(如链接预测、网络重构、网络稳定、社区稳定等)。然而,以往的网络表征方法主要侧重于静态网络,不适合
随着计算机网络的发展以及移动互联网的大规模应用,对网络功能产生了更加多样化的需求。传统上,网络功能是由硬件实现的,虽然性能强劲,但其灵活性、扩展性还是易用性都相较软件实现低得多,无法适应现代网络功能快速发展的需要。网络功能虚拟化(Network Function Virtualization,NFV)的出现很好地解决了这个问题,NFV旨在借助虚拟化技术,在x86等通用性设备用软件实现原本使用硬件完
令G为一个n阶简单无向图,令D(G)为以图G的各顶点度数为对角元素的对角矩阵,A(G)为图G的邻接矩阵,Q(G)为图G的拉普拉斯矩阵.那么Aα(G)矩阵的定义为Aα(G)=αD(G)+(1-α)A(G),α∈[0,1],即矩阵D(G)和A(G)的凸组合.显然,A0(G)=A(G),A1/2(G)=1/2Q(G).最近,R.Zhang和S.-G.Guo[1]研究了非二部哈密顿图的最小A1/2-特征值
图像处理技术是机器人视觉、人脸识别、安全监控、人工智能、医学成像等领域的有力工具,图像处理系统的整体性能取决于测试图像的质量,然而图像在采集和传输过程中不可避免地会受到噪声的影响。图像去噪的目的是从被噪声污染的图像数据中真实地重建图像,它能更好地提取图像数据,有助于改善退化图像的质量,因此,图像去噪是许多图像处理系统的基础问题和重要过程。图像去噪是近几十年来备受关注的研究课题,研究人员发现基于变分
设Mn{0,1}是所有n阶0-1矩阵的集合,若Ai∈Mn{0,1},i=0,1,2,…,k,但Ak+1?Mn{0,1},则k称为A的稳定指数,用s(A)=k表示.特别的,当k可以取任意正整数时,记s(A)=∞.针对对称0-1矩阵及三角0-1矩阵有三个主要结论:矩阵主子式的稳定指数大于或等于其自身的稳定指数;稳定指数具有某种单调性:若A的所有元素都不超过B的对应元素,则A的稳定指数不小于B的稳定指数
Hash函数在很多密码安全协议中起着非常重要的作用,它作为数字签名的基石,不仅用于检测网络通信信息是否被篡改,而且是保障数字指纹,身份认证等多种密码系统安全的关键技术。目前针对Hash函数的分析都是基于数论难题来进行分析设计的,均是在经典计算的基础上对Hash函数进行的,无法评估其对抗量子计算机攻击的能力,探索量子计算在Hash函数中的安全研究十分重要。随着量子信息技术的发展,基于量子特性,量子信
随着医学成像技术的发展,医学超声图像受到越来越多的关注.由于在成像、传输、压缩过程中受到外界的影响,医学超声图像通常带有散斑噪声,影响了医生对医学超声图像的判别,不利于对病人进行治疗,医学超声图像中的噪声去除是医学图像处理的一个研究热点.研究人员针对散斑噪声的去除提出了许多有效的模型和方法,如基于滤波器的方法、基于小波变换的方法、基于局部自适应统计的方法以及基于偏微分方程的方法等.尽管这些方法在去