论文部分内容阅读
本文依托国内外统计分析理论、模式识别理论和信息理论的相关研究成果,在国家自然科学基金委员会资助研究项目《信息模式识别理论及其在地学中的应用》(项目编号:40074001)的支持下,系统分析研究了数据压缩和特征提取的理论与方法,对信息模式识别的若干问题进行了深入的研究。 根据测绘数据的特点,本文从信息科学的角度给出了数据的定义、数据特征的定义与内涵,提出了数据信息特征的概念,为论文后续研究奠定了基础。 在总结分析数据类别可分性的欧氏距离准则、概率距离准则和熵函数准则的基础上,研究了它们各自的特点和适用条件;分析研究了应用各个准则生成最优投影向量,获得有效分类特征的方法。在均方误差最小准则下,研究分析了应用总体熵提取方差信息的特征分析方法和从类平均向量中提取有效分类信息的方法;研究分析了最佳K-L变换和主成分分析数据压缩和特征提取方法;基于信息论,建立了主分量信息函数模型,并实例说明它们的信息特性。 分析研究了探索性数据分析理论在数据压缩和特征提取中的应用,从信息分布角度,提出了一种新的投影寻踪指标——Kullback-Leibler绝对信息散度;分析研究了负熵与互信息的关系和负熵的近似计算方法,基于互信息最小,分析研究了独立分量信息极大快速算法,并实例验证了该方法的有效性。 初步研究了基于互信息的特征提取方法,研究分析了基于Renyi二次互信息的特征提取方法。提出了互信息特征提取准则,基于信息最大化的特征提取理论与方法是所有特征提取理论与方法的概括。 运用模式识别理论和信息理论,提出了测绘数据信息分析处理中母体均值变化的模式识别判识方法;研究了熵与测量结果不确定性的关系,提出了应用信息熵探测粗差的方法,建立了小样本秩和信息熵粗差识别模型;研究了最大熵原理的解析模型和最大熵原理确定未知分布函数模型的方法和步骤,应用最大熵原理建立了观测数据分布函数模型。分析研究了最小描述长度原理与最大熵原理、极大似然估计原理的关系,基于最小描述长度原理,解决了主成分分析法解决复共线Gauss-Markov模型时,主成分的选择问题。 本研究中取得的一些成果,已写出学术论文并公开发表。