论文部分内容阅读
本文在国家自然科学基金资助项目“信息模式识别理论及其在地学中的应用”(项目编号:40074001)的支持下,以信息理论为切入点,集统计理论、系统理论、模糊数学理论、模式识别理论于一身,对数字模式识别(DPR)理论进行了系统地研究。 首先在现有模式测度理论基础上,系统地研究了信息模式测度(IPM)理论。基于信息理论,提出了对称交互熵(SCE)、关联信息系数(IIC)、离散量(DC)等基本概念,以此为基础,建立了交互距离测度(CDM)、关联信息测度(IIM)、信息距离测度(IDM)以及信息系数测度(ICM)等理论。所有这些理论与方法,拓宽了信息模式相似性测度的研究领域,是DPR研究的重要组成部分; 其次系统地讨论了基于离差阵判据、基于概率距离判据、基于散度判据及基于信息熵判据的信息特征压缩方法,对其算法分别进行了研究;根据信息熵的思想,提出了第二表示熵或广义熵以及几何熵,并论证了DKLT比其它任何正交变换下的广义熵、几何熵为最小,从而x的DKLT使得信息量向变换后的某些分量相对集中,为信息特征优化压缩奠定了理论基础;在研究主成份分析(PCA)算法的基础上,借助于Shannon信息理论中信息函数的概念,我们首次定义了本征值的可能性信息函数,进而提出了信息率(IR)和累计信息率(AIR)的概念,用它度量了信息压缩的程度,建立了一种新的基于信息理论的PCA特征压缩算法;在交互熵的基础上,提出了对称交互熵(SCEC)的概念,建立基于SCEC的信息特征压缩算法;首次将偏最小二乘(PLS)回归引入到信息特征压缩领域,提出了基于PLS的信息特征压缩算法,PLS回归是一种测量数据的软建模、稳健(Robust)的统计分析方法。较主成份分析(PCA)具有简单、稳健、易于定性解释等优点,对于多重共线性资料,尤其当解释变量多,而样本量少时很有效。同时由于在压缩数据矩阵X的信息的同时,顾及了与目标矩阵Y的最大相关性等优点,使之更符合于实际; 最后基于信息模式测度(IPM)、信息特征压缩(IFC)理论的研究,建立了基于信息系数测度(ICM)、基于改进信息相似系数(IICM)的信息聚类算法,并将其应用于土壤质量评价分类中;应用信息熵理论,提出了客观熵权(OEW)的概念,并给出了OEW的构造方法,建立了基于OEW的数字模式识别算法,模拟结果表明,这里提出的算法是有效的、合理的;在对偏最小二乘(PLS)回归算法分析的基础上,把反应变量看作0-1变量,进而提出了一种新的基于PLS的数字模式识别算法,该算法较Fisher判别分析、Bayes判别分析具有较高的识别性能,且具有简单、稳健、易于定性解释等优点;以模糊集理论为基础,以测量数据为应用背景,提出了模糊关联系数(FIC)、模糊关联度(FID)以及模糊相对权重(FRW)的概念,以此为基础,建立了关联模式识别(IPR)算法,并将其应用于测量数据处理中。基于模糊熵理论,建立了新的模糊熵测度及模糊交互熵测度,提出了模糊相对公息(FRMI)、对称模糊交互熵(SFCE)等概念,建立了基于SFCE的数字模式识别新算法,并对青岛市的土壤环境进行了定量分类研究。