论文部分内容阅读
数据可分为无时序性数据和时序性数据两大类。对以图像数据为代表的无时序性数据的分类和对以语音数据为代表的时序性数据的分类,都是目前数据挖掘领域的研究热点。其中,引导干细胞分化的小分子化合物的高通量筛选是图像数据分类研究的重要应用,而独立于语言的语音识别是语音数据分类研究的重点。前者的本质是对多样本(同一类数据中具有多个样本值)图像数据进行分类,后者的本质是对单样本(同一类数据中只具有一个样本值)语音数据进行分类。对常用的高通量筛选方法而言,图像数据的分类需要借助图像分割的结果,在统计图像特征信息时需要人工干预,并且也需要耗费大量存储空间来保存图像的特征信息。常用的语音识别方法通常基于对统计模型的训练结果,而对多种语言训练数据进行搜集存在较大难度,同时将用户信息上传到远程服务器也存在隐私泄露的风险。本文主要基于信息距离理论和动态时间规整算法分别对图像数据和语音数据分类方法进行研究,有效解决了上述数据分类方法存在的问题和不足。本文的研究成果以及主要创新点包括:1.基于信息距离理论设计并实现了细胞质图像分类算法(Cytoplasm Image Classification,CIC)以及信息距离分类算法(Information Distance Classification,IDC)。与常用的多样本图像数据分类方法不同,CIC和IDC算法不需要借助图像分割的结果进行图像分类,避免了对图像进行特征提取,因此不需要占用大量的存储空间;避免了对细胞核染色导致的破坏,从而不会打断生物学家对生长中的干细胞进行细胞动力学研究;避免了因图像分割不准确而造成的误分类结果。此外,CIC算法和IDC算法在应用中有效避免了传统分析方法及机器学习方法中所涉及到的人工干预,不需要提取关于细胞大小、数量以及明亮度等信息。实验结果显示,本文提出的CIC算法能够成功分离两类不同性质的图像及其代表的化合物,且与生物学家的传统分析方法获得了类似的分类结果。考虑到生物确认实验的高成本,我们未对CIC算法处理的数据集进行二级生物实验验证,但针对后期大批量实验数据,我们对IDC算法、传统分析方法以及五种机器学习方法挑选出的全部活性化合物和部分非活性化合物进行了二级生物实验验证。结果显示,本文提出的IDC算法的有效性高于传统的分析方法以及机器学习方法。总体而言,本文提出的干细胞分化图像分类算法具有“黑盒”分类过程,可操作性强,非常适合于生物学家做高效且鲁棒的高通量筛选工作。需要指出的是,CIC算法和IDC算法是首次将信息距离理论应用于高通量筛选的算法。2.基于动态时间规整算法(Dynamic Time Warping,DTW)、模糊逻辑理论(Fuzzy Logic),设计并实现了合并—权重动态时间规整算法(Merge-Weighted Dynamic Time Warping,MWDTW)以及一对多权重动态时间规整算法(One-Against-All Weighted Dynamic Time Warping,OAWDTW)。与目前常用的语音数据分类方法相比,MWDTW和OAWDTW算法为独立于语言的语音识别提供了一种轻权重依赖于说话人的语音数据分类方法。在这里,轻权重依赖于说话人指的是对于每一类语音数据只有单个样本。MWDTW和OAWDTW算法不需要对大量数据进行训练,从而避免了对多种语言训练数据的搜集。此外,两种算法能够在脱机(offline)状态下进行语音数据的分类,避免了隐私泄露的风险。在对安静环境下录制的语音数据分类中,MWDTW算法与DTW、合并DTW(merged DTW)、隐马尔科夫模型(Hidden Markov Model,HMM)相比,获得了更好的性能。OAWDTW算法适用于对在噪音等多种环境下录制的语音数据进行分类,可比DTW算法获得更高的正确率。需要指出的是,MWDTW算法和OAWDTW算法是首次用于语音数据分类的权重DTW算法。3.针对噪音环境下录制的语音数据,结合支持向量机(SVM)和DTW算法的特性,设计并实现了支持向量机—合并动态时间规整算法(SVM-Merged Dynamic Time Warping,SVM-MDTW)。该方法是将SVM和DTW算法结合使用的早期尝试,具有潜在的研究价值。