论文部分内容阅读
随着计算机与互联网技术的不断发展,海量数据信息存在于日常生活中的各个领域,人们可以从海量数据中获取丰富的有价值信息。伴随着大数据时代的到来,各个领域都迎来了新的挑战,如何提高对海量数据的分析与应用效率,已经成为人们关注的热点问题。机器学习作为人工智能的重要分支,在大数据的研究与处理方面处于最前沿的研究方法。绝大多数的机器学习算法本质都是建立优化模型,使用优化算法对目标函数进行优化,通过训练得到最优模型。因此,优化算法在机器学习算法的研究与实现中占有主导地位。本文主要对BP神经网络、支持向量机(Support Vector Machine,SVM)以及几种智能优化算法进行研究,并将这些算法应用到不同研究背景下分析其可行性和实用性。论文主要研究内容如下:(1)为了更好的平衡粒子的全局搜索能力和局部开发能力,解决GSA中存在的过早收敛、局部优化能力差等问题。将PSO算法中的群体信息交流功能与GSA算法中的局部搜索功能相结合,提出了基于时变惯性权重策略的PSO-GSA算法(TVIW-PSOGSA)。选取23个基准测试函数评估TVIW-PSO-GSA算法的寻优性能。实验结果表明,与PSO-GSA、GSA、GA和PSO算法的收敛精度相比,TVIW-PSO-GSA算法的收敛精度最高,稳定性最好,且收敛速度和性能均优于其他算法。(2)针对SVM方法的参数选择问题,使用TVIW-PSO-GSA算法优化SVM的惩罚参数C和核函数参数?,提出了改进的SVM方法(TVIW-PSO-GSA-SVM)。为验证所改进方法在实际问题中的可行性和有效性,将其应用到空气质量等级分类预测与UCI数据集分类问题中,并与其他算法的预测结果进行比较。实验结果表明,与PSO-GSA-SVM、GSA-SVM、GA-SVM和PSO-SVM方法相比,TVIW-PSO-GSA-SVM方法准确率更高。(3)考虑传统流感监测体系发布数据的滞后性,首先基于谷歌流感趋势数据(Google Flu Trends,GFT)建立了流感预测模型,并将基于遗传算法(Genetic Algorithm,GA)优化BP神经网络的模型应用到流感预测中,建立了基于GA-BP的非线性流感预测模型;其次,通过对美国十个区域的流感样病例(Influenza-Like Illness,ILI)数据进行分析,发现十个区域每年的流感样爆发人数均具有明显的季节性,从而将美国十个区域的流感发病分为流行期和非流行期,并在此基础上建立了分季流感预测模型;最后,通过对比各模型之间以及GA-BP与传统最小二乘法(Ordinary Least Squares,OLS)对美国十个区域流感预测的预测结果,可以发现:基于GA-BP非线性模型的预测结果在大部分区域均优于线性模型;区域间的交互作用对流感传播有一定的影响;分季流感预测模型相比于原始未分季流感预测模型,其预测精度更高,效果更好,更能反映流感传播的真实水平。(4)通过分析影响流感传播的因素,建立了基于推特(Twitter)数据和疾病预防控制中心(Center for Disease Control and Prevention,CDC)数据的流感预测模型(模型1-3),并提出了一种改进的PSO算法来优化支持向量回归机(Support Vector Regression,SVR)的参数(IPSO-SVR),并将其应用到流感预测模型中对区域ILI百分比(%ILI)进行预测。对比各模型间的预测结果,可以发现:Twitter数据与历史流感数据中包含的信息互补,即Twitter数据保障了流感实时预测的准确性,历史数据能够较好地预测未来的流感趋势变化;与基于改进人工树算法的BP神经网络(IAT-BPNN)流感预测模型相比,模型3中IPSO-SVR方法的预测结果更优;模型3中IPSO-SVR方法不仅适用于HHS定义的10个区域的流感预测,同时也为优化SVR的参数提供了一种新的方法。(5)在MEMS矢量水听器阵列信号处理的研究中,波达方向(Direction of Arrival,DOA)估计问题占据着重要的地位。本文针对该问题提出了基于TVIW-PSO-GSA-BP和TVIW-PSO-GSA-MUSIC的DOA估计方法,并将其应用于矢量水听器的波达方向估计中。通过仿真实验和汾河二库湖试实验,将提出的两种方法估计结果与其他方法估计结果进行比较,可以发现,TVIW-PSO-GSA-BP方法的DOA估计结果均优于BP、PSO-BP和GSA-BP方法;TVIW-PSO-GSA-MUSIC方法的DOA估计结果相比于MUSIC、PSOMUSIC和GSA-MUSIC方法效果更好,准确率更高。从而验证了本文提出两种DOA估计方法在MEMS矢量水听器波达方向估计问题中的有效性。