论文部分内容阅读
太阳能电池可以将太阳能直接转化为电能,是太阳能利用的最有效途径。而有机太阳能电池由于其低成本、轻质、可制备大面积柔性器件而备受关注。其中太阳能光电转化效率(Power Conversion Efficiency,PCE)是评价有机太阳能电池(Organic Solar Cells,OSCs)性能的一项至关重要的参数,其预测的精度直接影响到太阳能电池的性能。但是电池器件的复杂结构使得从分子结构性质准确计算有机太阳能电池的光电转化效率难以通过量子化学计算或实验直接得出。而集成学习作为机器学习的一个分支,能有效地绕过复杂的实验过程,直接构造出分子结构性质与太阳能电池光电转化效率定量构效关系(Quantitative Structure-Activity Relationship,QSAR),打破弱学习器的瓶颈,通常比基础学习器更准确。因此为了提高有机太阳能电池光电转化效率的预测精度与所建QSAR模型的泛化能力,本文运用多种集成学习方法构建QSAR模型。一方面从全局建模的角度出发,构建了三种类型的全局集成模型,包括同质集成方法Boosting方式的GBDT,Bagging方式的随机森林(Random Forest),以及异质集成SVM-KNN-WMA。另一方面,本文研究了一种“先聚类,再建模”的方案,建立局部异质集成模型L-SVM-KNN-WMA。其中全局异质集成SVM-KNN-WMA即使用加权多数算法(WMA)以组合基回归器支持向量机(SVM)、K最近邻(KNN)的意见,通过在多个有机太阳能电池数据集上的实证分析表明,其性能优于单一学习器支持向量机,并比另外两种集成方法GBDT、RF所建的QSAR模型具有更好的泛化能力;而根据分子的结构相似性对训练集应用K-Means聚类方法生成子集建立的局部异质集成模型L-SVM-KNN-WMA实现了更高的预测精度与更强的泛化能力。本文研究结果表明,基于集成学习构建分子结构性质与光电转化效率QSAR模型可以预测出具有较高PCE的新型有机太阳能材料,并解决了传统的量子化学计算方法耗费大量的计算资源问题,降低了实验成本与实验时间,对今后的实际应用具有重要意义。