    李超 汪磊 陈洋 李天义

    国家自然科学基金项目 12172211

    国家重点研发计划项目 2019YFC1509800


      李超(1999-),男,硕士,主要从事膨胀土方面的研究.ORCID:0000-0002-3597-0301. E-mail:M400121101@sues.edu.cn


      汪磊, ORCID:0000-0001-9423-7866. E-mail:wanglei_sjtu@sjtu.edu.cn

    • 中图分类号: P64

    Prediction Model of Soils' Preconsolidation Pressure Based on Bayesian Ensemble Learning Algorithm

    • 摘要: 准确评估土体的先期固结压力(PS)是岩土工程实践中的一个重要问题.采用集成学习算法(XGBoost、RF)来捕捉各个土体参数之间的关系,建立先期固结压力预测模型.使用贝叶斯优化方法来确定模型的最优参数,并通过与SVR、KNN和MLP三种非集成算法进行对比,统计分析了不同模型在相关系数R2、均方根误差RMSE和绝对平均误差MAPE三种误差指标下的表现;最后在5折交叉验证下,评估各个模型的预测精度及泛化性.结果表明基于XGBoost的预测精度最高,其RMSE及MAPE分别为20.80 kPa和18.29%;其次是RF,分别为24.532 kPa和19.15%.同时在PS作为回归变量的情况下,其特征重要性为:USS > VES > w > LL > PL.因此,在小规模数据集情况下,集成学习算法在预测精度及泛化性上要优于其他算法,且可作为岩土参数敏感性分析的有效方法.


    • 图  1  XGBoost及RF算法流程

      Fig.  1.  Flow chart of XGBoost and RF

      图  2  5折交叉验证示意

      Fig.  2.  5-fold cross validation diagram

      图  3  参数频率分布直方图

      Fig.  3.  Historgrams of the frequency distribution of feature and label

      图  4  预测模型回归值与真实值比较

      Fig.  4.  Comparison between regression values and true values of prediction model

      图  5  超参数优化前后模型得分

      Fig.  5.  Hyperparameter optimization model score

      图  6  预测值误差分布

      Fig.  6.  Error distribution of predicted value

      图  7  优化前后测试集回归表现

      Fig.  7.  Regression performance before and after hyperparameter optimization

      图  8  特征重要性分析

      Fig.  8.  The features relative importance ranking

      图  9  五折交叉折验证模型表现

      Fig.  9.  5-fold cross-fold validation model performances

      表  1  贝叶斯优化算法的伪代码

      Table  1.   Pseudocode of Bayesian optimization algorithm

      1: for t =1,2…, do:
      2: 最大化收益函数,得到下一个评估点: $ {x}_{t}=\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}{\mathrm{x}}_{x\in X}f\left(x\right) $;
      3: 计算目标函数值: $ {y}_{t}=f\left({x}_{t}\right)+{\epsilon }_{t} $;
      4: 更新数据集:$ {D}_{1:t}=\left\{{D}_{1:t-1},\left({x}_{t};{y}_{t}\right)\right\} $,并且更新概率代理模型;
      5: end for
      表  2  变量基本信息

      Table  2.   Basic statistics of the five feature variables and label

      参数 最小值 最大值 平均值 中位数 标准差 峰度 偏度
      LL(%) 22 201.8 68.37 68.75 23.83 4.01 1.17
      PL(%) 2.7 73.9 28.49 27 7.69 5.77 1.11
      w(%) 17.3 180.1 76.47 75 23.29 1.4 0.52
      VES(kPa) 6.9 212.9 48.72 43.05 27.29 5.4 1.7
      PS(kPa) 15.2 315.6 79.82 64.9 48.48 5.09 1.92
      USS(kPa) 5 75 19.2 16.85 10.03 2.68 1.37
      表  3  各个变量斯皮尔曼相关系数

      Table  3.   Spearman correlation coefficients of five feature variables and label

      LL PL w VES PS USS
      LL 1
      PL 0.66 1
      w 0.843 0.629 1
      VES ‒0.338 ‒0.305 ‒0.447 1
      PS ‒0.308 ‒0.207 ‒0.461 0.708 1
      USS ‒0.105 ‒0.101 0.268 0.529 0.747 1
      表  4  集成算法模型最优超参数

      Table  4.   Optimal hyperparameter of ensemble algorithm model

      XGBoost超参数 最佳参数 RF超参数 最佳参数
      n_estimators 550 n_estimators 1 700
      learning_rate 0.14 max_feature auto
      max_depth 3 max_depth 9
      min_split_gain 0.101 min_sample_leaf 1
      min_split_weight 3.414 min_sample_split 2
      lambda 2.651
      alpha 4.522
      表  5  非集成算法模型最优超参数

      Table  5.   Optimal hyperparameter of machine learning algorithm model

      SVR超参数 最佳参数 KNN超参数 最佳参数 MLP超参数 最佳参数
      kernel rbf n_neighbors 3 hidden_layer_sizes (50, 50, 50, 50, 50)
      C 2 000 p 1 max_iter 100
      gamma 0.001 weights uniform solver lbfgs
      表  6  误差分析汇总表

      Table  6.   Summary of error analysis

      模型 R2 RMSE MAPE
      训练集 测试集 训练集 测试集 训练集 测试集
      XGBoost 0.945 0.782 11.552 20.8 12.224 18.295
      RF 0.959 0.696 9.896 24.532 8.370 19.154
      SVM 0.932 0.633 12.840 26.967 6.640 23.047
      KNN 0.876 0.687 17.387 24.911 14.893 20.905
      MLP 0.809 0.696 21.565 24.536 18.813 20.584
      式13 0.09 46.254 33.129
      式14 0.139 44.982 32.589
    收稿日期:  2022-11-07
