板凸度是衡量热轧带钢质量的重要指标之一。过大的板凸度误差会导致生产效率明显降低,甚至导致生产线中断。热轧带钢的板凸度精准预测是十分必要的。在现代钢铁工业中,多数研究都建立在平衡数据的基础上,在面对不平衡数据时,预测模型的精度往往很低。因此,本文提出了一种可应用于不平衡数据的基于Boruta和极端随机树(extremely randomized trees, ET)的板凸度预测模型。
热轧生产过程是一个机理复杂、系统参数多、耦合性强的大型系统。不平衡的数据样本将导致模型难以识别少数类样本,从而导致在训练过程中学习到的样本不完整。预测结果会偏向于多数类样本,这会严重影响模型的预测精度。因此,本文根据数据样本的数量将样本分为不同的类别(图1)。利用合成少数类过采样(SMOTE)算法,通过不同的放大倍数构建不同类别的数据样本,使数据分布更加平衡,有利于模型的训练。为了获得与因变量相关度最高的特征参数集合,本文使用相同的训练集对Boruta-ET、Boruta-RF(random forest,随机森林)、Boruta-SVR (support vector regression,支持向量回归)、Boruta-GBDT (gradient boosting decision tree,梯度提升决策树) 四种模型进行训练,并且使用相同的测试集测试四种模型的预测能力。结果表明,Boruta-ET模型的预测误差较小,优于Boruta-RF、Boruta-SVR、Boruta-GBDT模型,超过97.01%的样本点的预测误差在−8~8 μm之间(图2)。Boruta-ET模型的决定系数(determination coefficient, R2)值为0.96,高于其他模型。绝对平均误差(mean absolute error, MAE)值为1.699 μm,均方根误差(root mean squared error, RMSE)值为8.262 μm,平均绝对百分比误差(mean absolute percentage error, MAPE)值为0.053 μm,均低于其他模型(图3)。Boruta-ET模型预测的板凸度值最接近真实的板凸度值(图4)。结果表明,Boruta-ET模型是预测热轧过程中带钢板凸度的可靠和有效的工具。
图1 数据分类
表1 Boruta 特征选择结果
图2 四种模型的预测性能
图3 板凸度标准差的MAE、RMSE和MAPE
图4 四个模型的预测板凸度值与真实板凸度值对比 本研究为热轧钢带钢板凸度的预测提供了一种新的方法,为提高热轧钢带的生产精度和效率提供了理论依据。