机器学习WorkFlow——Model training

简介

经过了EDA,数据清洗,特征工程,终于可以聊聊建模型啦,本文简单介绍整个建模过程,最大限度提高性能,同时避免过拟合。

划分数据集

split_dataset

超参数

调参,特指调超参,通常在机器学习中有两种类型的参数,其一,模型参数,如回归系数(regression coefficients)、决策树切分点,这些都是可以利用训练数据直接学习得到的;其二,超参,如随机森林中的树个数选择,L1,L2正则化选择等,这些参数是无法通过学习获得的,需要人为指定。

拟合与调参

通常的做法就是:

1
2
3
4
for 每一算法(LR,RF,SVM,etc.):
for 每一组超参设置:
对训练集做交叉验证;
计算cross-validated分值

这样就会得到,每一个算法,每一个超参集下的CV分值,然后:

1
2
3
for 每一个算法:
CV值最大的超参集;
对整个训练集再次训练(不进行交叉验证)

这就得到每个算法,一个代表性的训练结果。

挑选最优模型

下面就需要依据评估指标,利用测试集(之前预留出的一部分训练集),挑选最优模型。
评估指标有很多,对回归问题,有均方误差(MSE)或均值绝对误差(MAE)。(值越低越好);对分类问题,有AUC(值越高越好),准确率,召回率等。

最后,再考虑你的模型,鲁棒性,一致性、可解释性如何~

分享