机器学习WorkFlow——EDA

简介

机器学习想要获得很好的效果,就像做菜一样,离不开3个基本要素:好的厨师(human guidance)、干净的食材(clean, relevant data)、适量(avoid overfitting)。围绕这3要素,机器学习有下图5个核心步骤。本文先谈谈EDA过程。
machine_pipeline

Exploratory Data Analysis(EDA)

探索性数据分析阶段,目的就是更好地了解你的数据,对你的数据有那么点 feel,这对下面的数据清洗、特征工程都是有帮助的。EDA对于ML来说,要快速,高效,决定性的
这一步中,首先需要回答出这些问题:

  • 观测数据、特征有多少?
  • 特征的数据类型?数值 or 类别?
  • 是否有目标变量?
  • 哪些列是有意义的?列中值是否有意义?值占比合适?
  • 缺失值严重?

数值型特征分布

直方图(histograms)就可以很好的观测出数值型features的分布。主要关注这几点:

  • 分布合理?
  • 二值?
  • 有潜在异常值?
  • 有潜在测试误差?
  • 边界合理?

    如果发现数据有异常,可以咨询相关人士,从而更清楚的认识你的数据。

类别型特征分布

条形图(Bar plot)可以有效观测类别features的分布。对于稀缺类别,后续可以考虑进行合并等等处理。

盒图(Box plot)有效的观测类别feature数值型feature之间的关系。

协方差矩阵

数值型特征之间协方差矩阵,潜在的反应它们的关系。热图(heatmaps)可以很好的可视化,这样的相关性。在这你可以找出那些特征与目标变量相关性更强?强相关的特征有意义?

小结

总之,EDA,能够让我们更好的了解数据集,给下面的数据清洗,特征工程提供思路。

分享