多款AutoEDA工具,总有一款适合你



EDA
探索性数据分析(EDA)是在进行建模之前,分析数据并找到数据集所具有的模式、可视化见解等的一种方法。人们花费大量时间进行 EDA 以更好地理解数据,
EDA 涉及很多步骤,包括一些统计测试,使用不同类型的图来可视化数据,等等。下面讨论了 EDA 的一些步骤:
数据质量检查:可以使用 pandas 库函数来完成,如 describe()、info()、dtypes()等。它被用来寻找一些特性、数据类型、重复值、缺失值等。
统计检验:通过 Pearson 相关、Spearman 相关、Kendall 检验等统计检验,得出特征之间的相关性。它可以在 python 中使用 stats 库实现。
定量检验:一些定量检验被用来寻找数字特征的扩散,分类特征的计数。它可以使用 pandas 库的函数在 python 中实现。
可视化:特征可视化对于理解数据是非常必要的。柱状图、饼图等图形技术用于理解分类特征,而散点图、直方图用于数字特征。
通常这些都会花掉我们大量的时间和精力,而 AutoEDA 可以帮我们大大节省时间,往往一行或者几行代码就可以实现:
快速的数据探索和可视化
增强分析
可视化建议
AutoEDA 资源
关于 AutoEDA,我曾经介绍的下面三款,
Pandas-Profiling
Autoviz
D-Tale
你还可以访问这个 GitHub 项目获得更多AutoEDA 资源[1]
参考资料
[1]
AutoEDA 资源: https://github.com/mstaniak/autoEDA-resources
到顶部