探索性数据分析(EDA)
在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法。 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们超出正式建模的内容,从而对比传统的假设检验。
EDA 不同于初始数据分析 (IDA),更侧重于检查模型拟合和假设检验所需的假设,并根据需要处理缺失值和进行变量转换。 EDA 包含 IDA。
折叠内容
EDA 的目标是:
EDA 中使用的典型图形技术有:
降维:
典型的定量技术有:
摘录:描述性统计
import matplotlib.pyplot as plt
from IPython.display import Math, Latex
from IPython.core.display import Image
import seaborn as sns
sns.set(color_codes=True)
sns.set(rc={'figure.figsize':(10,6)})
# Uniform Distribution
from scipy.stats import uniform
number = 10000
start = 20
width = 25
uniform_data = uniform.rvs(size=number, loc=start, scale=width)
axis = sns.distplot(uniform_data, bins=100, kde=True, color='skyblue', hist_kws={"linewidth": 15})
axis.set(xlabel='Uniform Distribution ', ylabel='Frequency')
折叠内容
EDA可视化辅助
概要:折线图 条形图 散点图 面积图和堆积图 饼图 表格图 极坐标图 直方图 棒棒糖图 选择最佳图表 其他库
EDA数据清理和分析
概要:加载数据集 数据转换 数据分析
数据转换
概要:背景 合并数据库风格的数据框 转换技术 数据转换的好处
描述性统计
概要:理解统计 集中趋势度量 离散度量
组合数据集
概要:了解 groupby() Groupby 机制 数据聚合 数据透视表和交叉表
相关性
概要:介绍相关性 理解单变量分析 理解双变量分析 理解多变量分析 使用泰坦尼克号数据集讨论多变量分析 概述辛普森悖论 相关性并不意味着因果关系
时间序列
概要:使用开放电力系统数据了解时间序列数据集
建模
假设检测和回归
概要:假设检验 p-hacking 理解回归 回归类型 模型开发和评估
EDA产品品质数据分析
源代码