🧄Python条件概率-贝叶斯定理和柯尔莫哥洛夫-斯米尔诺夫检验分析缺勤数据
我们的目标是发现数据中的隐藏模式,这可能有助于区分真正的缺勤和欺诈缺勤。
数据初始分析
根据经验,在开始分析新数据集时,最好检查数据的维度、列的类型、可能的缺失值以及数字列的一些通用统计信息。我们还可以获取前 5 到 10 个条目,以便获得对数据本身的感觉。我们将在以下代码片段中执行这些步骤:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
# import data from the GitHub page of the book
data = pd.read_csv('<https://mycontent.com>'\\
'tha'\\
'Abs_at_work.csv', sep=";")
寻找原因
缺勤数据初始分析原因
让我们从缺席原因列的简单分析开始。我们将尝试解决诸如缺勤的最常见原因是什么?饮酒或吸烟对病因有影响吗?上班的距离对原因有影响吗?等等。在执行数据分析时,从这些类型的问题开始通常很重要,因为这是获得对数据的信心和理解的好方法。
我们感兴趣的第一件事是数据中缺席原因的总体分布——即,我们在数据集中有多少条目因特定原因缺勤。我们可以使用 seaborn 包中的 countplot() 函数轻松解决这个问题:
# get the number of entries for each reason for absence
plt.figure(figsize=(10, 5))
ax = sns.countplot(data=preprocessed_data, x="Reason for absence")
ax.set_ylabel("Number of entries per reason of absence")
plt.savefig('figs/absence_reasons_distribution.png', \\
format='png', dpi=300)
社交饮酒和吸烟
社交饮酒者和吸烟者的分析
确定饮酒者/吸烟者导致缺勤的概率
体重指数
年龄和教育程度
调查年龄对缺勤原因的影响
调查教育对缺勤原因的影响
出勤交通成本
时间因素
源代码
Last updated