🧄Python线性回归和逻辑回归分析金融营销策略
Python | 线性回归 | 逻辑回归 | 柯尔莫哥洛夫-斯米尔诺夫检验 | 假设检验 | Pandas | NumPy | seaborn | Matplotlib | 小提琴图 | 残差平方和 | 相全性矩阵 | 消费者价格指数 | 数值特征 | 配对图 | 金融特征 | scipy | 条形图 | 分类特征 | 特征分布
我们不仅会使用柯尔莫哥洛夫-斯米尔诺夫检验和假设检验等技术,还会介绍在数据分析和预测建模中广泛使用的新概念,例如线性回归和逻辑回归(预测建模是使用数据模式来预测未来结果的过程) 。这些类型的模型有几个优点,但其中最重要的两个是它们的简单性和可解释性。
数据初始分析
我们将通过将数据加载到 Python 中并执行一些简单的分析来开始我们的分析,这将使我们了解数据的类型和数据集的不同特征。
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
# pull data from github
bank_data = pd.read_csv("<https://mycontent.com/>"\\
                        "PacktWorkshops/"\\
"thd/"\\
"bank-additional.csv", sep=";")
# visualize the head of the dataset
bank_data.head().T分析银行数据集中数值特征的分布
将对银行数据集中的数字特征进行简单分析。始终对新数据集,推导基本统计数据对数据分析非常重要。可以获得对数据的一般知识和“感觉”。一个典型的例子是计算年龄列中的最小值和最大值。如果这些值与您的预期不一致(例如,最小年龄为 18 岁,最大年龄在 70-90 岁之间),您应该进一步调查以确定差异的原因。
分析银行数据集中分类特征的分布
数值特征对结果的影响
我们将从解决以下问题开始我们的分析:成功和不成功的营销活动的数字特征是否存在统计学上的显着差异?出于这个原因,我们将创建小提琴图,比较两种结果的数字特征分布(“是”表示成功的营销活动,“否”表示不成功的营销活动):
plt.figure(figsize=(10,18))
for index, col in enumerate(numerical_features):
    plt.subplot(5, 2, index+1)
    sns.violinplot(x=col, y="y", data=bank_data, \\
                   order=["yes", "no"])
plt.savefig("figs/violin_plots_numerical_features.png", \\
            format="png", dpi=500)数值特征分布差异的假设检验
折叠目录
逻辑回归建立关系模型
线性回归建模
完整营销活动数据的逻辑回归
创建更精简的逻辑回归模型
源代码
Last updated
Was this helpful?