在此,我们将分析影响购买者决定的各种因素。
导入数据
要开始实际的数据分析,我们需要导入一些必要的包。由于其中一个包需要安装,第一步是在 Anaconda Prompt 中运行以下命令:要开始实际的数据分析,我们需要导入一些必要的包。由于其中一个包需要安装,第一步是在 Anaconda Prompt 中运行以下命令:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn import preprocessing
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings("ignore")
df= pd.read_csv("<https://mycontent.com/>"\\
"tdw"\\
"shopping.csv")
df.head()
探索性数据分析
在您的典型数据科学项目中,您的大部分时间将花在调查数据以发现隐藏的模式和异常值上,通常是通过将它们绘制在可视化中。此过程称为探索性数据分析 (EDA),通过汇总统计数据,您可以发现底层数据结构并测试您的假设。
我们可以将探索性数据分析分为三个部分:
单变量分析
分析网站上客户会话的分布
您将考虑客户在一周的几天内的分布,以确定客户是在周末还是工作日更活跃。使用 seaborn 为 DataFrame 的周末列绘制计数图
sns.countplot(df['Weekend'])
plt.title('Weekend Session Distribution', fontsize = 20)
plt.show()
分析客户的浏览器和操作系统分布
使用 DataFrame 的 Browser 列绘制计数图:
sns.countplot(df['Browser'])
plt.title('Browser wise session Distribution', fontsize = 20)
plt.show()
折叠目录
双变量分析
收入与访客类型
收入与流量类型
分析收入与其他变量之间的关系
线性关系
跳出率与退出率
页面价值与跳出率
页面价值与退出率
管理页面浏览量和管理页面浏览持续时间对收入的影响
信息页面浏览量和信息页面浏览时长对收入的影响
聚类
最佳聚类数的方法
对信息持续时间与跳出率执行 K-means 聚类
对管理持续时间与跳出率和管理持续时间与退出率执行 K-means 聚类
源代码