要开始实际的数据分析,我们需要导入一些必要的包。由于其中一个包需要安装,第一步是在 Anaconda Prompt 中运行以下命令:要开始实际的数据分析,我们需要导入一些必要的包。由于其中一个包需要安装,第一步是在 Anaconda Prompt 中运行以下命令:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn import preprocessing
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings("ignore")
df= pd.read_csv("<https://mycontent.com/>"\\
"tdw"\\
"shopping.csv")
df.head()
在您的典型数据科学项目中,您的大部分时间将花在调查数据以发现隐藏的模式和异常值上,通常是通过将它们绘制在可视化中。此过程称为探索性数据分析 (EDA),通过汇总统计数据,您可以发现底层数据结构并测试您的假设。
sns.countplot(df['Weekend'])
plt.title('Weekend Session Distribution', fontsize = 20)
plt.show()
sns.countplot(df['Browser'])
plt.title('Browser wise session Distribution', fontsize = 20)
plt.show()