🧄Python概率理论和时间序列分析共享交通工具数据
Python | 概率 | 时间序列 | 共享 | 数据可视化 | 假设检验 | 时间特征 | 天气条件 | Pandas | seaborn | Matplotlib | NumPy | 自回归综合移动平均线 | 皮尔逊相全性 | 斯皮尔曼相全性 | 残差分量
分析共享单车服务的数据,以及如何根据时间特征和天气条件识别使用模式。 此外,将对可用数据应用可视化分析、假设检验和时间序列分析等概念。
从公司的角度来看,在特定时间范围内确定特定区域的预期自行车需求可以显着提高收入和客户满意度。 此外,可以优化自行车搬迁以进一步降低运营成本。 从用户的角度来看,最重要的因素可能是在最短的等待时间内提供自行车。
请注意,尽管进行的分析与共享单车有关,但所提供的技术可以很容易地转移到其他类型的共享业务模式,例如汽车或电瓶车共享。
导入数据
首先,我们加载数据并对其进行初步探索。
# imports
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
# load hourly data
hourly_data = pd.read_csv('<https://mycontent.com/>'\\
'Workshops/'\\
'tdAnalysis/'\\
'/data/hour.csv')# print some generic statistics about the data
print(f"Shape of data: {hourly_data.shape}")
print(f"Number of missing values in the data:\\
{hourly_data.isnull().sum().sum()}")Shape of data: (17379, 17)
Number of missing values in the data: 0# get statistics on the numerical columns
hourly_data.describe().T数据预处理
在此,我们将执行一些预处理步骤,这将使我们能够将数据转换为更易于读取的格式。 请注意,数据预处理和整理是数据分析中最重要的部分之一。 事实上,当数据以正确的方式转换时,可能会出现许多隐藏的模式和关系。
折叠目录
预处理时间和天气特征
分析季节性因素影响骑行
假设检验
估计平均登记骑行
假设检验登记骑行
天气相关特征分析
评估皮尔逊和斯皮尔曼相关性之间的差异
时间序列分析
趋势、季节性和残差分量中的时间序列分解
自回归综合移动平均线模型
源代码
Last updated
Was this helpful?