🫑Python验证厚尾数据遵循幂律分布
Last updated
Last updated
Python | 厚尾数据 | 幂律 | 对数正态分布 | 对数方法 | 概率密度分布 PDF | 线性方程 | 最大似然 | NumPy | Pandas | Matplotlib | 直方图 | 统计
统计学是数据科学和分析的基石。 它为我们提供了一个强大的工具箱来客观地回答复杂的问题。 然而,许多我们最喜欢的统计工具在应用于特定类别的数据(幂律)时变得毫无用处。
scipy.stats.powerlaw() 是幂函数连续随机变量。它作为 rv_continuous 类的实例从泛型方法继承。它使用特定于此特定发行版的详细信息来完成方法。
代码片段-1:创建幂函数连续随机变量
# importing library
from scipy.stats import powerlaw
numargs = powerlaw.numargs
a, b = 4.32, 3.18
rv = powerlaw(a, b)
print ("RV : \n", rv)
输出:
RV :
scipy.stats._distn_infrastructure.rv_frozen object at 0x000002A9D8295B48
代码片段-2:幂函数连续变量和概率分布
import numpy as np
quantile = np.arange (0.01, 1, 0.1)
# Random Variates
R = powerlaw.rvs(a, b)
print ("Random Variates : \n", R)
# PDF
R = powerlaw.pdf(a, b, quantile)
print ("\nProbability Distribution : \n", R)
输出:
Random Variates :
3.860143037448123
Probability Distribution :
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
代码片段-3:图形表示
import numpy as np
import matplotlib.pyplot as plt
distribution = np.linspace(0, np.minimum(rv.dist.b, 3))
print("Distribution : \n", distribution)
plot = plt.plot(distribution, rv.pdf(distribution))
输出:
Distribution :
[0. 0.02040816 0.04081633 0.06122449 0.08163265 0.10204082
0.12244898 0.14285714 0.16326531 0.18367347 0.20408163 0.2244898
0.24489796 0.26530612 0.28571429 0.30612245 0.32653061 0.34693878
0.36734694 0.3877551 0.40816327 0.42857143 0.44897959 0.46938776
0.48979592 0.51020408 0.53061224 0.55102041 0.57142857 0.59183673
0.6122449 0.63265306 0.65306122 0.67346939 0.69387755 0.71428571
0.73469388 0.75510204 0.7755102 0.79591837 0.81632653 0.83673469
0.85714286 0.87755102 0.89795918 0.91836735 0.93877551 0.95918367
0.97959184 1. ]
代码片段-4:不同的位置参数
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 5, 100)
# Varying positional arguments
y1 = powerlaw .pdf(x, 1, 3, 5)
y2 = powerlaw .pdf(x, 1, 4, 4)
plt.plot(x, y1, "*", x, y2, "r--")
在这里,我们将使用Python 库,确定数据集是否真正遵循幂律分布。