🥥Python统计推断
Python | 数学 | 统计 | 隐马尔可夫 | 蒙特卡洛方法 | 降维 | 假设检验 | 统计估计 | 卡尔曼滤波器
数学知识
在概率论中,我们考虑一个样本空间Ω,它是所有可能结果ω的集合,以及它的具有σ-代数结构的子集的集合F,其中的元素称为事件。
定义 1.1(随机变量)。– 真正的随机变量X是从Ω到R的(可测量的)应用:
X:ω∈Ω↦x∈R,(1)
定义 1.2(离散随机变量)。– 如果随机变量$X$取其值在R的子集中,最多可数,则称其为离散变量。 如果{a0,…,an,…},其中n∈N,表示这组值,则$X$的概率分布由以下序列表征:
pX(n)=P{X=an},(2)
表示X等于元素an的概率。 这些值使得0≤pX(n)≤1且∑n≥0pX(n)=1。
这导致我们得到随机变量$X$属于区间]a,b]的概率。 它由以下给出:
P{X∈]a,b]}=∑n≥0pX(n)1(an∈]a,b]),(3)
对于x∈R,随机变量X的累积分布函数 (cdf) 定义为:
FX(x)=P{X≤x}=∑{n:an≤x}pX(n)=∑n≥0pX(n)l(an∈]−∞,x]),(4)
它是一个单调递增函数,其中FX(−∞)=0和FX(+∞)=1。 它的图形是一个阶梯函数,跳跃位于an幅度为pX(n)。
定义 1.3(q分位数)。– 第k个q分位数,与给定的累积函数F(x)相关,写为:
ck=min{x:F(x)≥k/q},(5)
其中k从 1 到 q−1。因此,q分位数的数量是q−1。
q 分位数是将概率范围划分为等概率 1 的 1/q 个区间的限制。例如,2-分位数是中位数。
更具体地说,我们有:
定义 1.4(中值)。– 随机变量 X 的中值是值 M,使得累积函数满足 FX(M)=1/2 。
以下程序执行高斯分布的 q分位数。 概率密度下的每个面积等于 1/q。
from numpy import linspace, arange
from scipy.stats import norm
from matplotlib import pyplot as plt
x = linspace(-3,3,100); y = norm.pdf(x); plt.clf(); plt.plot(x,y)
q = 5; Qqi = arange(1,q)/q; quantiles = norm.ppf(Qqi)
plt.hold(’on’)
for iq in range(q-1):
print(’%i-th of the %i-quantiles is %4.3e’%(iq+1,q,quantiles[iq]))
plt.plot([quantiles[iq],quantiles[iq]],[0.0,norm.pdf(quantiles[iq])],’:’)
plt.hold(’off’);plt.title(’eachareaisequalto%4.2f’%(1.0/q));
plt.show();
定义 1.5(两个离散随机变量)。– 令 {X,Y} 为两个离散随机变量,分别具有一组值 {a0,…,an,…} 和 {b0,…,bk,…}。 联合概率分布的特征是正值序列:
pXY(n,k)=P{X=an,Y=bk},(6)
具有0≤pXY(n,k)≤1和∑n≥0∑k≥0pXY(n,k)=1。
这个定义可以很容易地扩展到有限数量的随机变量的情况。
概率 1.1(边际概率分布)。——令 {X,Y}是两个离散的随机变量,它们的联合概率分布为 pXY(n,k)。 X 和 Y 各自的边际概率分布写为:
{P{X=an}=∑k=0+∞pXY(n,k)P{Y=bk}=∑n=0+∞pXY(n,k),(7)
定义 1.6(连续随机变量)。– 如果随机变量的值属于 R 并且对于任何实数 a 和 b,X 属于区间 ]a,b] 的概率由下式给出,则称该随机变量是连续的 :
P{X∈]a,b]}=∫abpX(x)dx=∫−∞∞pX(x)1(x∈]a,b])dx,(8)
其中 pX(x) 是一个必须为正或等于 0 的函数,这样 ∫−∞+∞pX(x)dx=1。 pX(x) 称为 X 的概率密度函数 (pdf)。
对于任何 x∈R,随机变量 X 的累积分布函数 (cdf) 定义为:
FX(x)=P{X≤x}=∫−∞xpX(u)du,(9)
它是一个单调递增函数,其中 FX(−∞)=0 和 FX(+∞)=1。 请注意,pX(x) 也表示 FX(x) 对 x 的导数。
统计推理
隐马尔可夫模型推理
蒙特卡罗方法
Last updated