数学知识
在概率论中,我们考虑一个样本空间Ω \Omega Ω ,它是所有可能结果ω \omega ω 的集合,以及它的具有σ \sigma σ -代数结构的子集的集合F \mathcal{F} F ,其中的元素称为事件。
定义 1.1(随机变量)。– 真正的随机变量X X X 是从Ω \Omega Ω 到R \mathbb{R} R 的(可测量的)应用:
X : ω ∈ Ω ↦ x ∈ R , ( 1 ) X: \omega \in \Omega \mapsto x \in \mathbb{R},\qquad(1) X : ω ∈ Ω ↦ x ∈ R , ( 1 )
定义 1.2(离散随机变量)。– 如果随机变量$X$取其值在R \mathbb{R} R 的子集中,最多可数,则称其为离散变量。 如果{ a 0 , … , a n , … } \left\{a_{0}, \ldots, a_{n}, \ldots\right\} { a 0 , … , a n , … } ,其中n ∈ N n \in \mathbb{N} n ∈ N ,表示这组值,则$X$的概率分布由以下序列表征:
p X ( n ) = P { X = a n } , ( 2 ) p_{X}(n)=\mathbb{P}\left\{X=a_{n}\right\},\qquad(2) p X ( n ) = P { X = a n } , ( 2 )
表示X X X 等于元素a n a_n a n 的概率。 这些值使得0 ≤ p X ( n ) ≤ 1 0 \leq p_{X}(n) \leq 1 0 ≤ p X ( n ) ≤ 1 且∑ n ≥ 0 p X ( n ) = 1 \sum_{n \geq 0} p_{X}(n)=1 ∑ n ≥ 0 p X ( n ) = 1 。
这导致我们得到随机变量$X$属于区间] a , b ] ] a, b] ] a , b ] 的概率。 它由以下给出:
P { X ∈ ] a , b ] } = ∑ n ≥ 0 p X ( n ) 1 ( a n ∈ ] a , b ] ) , ( 3 ) \mathbb{P}\{X \in] a, b]\}=\sum_{n \geq 0} p_{X}(n) \mathbb{1}\left.\left.\left(a_{n} \in\right] a,b\right]\right),\qquad(3) P { X ∈ ] a , b ]} = ∑ n ≥ 0 p X ( n ) 1 ( a n ∈ ] a , b ] ) , ( 3 )
对于x ∈ R x \in \mathbb{R} x ∈ R ,随机变量X X X 的累积分布函数 (cdf) 定义为:
F X ( x ) = P { X ≤ x } = ∑ { n : a n ≤ x } p X ( n ) = ∑ n ≥ 0 p X ( n ) l ( a n ∈ ] − ∞ , x ] ) , ( 4 ) F_{X}(x)=\mathbb{P}\{X \leq x\}=\sum_{\left\{n: a_{n} \leq x\right\}} p_{X}(n)=\sum_{n \geq 0} p_{X}(n) \mathbb{l}\left.\left.\left(a_{n} \in\right]-\infty, x\right]\right),\qquad(4) F X ( x ) = P { X ≤ x } = ∑ { n : a n ≤ x } p X ( n ) = ∑ n ≥ 0 p X ( n ) l ( a n ∈ ] − ∞ , x ] ) , ( 4 )
它是一个单调递增函数,其中F X ( − ∞ ) = 0 F_{X}(-\infty)=0 F X ( − ∞ ) = 0 和F X ( + ∞ ) = 1 F_{X}(+\infty)=1 F X ( + ∞ ) = 1 。 它的图形是一个阶梯函数,跳跃位于a n a_{n} a n 幅度为p X ( n ) p_{X}(n) p X ( n ) 。
定义 1.3(q q q 分位数)。– 第k k k 个q q q 分位数,与给定的累积函数F ( x ) F(x) F ( x ) 相关,写为:
c k = min { x : F ( x ) ≥ k / q } , ( 5 ) c_{k}=\min \{x: F(x) \geq k / q\},\qquad(5) c k = min { x : F ( x ) ≥ k / q } , ( 5 )
其中k k k 从 1 到 q − 1 q-1 q − 1 。因此,q q q 分位数的数量是q − 1 q-1 q − 1 。
q q q 分位数是将概率范围划分为等概率 1 的 1 / q 1 / q 1/ q 个区间的限制。例如,2-分位数是中位数。
更具体地说,我们有:
Copy from numpy import linspace, arange
from scipy.stats import norm
from matplotlib import pyplot as plt
x = linspace(-3,3,100); y = norm.pdf(x); plt.clf(); plt.plot(x,y)
q = 5; Qqi = arange(1,q)/q; quantiles = norm.ppf(Qqi)
plt.hold(’on’)
for iq in range(q-1):
print(’%i-th of the %i-quantiles is %4.3e’%(iq+1,q,quantiles[iq]))
plt.plot([quantiles[iq],quantiles[iq]],[0.0,norm.pdf(quantiles[iq])],’:’)
plt.hold(’off’);plt.title(’eachareaisequalto%4.2f’%(1.0/q));
plt.show();
这个定义可以很容易地扩展到有限数量的随机变量的情况。
统计推理
隐马尔可夫模型推理
蒙特卡罗方法