🥥Python统计推断

数学知识

在概率论中，我们考虑一个样本空间 $\Omega$ ，它是所有可能结果 $\omega$ 的集合，以及它的具有 $\sigma$ -代数结构的子集的集合 $\mathcal{F}$ ，其中的元素称为事件。

定义 1.1（随机变量）。– 真正的随机变量 $X$ 是从 $\Omega$ 到 $\mathbb{R}$ 的（可测量的）应用：

$X: \omega \in \Omega \mapsto x \in \mathbb{R},\qquad(1)$

定义 1.2（离散随机变量）。– 如果随机变量$X$取其值在 $\mathbb{R}$ 的子集中，最多可数，则称其为离散变量。如果 $\left\{a_{0}, \ldots, a_{n}, \ldots\right\}$ ，其中 $n \in \mathbb{N}$ ，表示这组值，则$X$的概率分布由以下序列表征：

$p_{X}(n)=\mathbb{P}\left\{X=a_{n}\right\},\qquad(2)$

表示 $X$ 等于元素 $a_n$ 的概率。这些值使得 $0 \leq p_{X}(n) \leq 1$ 且 $\sum_{n \geq 0} p_{X}(n)=1$ 。

这导致我们得到随机变量$X$属于区间 $] a, b]$ 的概率。它由以下给出：

$\mathbb{P}\{X \in] a, b]\}=\sum_{n \geq 0} p_{X}(n) \mathbb{1}\left.\left.\left(a_{n} \in\right] a,b\right]\right),\qquad(3)$

对于 $x \in \mathbb{R}$ ，随机变量 $X$ 的累积分布函数 (cdf) 定义为：

$F_{X}(x)=\mathbb{P}\{X \leq x\}=\sum_{\left\{n: a_{n} \leq x\right\}} p_{X}(n)=\sum_{n \geq 0} p_{X}(n) \mathbb{l}\left.\left.\left(a_{n} \in\right]-\infty, x\right]\right),\qquad(4)$

它是一个单调递增函数，其中 $F_{X}(-\infty)=0$ 和 $F_{X}(+\infty)=1$ 。它的图形是一个阶梯函数，跳跃位于 $a_{n}$ 幅度为 $p_{X}(n)$ 。

定义 1.3（ $q$ 分位数）。– 第 $k$ 个 $q$ 分位数，与给定的累积函数 $F(x)$ 相关，写为：

$c_{k}=\min \{x: F(x) \geq k / q\},\qquad(5)$

其中 $k$ 从 1 到 $q-1$ 。因此， $q$ 分位数的数量是 $q-1$ 。

$q$ 分位数是将概率范围划分为等概率 1 的 $1 / q$ 个区间的限制。例如，2-分位数是中位数。

更具体地说，我们有：

定义 1.4（中值）。– 随机变量 $X$ 的中值是值 $M$ ，使得累积函数满足 $F_{X}(M)=1 / 2$ 。

以下程序执行高斯分布的 $q$ 分位数。概率密度下的每个面积等于 $1 / q$ 。

from numpy import linspace, arange
from scipy.stats import norm
from matplotlib import pyplot as plt
x = linspace(-3,3,100); y = norm.pdf(x); plt.clf(); plt.plot(x,y)
q = 5; Qqi = arange(1,q)/q; quantiles = norm.ppf(Qqi)
plt.hold(’on’)
for iq in range(q-1):
		print(’%i-th of the %i-quantiles is %4.3e’%(iq+1,q,quantiles[iq]))
		plt.plot([quantiles[iq],quantiles[iq]],[0.0,norm.pdf(quantiles[iq])],’:’)
plt.hold(’off’);plt.title(’eachareaisequalto%4.2f’%(1.0/q));
plt.show();

定义 1.5（两个离散随机变量）。– 令 $\{X, Y\}$ 为两个离散随机变量，分别具有一组值 $\left\{a_{0}, \ldots, a_{n}, \ldots\right\}$ 和 $\left\{b_{0}, \ldots, b_{k}, \ldots\right\}$ 。联合概率分布的特征是正值序列：

$p_{X Y}(n, k)=\mathbb{P}\left\{X=a_{n}, Y=b_{k}\right\},\qquad(6)$

具有 $0 \leq p_{X Y}(n, k) \leq 1$ 和 $\sum_{n \geq 0} \sum_{k \geq 0} p_{X Y}(n, k)=1$ 。

这个定义可以很容易地扩展到有限数量的随机变量的情况。

概率 1.1（边际概率分布）。——令 $\{X, Y\}$ 是两个离散的随机变量，它们的联合概率分布为 $p_{X Y}(n, k)$ 。 $X$ 和 $Y$ 各自的边际概率分布写为：

$\left\{\begin{array}{c}\mathbb{P}\left\{X=a_{n}\right\}=\sum_{k=0}^{+\infty} p_{X Y}(n, k) \\\mathbb{P}\left\{Y=b_{k}\right\}=\sum_{n=0}^{+\infty} p_{X Y}(n, k)\end{array}\right.,\qquad(7)$

定义 1.6（连续随机变量）。– 如果随机变量的值属于 $\mathbb{R}$ 并且对于任何实数 $a$ 和 $b$ ， $X$ 属于区间 $] a, b]$ 的概率由下式给出，则称该随机变量是连续的：

$\mathbb{P}\{X \in] a, b]\}=\int_{a}^{b} p_{X}(x) d x=\int_{-\infty}^{\infty} p_{X}(x)\mathbb{1}(x \in] a, b]) d x,\qquad(8)$

其中 $p_{X}(x)$ 是一个必须为正或等于 0 的函数，这样 $\int_{-\infty}^{+\infty} p_{X}(x) d x=1$ 。 $p_{X}(x)$ 称为 $X$ 的概率密度函数 (pdf)。

对于任何 $x \in \mathbb{R}$ ，随机变量 $X$ 的累积分布函数 (cdf) 定义为：

$F_{X}(x)=\mathbb{P}\{X \leq x\}=\int_{-\infty}^{x} p_{X}(u) d u,\qquad(9)$

它是一个单调递增函数，其中 $F_{X}(-\infty)=0$ 和 $F_{X}(+\infty)=1$ 。请注意， $p_{X}(x)$ 也表示 $F_{X}(x)$ 对 $x$ 的导数。

统计推理

隐马尔可夫模型推理

蒙特卡罗方法

🏈指点迷津 | Brief

PreviousPython数字信号处理 NextPython可视化和动画模拟物理

Last updated 2 years ago

Was this helpful?