🫑统计学Python计算工具
Python | 统计学 | 描述性统计 | 随机数据 | 离散分布 | 联合分布 | 连续分布 | 边际分布 | 条件分布 | 多元分布 | 样本近似 | 正态样本统计 | 点估计 | 置信区间 | 公差区间 | 概率图 | 拟合优度 | 贝叶斯决策 | 自举 | 多维度 | 相关性 | 回归 | 量子响应 | 逻辑回归 | 均值比较 | 文本分析 | 因果关系
分析统计变异性和随机数据
随机现象和观察结构、测量的准确度和精密度、总体和样本、样本值的描述性分析、预测区间、密度图、箱须图、分位数图和茎叶图
问题计算
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
def trim_std(data, alpha):
data = np.array(data)
data.sort()
n = len(data)
low = int(n * alpha) + 1
high = int(n * (1 - alpha))
return data[low:(high + 1)].std()
问题1:在当前问题中,我们需要从集合 {1, 2, 3, 4, 5, 6} 中随机生成 50 个整数。 为此,我们可以使用 random 包中的 random.choices 方法.
import random
random.seed(1)
values = random.choices([1, 2, 3, 4, 5, 6], k=50)
from collections import Counter
Counter(values)
Counter({2: 10, 3: 10, 1: 9, 6: 9, 5: 8, 4: 4})
问题4:以下是物体重量的两组测量结果,分别对应两种不同的称重仪器。 该物体的真实重量为 10 公斤。
仪器1测量:
9.49095010.45892611.2653519.74257910.4368139.2470977.95610710.4280919.6813578.28704510.16661010.99608310.14541410.80080510.22610111.3739819.37290510.2537419.37290510.199018
仪器2测量:
11.77148610.50569011.25054610.72917410.6976939.95855710.19589411.02762210.68721210.93835011.80403811.09756711.71833411.82509911.67609911.30855610.67720610.58390710.95764010.249831
哪种仪器似乎更准确? 哪种仪器似乎更精确?
inst1 = [9.490950, 10.436813, 9.681357, 10.996083, 10.226101, 10.253741,
10.458926, 9.247097, 8.287045, 10.145414, 11.373981, 10.144389,
11.265351, 7.956107, 10.166610, 10.800805, 9.372905, 10.199018,
9.742579, 10.428091]
inst2 = [11.771486, 10.697693, 10.687212, 11.097567, 11.676099,
10.583907, 10.505690, 9.958557, 10.938350, 11.718334,
11.308556, 10.957640, 11.250546, 10.195894, 11.804038,
11.825099, 10.677206, 10.249831, 10.729174, 11.027622]
ax = pd.Series(inst1).plot(marker='o', linestyle='none',
fillstyle='none', color='black')
pd.Series(inst2).plot(marker='+', linestyle='none', ax=ax,
fillstyle='none', color='black')
plt.show()
print('mean inst1', np.mean(inst1))
print('stdev inst1', np.std(inst1, ddof=1))
print('mean inst2', np.mean(inst2))
print('stdev inst2', np.std(inst2, ddof=1))
mean inst1 10.03366815
stdev inst1 0.8708144577963102
mean inst2 10.98302505
stdev inst2 0.5685555119253366
随机抽样概率模型
随机变量及其分布、离散分布族、连续分布、联合分布、边际分布和条件分布、多元分布、大样本近似值、正态样本统计量的其他分布
统计推断和自举
点估计的一些方法、置信区间 、公差区间、用概率图检验正态性、拟合优度检验、贝叶斯决策程序、从参考分布中随机采样、自举抽样、假设的自举测试、自举容差区间、非参数检验
多维和回归模型的变异性
图形显示与分析、多维度的频率分布、相关性和回归分析、多重回归、量子响应分析:逻辑回归、方差分析:均值比较、同时置信区间:多重比较、列联表、分类数据分析
有限总体数量估计抽样
抽样和估计问题、使用简单随机样本进行估计、使用分层 RSWOR 估计平均值、比例优化配置、具有已知协变量的预测模型
时间序列分析与预测
时间序列的组成部分、协方差平稳时间序列、协方差平稳时间序列的线性预测器、非平稳时间序列的预测因子、动态线性模型
监督和无监督学习方法
确定模型性能、决策树、集成模型、朴素贝叶斯分类器、神经网络、聚类方法
数据分析、文本分析、强化学习、贝叶斯网络和因果关系模型
功能数据分析、文本分析、贝叶斯网络、因果关系模型
Last updated