🥭Python构建统计学逻辑
Python | 统计 | 逻辑 | 线性代数 | 线性回归 | 分类 | 正则化 | 非线性回归 | 决策树 | 支持向量机 | 非监督学习
线性代数
涉及主题:学习逆矩阵、行列式、线性独立、向量空间及其维数、特征值和特征向量、正交基和正交矩阵,以及对角化对称矩阵。
线性回归
涉及主题:单个协变量(单回归)的最小二乘法,然后将其扩展到多个协变量(多元回归)。基于从数据中估计参数的统计概念,找到通过最小二乘法获得的系数(估计值)的分布。 因此,我们提出了一种方法来估计估计的置信区间并测试每个真实系数是否为零。 此外,我们提出了一种寻找可能被删除的冗余协变量的方法。 最后,我们考虑获得用于估计的数据集之外的新数据响应的置信区间
分类
涉及主题:考虑构建一个从协变量到响应的分类规则,该响应从有限集合中获取值,例如 ±1,数字 0、1、···、9。例如,我们希望从手写体中对邮政编码进行分类字符并在它们之间制定规则。首先,在基于训练数据构建分类器后,我们考虑逻辑回归以最小化测试数据中的错误率。第二种方法是使用线性和二次鉴别器以及 k-最近邻算法绘制将响应区域分开的边界。线性和二次判别分别绘制线性和二次边界,并且都引入了先验概率的概念以最小化平均错误概率。 k-最近邻方法比线性和二次鉴别器更灵活地搜索边界。另一方面,我们考虑了两种风险的平衡,例如将病人归类为健康人,将健康人归类为不健康人。特别是,我们考虑了一种替代方法,而不是最小化平均错误概率。
取样
涉及主题:首先了解交叉验证,这是一种不受过拟合影响的评估学习性能的方法。此外,用于学习的数据是随机选择的,即使数据遵循相同的分布,学习结果也可能存在显着差异。在某些情况下,可以评估估计值的置信度和方差,如线性回归的情况。学习如何评估学习结果的离散性,称为自举。
信息标准
涉及主题:学习如何推导和应用”赤池信息准则”和”贝叶斯信息准则”,它们评估数据的统计模型并平衡适用性和简单性。
正则化
涉及主题:在线性回归的情况下,在平方误差中添加一个惩罚项,以防止系数值增加。当正则化项是常数 λ 乘以系数的 L1 和 L2 范数时,该方法分别称为 lasso 和 ridge。在 lasso 的情况下,随着常数 λ 的增加,一些系数变为 0;最后,当 λ 为无穷大时,所有系数都变为 0。从这个意义上说,套索起到了模型选择的作用。考虑 lasso 的原理并将其与 ridge 进行比较。最后,学习如何选择常数 λ。
非线性回归
涉及主题:考虑协变量和响应之间的关系不是线性的非线性情况。考虑一个统一的框架(广义加法模型)和反向拟合。
决策树
涉及主题:估计协变量与观测数据的响应之间的关系来构建决策树
支持向量机
涉及主题:只考虑二分类的情况
非监督学习
涉及主题:考虑聚类和主成分分析
Last updated