之前看了可视化的线性代数和可视化的高等数学,遂找找看看有没有可视化的概率论,果然找到了看见统计!同时发现了一个在 RStudio 工作大牛。
知识结构
- 基础概率论
- 随机变量:未知事件的可能结果
- 随机变量的期望
- 随机变量的方差
- 进阶概率论
- 集合论:把所有随机变量看作随机结果的集合。
- 古典概型:古典概型本质上就是数数。但是要数清符合某些复杂性质的事件的个数也变得复杂。
- 条件概率:可以让我们利用已有信息。利用已有信息把样本空间缩小到一个我们已知信息的事件。
- 概率分布
- 随机变量:随机变量是一个函数,不过事件结果变成了某个数字。
- 离散型随机变量
- 概率质量函数 f(x)
- 分布函数 F(x),是 f(x)的积分
- 伯努利分布 Bernouli
- 随机变量 X 取 0 或 1
- 一个参数 p
- 期望
p
,方差p(1-p)
- 二项分布 Binomial
- 随机变量 X 是 n 个参数为 p 的独立伯努利随机变量之和
- 两个参数 n,p
- 期望
np
,方差np(1-p)
- 是伯努利分布的“积分”
- 期望和方差都是伯努利分布对应值乘以
n
- 几何分布 Geometric
- 随机变量表示了在重复独立同分布的伯努利试验中获得一次成功所需要的试验次数
- 一个参数 p
- 期望
1/p
,方差(1-p)/p^2
- 二项分布值为 1 时,自变量 n 的值
- 期望和方差都是二项分布的对应值乘以
1/(np^2)
- 泊松分布 Poisson ?
- 表示了一个事件在固定时间或者空间中发生的次数
- 一个参数,单位求和域内发生的频率 λ
- 期望
λ
,方差λ
- 已知单位时空内二项分布的值,推广到所有时空的二项分布
- 负二项分布 Negative Binomial
- 随机变量表示的是若干独立同分布的参数为 p 的伯努利试验中获得 r 次失败前成功的次数
- 两个参数 p 和 r
- 期望
pr/(1-p)
,方差pr/(1-p)^2
- 是 n-Binomial(p)这个分布的几何分布,可以看做是试验次数 n 和二项分布的线性组合,然后做几何分布变换(线性代数入了魔)
- 期望和方差都是二项分布对应值用 r 替代 n,再乘以
1/(1-p)
- 连续性随机变量
- 均匀分布 Uniform
- 区间内随机变量值相等
- 两个参数,分布区间端点 a 和 b
- 类比于伯努利分布
- 正态分布 Normal
- 也叫高斯分布
- 科学中常用正态分布来模拟许多小效应的叠加。
- 类比于二项分布
- 两个参数,极值中心点和聚合度
- 学生 t 分布 Student T ?
- 学生 t 分布(也称 t 分布)往往在估计正态总体期望时出现。当我们只有较少的样本和未知的方差时,许多大样本性质并不适用,此时我们则需要用到 t 分布。
- 一个参数 k
- 卡方分布 Chi Squared ?
- 如果随机变量 X 是 k 个独立的标准正态随机变量的平方和,则称 X 是自由度为 k 的卡方随机变量:X∼χ2k. 卡方分布常见于假设检验和构造置信区间.
- 一个参数,自由度 k
- 指数分布 Exponential
- 指数分布可以看作是几何分布的连续版本,其常用于描述等待时间。
- 一个参数,同几何分布
- F 分布 F ?
- Fisher–Snedecor 分布常在假设检验中出现,一个比较有名的例子是方差分析。
- Gamma 分布 Gamma
- Gamma 分布是一组连续型概率密度。指数分布和卡方分布是 Gamma 分布的两个特殊情形。
- 可以看做指数分布和卡方分布的推广
- 两个参数,自由度 k 和偏离度 theta
- Beta 分布 Beta
- 均匀分布的特例,区间是
[0, 1]
- 常用于贝叶斯统计中的共轭先验分布。
- 均匀分布的特例,区间是
- 中心极限定理?
- 对于一个(性质比较好的)分布,如果我们有足够大的独立同分布的样本,其样本均值(作为随机变量)会(近似地)呈正态分布。
- 样本数量越大,其分布与正态越接近。
- 均匀分布 Uniform
- 统计推断
- 频率学派
- 统计学中一个主要的问题是估计参数。
- 点估计
- 我们用一个取值为样本的函数来估计我们感兴趣的参数,并称这个函数为估计量。
- 这个估计量有良好的性质:无偏性和相合性。
- 区间估计
- 置信区间
- Bootstrap 方法?
- 许多频率学派的统计推断侧重于使用一些“性质比较良好”的估计量。但是我们知道这些统计量本身是样本的函数,因此往往比较难分析它们自己的概率分布。而 Bootstrap 方法则给我们提供了一种方便的近似确定估计量性质的方法。
- 步骤
- 假设我们现在有 n 个独立的样本 X1,…,Xn,基于这些样本我们就有了一个经验分布函数 Fn(x)
- 我们可以重复根据这个经验分布函数生成样本,利用这些新的样本来估计元样本均值的标准差。
- 也就是用抽样的多次重复抽样的均值分布来估计抽样的标准差。也就是中心极限定理的应用。
- 点估计
- 统计学中一个主要的问题是估计参数。
- 贝叶斯学派
- 核心思想是用已知信息更新特定假设的概率。
- 在病患检查出阳性的场景中
- 健康 p1
- 阴性|健康 p2
- 阳性|非健康 p3
- 存在这三种独立概率,这里的概率取值都取比较大的值,也就是健康率和正确诊断率
- 最后阳性结果概率是
p4 = p1*(1-p2)+(1-p1)p3
- 真正患病概率是
p5 = (1-p1)*p3
- 结果可信度是
p5/p4
- 似然函数?
- 从先验概率到后验概率?
- 频率学派
- 回归分析
- 最小二乘法
- 安斯库姆四重奏 - 维基百科 说明了在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。
- 残差平方和 SSE(sum of squared error)
- 均方差 MSE(mean squared error)
- 相关性
- 相关性 r 在
[-1, 1]
区间内 - 相关性矩阵
- 相关性 r 在
- 方差分析
- 方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将 t 检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。
- 重点比较组间误差和随机误差
- 最小二乘法
贝叶斯公式图示
得病为大红色,健康为蓝色,诊断结果为阳性有病的是粉红色。在根据总体真实患病数据后,计算而得的诊断结果为阳性的真实患病率就是
%=粉红色与大红色重叠部分/全部粉红色
不过这里把上面说的 p2 和 p3 看做是相等的。图示结论是罕见病在阳性情况下,其实没得病的概率比较高。