信息论可视化

发布于 2020-04-06 17:27:27

以下是文章Visual Information Theory的概要。

概率

独立交叉概率

非独立交叉概率

贝叶斯定理

  • 条件概率
  • 贝叶斯定理

编码

  • 等长编码
  • 变长编码
    • 前缀编码
    • 最佳编码:根据出现频率,使用不同的代价(price),换取更短的编码长度
      • 平均编码长度贡献 = 出现概率p(x) * 长度L(x)
      • 最佳编码是经济上稳定的,产出/投入达到最大

熵(entropy)的计算

image-20200406170730952

交叉熵、相对熵

  • **交叉熵(cross-entropy)**不是对称的
  • 相对熵,KL divergence,KL散度。用来度量两个概率分布的距离。

联合熵、边际熵

  • 当多变量的分布碾平成一个分布时,它的熵叫做多变量的联合熵(joint entropy),记作H(X, Y)
  • 边际熵(marginal entropy),记作H(X)。标明的是多个联合变量里,单个变量的总体概率分布的熵。

条件熵

互信息、变化信息

  • 互信息:熵的一种,表明的是两个边际熵的重叠部分,记作I(X, Y)

小数信息位

  • 时间平均后出来的小数位
  • 传输信息本身就是概率,所以会有小数位
    • 概率编码后数字化
  • 霍夫曼编码:达到最优编码的一种无损压缩算法
  • 算术编码:是一种无损数据压缩方法,也是一种熵编码的方法。和其它熵编码方法不同的地方在于,其他的熵编码方法通常是把输入的消息分割为符号,然后对每个符号进行编码,而算术编码是直接把整个输入的消息编码为一个数,一个满足(0.0 ≤ n < 1.0)的小数n。

结论

  • 应用
    • 信息传输
    • 数据压缩
    • 机器学习:统计分类结果的置信度
    • 量子物理
    • 遗传学
    • 热力学
    • 赌博
    • 好奇心
  • 错误纠正编码
comments powered by Disqus