next up previous
: 原理と方法 : ハフマン符号 : ハフマン符号

目的

例えば A, G, C, T の4文字からなるメッセージを2進数で記録したいとする。

  1. もっとも素直に考えるなら
    文字 A G C T
    符号 00 01 10 11
    が良いだろう。どんな文章が出てくるか見当もつかない(文字の出現確率が不明 な)ときは有効な方法である。
  2. もし『A』 が圧倒的にたくさん出て、その次に『G』が頻出して、 『C』と『T』は滅多に現れないことがわかっていれば
    文字 A G C T
    符号 0 10 110 111
    こうした方が効率が良さそう(少ないビット数でメッセージを書けそう)だ。
これを最適に行う符号をハフマン符号(Huffman encoding)という。



Hiroyuki Kobayashi 平成25年12月23日