: 文字集合+符号化 = 符号化文字集合
: 符号化文字集合
- ASCIIコード(American Standard Code for Information
Interchange)
- 7ビットの符号化文字集合。
- 黄色いテキストの p.63 参照。
- 制御コード, 記号, 数字, ラテン文字アルファベット(大文字・
小文字) からなる。
- 古いものから最新のものまで、ほとんどどんなコンピュータでも
使える。
- ASCIIとほぼ同等の日本の規格として『JIS X 0201』 がある。
- ASCII の 92番の符号の文字は『\』だが、
JIS X 0201 では『¥』になる。(つまりASCII と JIS X 0201 で
は文字集合が微妙に違う)
- Shift_JIS
- 多くのパソコンで用いられる、日本語の符号化文字集合。Windows もファ
イルに保存する場合など、だいたいデフォルトは Shift_JIS
3 。
- 1バイト(8ビット)もしくは2バイト(16ビット)で1文字を表す。
- ASCII に対して上位互換。
- 『生体』= 90, b6, 91, cc
- ISO-2022-JP
- 電子メイル等、インターネット上に日本語メッセージを流す際に用いら
れる符号化文字集合。
- 俗に言うJISコードはこれ。
- ASCII に対して上位互換。
- 『生体』= 1b, 24, 42, 40, 38, 42, 4e, 1b, 28, 42
- EUC-JP
- UNIX で日本語を扱う際に広く用いられる符号化文字集合。
- ASCII に対して上位互換。
- 『生体』= c0, b8, c2, ce
- UTF-8
- Unicode という文字コードの符号化方法の一種。(Unicode は符号化方式
が複数ある。例えば UTF-16, UTF-32。)
- 一文字を1〜4バイトで表す。
- Windows の内部で用いられている。
- 世界中のすべての文字を取り込んだ共通の符号化文字集合(一応)。
- ASCII に対して上位互換。
- 『生体』= e7, 94, 9f, e4, bd, 93
Hiroyuki Kobayashi
平成19年6月14日