HTMLドキュメントに日本語を使う場合、文字(漢字)コードの問題があります。
文字コードには、パソコンで使われるシフトJISコード、 UNIX系で使われる EUC-JPコード、 E-mailで使われる 7ビットJIS コードなどがありますが、インターネットで最も一般的に使用されているのが、 E-mailで使用する ISO-2022-JP というキャラクターセットを使った、 7ビットJIS コードです。
| 漢字コード | 文字セット | 備考 | ISO-2022-JP (7ビットJIS) | ISO-2022-JP | 最も一般的です |
|---|---|---|
| シフトJIS | Shift_JIS | パソコンで使用 |
| EUC-JP | EUC-JP | UNIX系で使用 |
訂正
テーブルの文字セットの表記を
Visitorの方から、シフト JIS, EUC共に IANA (Internet Assigned Numbers Authority) に登録されているとの指摘をいただき、確認した結果です。
参考
文字化けの経験は誰もがあると思いますが、
.................... EUCコードとシフトJISコードは誤認識しやすく、文字化けの原因となってます。なるべくなら nkf (UNIX,DOS,OS/2 etc), qkc (DOS), ページブラウザ (Windows)などの変換ツールで変換しておくと良いでしょう。他の OSでもそれらの変換ツールが存在する筈です。 CGIスクリプトでは EUCを使わないとエラーが発生する場合があります。また、 Chimeraや Mosaic等、シフト JISを変換表示できないブラウザも少数ながら存在します。
今のところ日本語でページを作る場合は、
<meta http-equiv="Content-Type" content="text/html; charset=iso-2022-jp">
文芸批評家の加藤弘一氏が主宰する「ほら貝」サイトの「文字コード問題を考える」には日本語の文字コードについて、あるいは、文字コードの成立に関する歴史的な背景も含めて豊富な情報が整理されて提供されています。漢字のコード化に興味のある方には必見のサイトです。
-------- ISO 2022JPは、頭に「ISO」とあるので、ISOが決めた規格のように思うかもしれませんが、実は ISOの規格ではありません。
ISO 2022JPは、日本のインターネットの前身というべき JUNET (Japanese University/Unix NETwork)で使われていた JUNETコード(ISO 2022を日本語用に簡略化したもの)を改良したもので、 1993年に、村井純氏により、 RFC1468として提案されています。--------
ISO-2022-JP <meta http-equiv="Content-Type" content="text/html; charset=iso-2022-jp"> SHIFT JIS <meta http-equiv="Content-Type" content="text/html; charset=x-sjis"> EUC-JP <meta http-equiv="Content-Type" content="text/html; charset=x-euc-jp">というふうに、文字セットを記述しておくと、Document Encoding(文書の文字コードセット)のセッティングに関係なく Auto-Detectで文字セットを判別し表示してくれます。
ABACUSS LTD.