N2
NanToo
AD
開発者向け

文字コード判定・変換ツール

UTF-8・Shift_JIS・EUC-JP・ISO-2022-JP (JIS) の文字コードを自動判定してデコード。テキストを各エンコーディングのバイト列に変換し、16進ダンプも表示。文字化け調査や古いファイルの復旧に。

AD

文字コード判定・変換ツールについて

文字コードとは

文字コードとは、コンピュータで文字を扱うために各文字に割り当てられた数値(バイト列)のこと。同じ「あ」という文字でも、UTF-8ではE3 81 82、Shift_JISでは82 A0と、エンコーディングごとに異なるバイト列になります。

本ツールでは、文字列を各エンコーディングのバイト列に変換したり、逆にバイト列(ファイルや16進ダンプ)から元の文字を復元したりできます。すべてブラウザ内で完結し、データは外部に送信されません。

対応エンコーディング

  • UTF-8: 現在のWeb・Linux・macOSの標準。日本語1文字=3バイト。
  • Shift_JIS (CP932): Windows日本語版の長年の標準。日本語1文字=2バイト。
  • EUC-JP: Unix系OSで広く使われた日本語エンコーディング。
  • ISO-2022-JP (JIS): メール(RFC 1468)で指定される日本語エンコーディング。
  • UTF-16 (BE/LE): Windowsの内部表現やJavaScript文字列の基礎。

こんなときに使える

  • 文字化けの原因調査: 読めないファイルを自動判定して正しい文字で表示。
  • 古いCSV/TXTの復旧: Windowsで作られたShift_JISファイルをUTF-8で読みたいとき。
  • プログラミング学習: 「あ」が各エンコーディングで何バイトか実際に確認。
  • ファイルサイズの見積もり: UTF-8とShift_JISのどちらが容量を節約できるか比較。
  • ネットワーク通信のデバッグ: パケットキャプチャの16進ダンプから日本語を復元。

使い方

  1. テキスト → バイト列: 文字列を入力すると、UTF-8/Shift_JIS/EUC-JP等のバイト数が一覧表示されます。行をクリックすると16進ダンプに切り替わります。
  2. 判定 / デコード: ファイルをアップロードするか、16進ダンプを貼り付けると、文字コードを自動判定してテキスト化します。各エンコーディングでの解釈も同時に表示されるため、文字化けの原因を特定しやすくなっています。

よくある質問

Q. なぜ同じ「あ」でもバイト数が違うのですか?
エンコーディングごとに採用されている符号化方式が異なるためです。UTF-8は世界中のすべての文字を扱えるよう可変長(日本語は3バイト)で設計されており、Shift_JISは日本語に最適化して2バイトで表現します。
Q. 文字化けしたファイルは必ず復元できますか?
元のエンコーディングが判定できれば、ほぼ確実に復元できます。ただし一度UTF-8として保存し直された「壊れたファイル」は情報が失われているため復元困難です。本ツールの自動判定は多くのケースで有効ですが、短いテキストや特殊な記号のみの場合は誤判定する可能性があります。
Q. サロゲートペアや絵文字には対応していますか?
UTF-8/UTF-16では絵文字(サロゲートペア)も正しく扱えます。ただし Shift_JIS や EUC-JP は絵文字に対応していないため、変換時に「?」や「〓」などに置換されます。
Q. 入力したテキストやファイルは保存されますか?
いいえ。すべての処理はブラウザ内で完結し、サーバーへの送信は一切行いません。機密情報を含むファイルも安全に扱えます。
Q. CP932とShift_JISの違いは?
CP932はMicrosoftがShift_JISを拡張した実装で、IBM拡張文字や機種依存文字(①②、㈱など)を含みます。Windowsで「Shift_JIS」と呼ばれているものは実際にはCP932であることがほとんどです。本ツールのShift_JISはCP932互換です。
このツールを評価
(0件)