
音声コーデックの進化 ― PCMからMP3、Opus、そしてAIコーデックへ
1982年、CDが世界に登場したとき、1分間の音楽は約10.6MBだった。2021年、GoogleのLyraは同等の音声をわずか22KBで伝送できるようになった。約470倍の圧縮。この40年間で何が起きたのか ― PCMから始まり、MP3の革命、Opusの汎用性、そしてAIが生み出す3kbpsの世界まで、音声コーデックの進化を追う。
PCM ― すべての原点、デジタル音声の生データ
PCM(Pulse Code Modulation、パルス符号変調)は、アナログ音声をデジタル化する最も基本的な方式です。音の波形を一定間隔でサンプリングし、その振幅を数値で記録します。「圧縮」は一切行わない生データ形式です。
電話品質: G.711 ― 64kbps
1972年にITU-Tが標準化したG.711は、電話網で使われるPCM規格です。
- サンプリングレート: 8kHz(人の声の帯域300〜3400Hzをカバー)
- 量子化: 8ビット(μ-law/A-law対数圧伸)
- ビットレート: 8,000 × 8 = 64kbps
日本と北米はμ-law、ヨーロッパはA-lawを採用。この違いは今でも国際通話の変換処理に影響しています。
CD品質: Red Book ― 1411kbps
1982年、ソニーとフィリップスが策定したRed Book規格のCDオーディオは、以下のスペックでした。
- サンプリングレート: 44.1kHz(人間の可聴域20kHzの2倍以上 = ナイキスト定理)
- 量子化: 16ビット(65,536段階の精度)
- チャンネル: 2ch(ステレオ)
- ビットレート: 44,100 × 16 × 2 = 1,411.2kbps
1分間で約10.6MB。700MBのCDに約74分の音楽が収録できました。この「1411kbps」が、以後すべてのコーデックが「どれだけ削減できるか」を競う基準値となります。
MP3 ― 音楽流通を変えた革命(1993年)
MPEG-1 Audio Layer III、通称MP3は、デジタル音楽の歴史を最も大きく変えたコーデックです。
開発の背景
ドイツ・エアランゲン=ニュルンベルク大学のKarlheinz Brandenburgは、1980年代初頭からデジタル音楽圧縮の研究を開始しました。1989年に博士論文を完成させ、1993年にフラウンホーファー研究所(IIS)に参加。
有名なエピソードとして、BrandenburgはSuzanne Vegaの「Tom's Diner」(アカペラ版)をリファレンス楽曲として繰り返し使い、圧縮アルゴリズムの品質を磨きました。Vegaは後に「MP3の母」と呼ばれています。
標準化とファイル拡張子
- 1991年: MPEG-1 Audio委員会草案承認
- 1993年: ISO/IEC 11172-3として正式発行
- 1995年7月14日: フラウンホーファーIIS社内メール投票で「.mp3」拡張子が決定
仕組み: 聴覚心理モデル
MP3の核心は聴覚心理学(psychoacoustics)に基づく「マスキング効果」の活用です。
- 同時マスキング: 大きな音に隣接する周波数帯の小さな音は聞こえない → 捨てる
- 時間マスキング: 大きな音の直後・直前の小さな音は認識されにくい → 粗い量子化にする
- 修正離散コサイン変換(MDCT)で時間領域を周波数領域に変換し、帯域ごとにビット配分を最適化
結果として、128kbpsでCD品質に近い音を実現。1411kbpsから約11分の1への圧縮です。
特許問題と終焉
MP3のEU特許は2012年に、最後の米国特許(US 6,009,399)は2017年4月16日に失効。Technicolor/フラウンホーファーは2017年4月23日にMP3ライセンスプログラムを終了し、MP3は完全にフリーとなりました。
AAC ― MP3を超えた「正統後継者」(1997年)
AAC(Advanced Audio Coding)は、フラウンホーファーIIS、Dolby、AT&T Bell Labs、ソニーの共同開発によって生まれたMP3の正統な後継コーデックです。
標準化の歴史
- 1997年: MPEG-2 AACとしてISO/IEC 13818-7で標準化
- 1999年: MPEG-4 AACとしてISO/IEC 14496-3で拡張
- 2003年4月: AppleがiTunesとiPodでAAC対応を発表 → 一般普及の起点
なぜMP3より優れているのか
- より高精度な聴覚心理モデル(16kHz以上の周波数処理が改善)
- 改良されたステレオ符号化
- 128kbpsで、MP3 192kbps相当の音質を実現
プロファイル体系
| プロファイル | 特徴 | 用途 |
|---|---|---|
| AAC-LC | 標準プロファイル、最も広くサポート | iTunes Store, YouTube |
| HE-AAC v1 | SBR(帯域複製)追加、低ビットレート最適 | ストリーミング (32-64kbps) |
| HE-AAC v2 | パラメトリックステレオ追加 | 超低ビットレート |
| xHE-AAC | USAC統合、音声+音楽の最新型 | 次世代放送 |
特許状況
AACは2026年現在もまだ特許が有効です。Via Licensing Alliance(Via LA)がパテントプールを管理しており、Dolby、フラウンホーファー、ソニー、NTTなどが特許権者。基本のAAC-LC特許は2028年頃、xHE-AACは2031年頃に失効する見込みです。
Vorbis ― オープンソース陣営の回答(2000年)
MP3やAACが特許で守られていた時代に、完全にフリーなコーデックとして登場したのがVorbisです。
Xiph.Org Foundationの挑戦
Chris Montgomeryが設立したXiph.Org Foundationは、1993年から音声圧縮の開発を開始。当初「Squish」と命名されましたが商標問題で変更され、コンテナ形式「Ogg」とコーデック「Vorbis」に分離されました。
- 2000年5月8日: ビットストリーム形式凍結
- 2002年7月19日: 安定版 1.0 リリース
品質とライセンス
音質はMP3と同等以上、AACにはやや劣る位置づけ。しかし最大の武器は完全ロイヤリティフリー(3条項BSDライセンス)であること。このDNAは後のOpusに受け継がれます。
2026年現在、VorbisはSpotifyのストリーミング(Ogg Vorbis 320kbps)やゲームエンジン(Unity、Unreal Engine)で広く使われています。
Opus ― 「最強の汎用コーデック」が誕生するまで(2012年)
Opusは、2012年にIETFが標準化した音声コーデックであり、2026年現在「最も優れた汎用非可逆コーデック」と広く認められています。
RFC 6716 ― 2つのコーデックの融合
2012年9月11日に公開されたRFC 6716は、2つの既存技術を統合したハイブリッドアーキテクチャです。
- SILK(Skype開発): LPCベースの音声最適化コーデック。低ビットレートの人の声に強い
- CELT(Xiph.Org開発): MDCTベースの低遅延コーデック。音楽に強い
Opusはビットレートと内容に応じて、SILK単独・SILK+CELTハイブリッド・CELT単独の3モードを自動切替します。
圧倒的な仕様
| 項目 | Opus | MP3 | AAC-LC |
|---|---|---|---|
| ビットレート範囲 | 6〜510 kbps | 32〜320 kbps | 8〜256 kbps |
| 遅延 | 最小5ms | 約100ms | 約20ms |
| サンプリングレート | 8〜48 kHz | 8〜48 kHz | 8〜96 kHz |
| ライセンス | ロイヤリティフリー(BSD) | 特許切れ(2017〜) | 特許あり(〜2028) |
品質比較
- Opus 64kbps ≈ MP3 128kbps(音楽)
- Opus 96kbps ≈ AAC 128kbps
- 音声通話では32kbps程度でも十分な品質
なぜWebRTCの必須コーデックになったのか
IETFはWebRTCの必須音声コーデックとしてOpusを指定しました。その理由は明快です。
- 低遅延(5ms〜): リアルタイム通話に必須
- 広いビットレート範囲: 帯域変動への適応力
- FEC内蔵: パケットロスに強い
- 音声と音楽の両対応: 通話中にBGMを流しても破綻しない
- ロイヤリティフリー: ブラウザベンダーが自由に実装可能
FLAC ― 「1ビットも失わない」可逆圧縮(2001年)
FLAC(Free Lossless Audio Codec)は、Josh Coalsonが2000年から開発を開始し、2001年7月20日に安定版1.0をリリースした可逆(ロスレス)音声コーデックです。
可逆 vs 非可逆
MP3やOpusが「聞こえない音を削る」のに対し、FLACは元の音声データを完全に復元できる圧縮です。ZIPのようなアルゴリズムですが、音声データの特性に最適化されています。
- 圧縮率: 元サイズの50〜70%(CD品質の場合、1411kbpsが約700〜1000kbpsに)
- 汎用ZIP圧縮: 音声データでは20〜40%程度しか圧縮できないため、FLACの方がはるかに効率的
- 用途: マスタリング、アーカイブ、ハイレゾ配信(e-onkyo、mora等)
ロイヤリティフリーで、Xiph.Orgエコシステムの一員です。
AIコーデックの衝撃 ― 3kbpsで音声を伝える(2021年〜)
2021年以降、ニューラルネットワークを使った全く新しい音声圧縮技術が登場しました。従来の聴覚心理モデルとは根本的に異なるアプローチで、桁違いの圧縮率を実現しています。
従来コーデック vs AIコーデック
| アプローチ | 従来(MP3/Opus等) | AI(SoundStream/EnCodec等) |
|---|---|---|
| 原理 | 聴覚心理モデルで「聞こえない音」を削る | オートエンコーダで「特徴」を抽出し、デコーダが「再生成」する |
| 最低ビットレート | Opus: 6kbps | SoundStream/Lyra: 3kbps |
| 計算コスト | 軽い(CPUのみ) | 重い(GPU推奨だがスマホCPUでも動作可能に) |
Google SoundStream(2021年7月)
完全畳み込みエンコーダ/デコーダ + 残差ベクトル量子化(RVQ)を使用。敵対的学習で訓練されます。
- 3〜18kbpsで可変ビットレート対応(単一モデル)
- 3kbpsでOpus 12kbpsを上回る品質
- スマートフォンCPUでリアルタイム動作可能
Google Lyra(2021年4月)
SoundStreamの技術を実用化した音声通話向けコーデック。
- 固定3kbps(v1)→ 3.2〜9.2kbps(v2, 2022年9月)
- v2でSoundStreamアーキテクチャに移行、品質と遅延が大幅改善
- Apache License 2.0でオープンソース公開
- 1分あたりわずか約22KB
Meta EnCodec(2022年10月)
Metaが発表した高忠実度ニューラル音声圧縮。ICLR 2023で採択。
- 1.5〜24kbpsの範囲で動作
- 48kHzステレオにも対応
- Transformerモデル併用で追加40%の帯域削減
- MITライセンスでオープンソース
AIコーデックの仕組み
ニューラルコーデックはオートエンコーダ構造を取ります。
- エンコーダ(ニューラルネット): 音声波形からコンパクトな潜在表現を抽出
- 量子化(RVQ等): 潜在表現をさらに圧縮して伝送
- デコーダ(ニューラルネット): 疎な特徴量から「もっともらしい」音声波形を生成
重要なのは、デコーダが「再現」ではなく「生成」していること。元の波形と完全一致はしませんが、人間の耳には自然に聞こえる音声を作り出します。これが極端な低ビットレートを可能にする鍵です。
ビットレート・ファイルサイズ完全比較
1分間の音声を各コーデックで保存した場合のファイルサイズを比較します。
| コーデック | ビットレート | 1分あたり | 圧縮比 |
|---|---|---|---|
| PCM (CD) | 1,411 kbps | 10.6 MB | 1x(基準) |
| FLAC | 〜850 kbps | 〜6.4 MB | 約1.7x |
| MP3 (320kbps) | 320 kbps | 2.4 MB | 約4.4x |
| AAC (256kbps) | 256 kbps | 1.9 MB | 約5.6x |
| MP3 (128kbps) | 128 kbps | 0.96 MB | 約11x |
| Opus (音楽) | 96 kbps | 0.72 MB | 約15x |
| Opus (音声通話) | 32 kbps | 0.24 MB | 約44x |
| Lyra v2 | 3 kbps | 0.022 MB | 約470x |
PCMの10.6MBが、Lyraではわずか22KB。同じ1分間の音声が約470分の1に圧縮されます。
ブラウザのMediaRecorderとコーデック選択
ブラウザで音声を録音するMediaRecorder APIは、利用するコーデックがブラウザごとに異なります。
| ブラウザ | コンテナ | コーデック |
|---|---|---|
| Chrome / Edge | WebM | Opus |
| Firefox | WebM / OGG | Opus |
| Safari (iOS含む) | MP4 | AAC |
NanTooのボイスレコーダーツールでは、MediaRecorder.isTypeSupported()で自動判定し、最適な形式を選択しています。Chrome/Edge/FirefoxではWebM+Opusの高効率録音、SafariではMP4+AACにフォールバックします。
なぜSafariだけAACなのか? それはAppleがWebMコンテナとOpusコーデックのエンコード側サポートを提供していないためです。再生(デコード)は対応していますが、録音(エンコード)にはAACを使う必要があります。
特許・ライセンスまとめと今後の展望
ライセンス状況一覧
| コーデック | 特許状況 | ライセンス |
|---|---|---|
| MP3 | 全特許失効(2017年〜) | フリー |
| AAC | 特許あり(〜2028/2031) | Via LAパテントプール |
| Vorbis | 特許フリー | BSD |
| Opus | ロイヤリティフリー | BSD |
| FLAC | 特許フリー | オープンソース |
| Lyra | オープンソース | Apache 2.0 |
| EnCodec | オープンソース | MIT |
今後の展望
音声コーデックの歴史は「いかに少ないビットで人間が満足する音を届けるか」の40年でした。
- 従来コーデックは成熟期。Opusが事実上の標準として定着し、AAC特許失効後はさらにOpusへの移行が進むでしょう
- AIコーデックは黎明期。現在は音声通話レベルですが、音楽や環境音への適用が進めばストリーミングサービスにも波及する可能性があります
- ブラウザAPIは、WebCodecs APIの進化により、将来的にはJavaScriptから直接コーデックを操作できるようになるかもしれません
PCMの1411kbpsから始まった旅は、AIによって3kbpsまで到達しました。しかし人間の聴覚が最終的な審判者であることは、40年間変わっていません。
参考文献・ソース
- RFC 6716 — Definition of the Opus Audio Codec (IETF) ↗
- ISO/IEC 11172-3:1993 — MPEG-1 Audio Layer III (MP3) ↗
- Fraunhofer IIS — 30 Years of MP3 ↗
- Google Research — SoundStream: End-to-End Neural Audio Codec ↗
- Meta — EnCodec: High Fidelity Neural Audio Compression (arXiv:2210.13438) ↗
- Opus Codec — Comparison ↗
- MDN Web Docs — MediaRecorder API ↗
記事作成に関する注記
本記事は AI(大規模言語モデル)を編集補助として活用して作成しています。 公開前に編集者が内容を確認していますが、事実誤認・仕様の解釈ミス・最新情報との齟齬が含まれる可能性があります。 重要な判断を行う際は、本文中の一次ソースや公式ドキュメントを必ずご自身でご確認ください。 誤りにお気づきの場合は、お問い合わせフォームよりご連絡いただけると助かります。


