N2
NanToo
音声コーデックの進化 ― PCMからMP3、Opus、そしてAIコーデックへ
EENTERTAINMENT
エンタメ10 分で読める

音声コーデックの進化 ― PCMからMP3、Opus、そしてAIコーデックへ

1982年、CDが世界に登場したとき、1分間の音楽は約10.6MBだった。2021年、GoogleのLyraは同等の音声をわずか22KBで伝送できるようになった。約470倍の圧縮。この40年間で何が起きたのか ― PCMから始まり、MP3の革命、Opusの汎用性、そしてAIが生み出す3kbpsの世界まで、音声コーデックの進化を追う。

#コーデック#MP3#Opus#AAC#音声圧縮#FLAC#WebM#MediaRecorder#AI
AD

PCM ― すべての原点、デジタル音声の生データ

PCM(Pulse Code Modulation、パルス符号変調)は、アナログ音声をデジタル化する最も基本的な方式です。音の波形を一定間隔でサンプリングし、その振幅を数値で記録します。「圧縮」は一切行わない生データ形式です。

電話品質: G.711 ― 64kbps

1972年にITU-Tが標準化したG.711は、電話網で使われるPCM規格です。

  • サンプリングレート: 8kHz(人の声の帯域300〜3400Hzをカバー)
  • 量子化: 8ビット(μ-law/A-law対数圧伸)
  • ビットレート: 8,000 × 8 = 64kbps

日本と北米はμ-law、ヨーロッパはA-lawを採用。この違いは今でも国際通話の変換処理に影響しています。

CD品質: Red Book ― 1411kbps

1982年、ソニーとフィリップスが策定したRed Book規格のCDオーディオは、以下のスペックでした。

  • サンプリングレート: 44.1kHz(人間の可聴域20kHzの2倍以上 = ナイキスト定理)
  • 量子化: 16ビット(65,536段階の精度)
  • チャンネル: 2ch(ステレオ)
  • ビットレート: 44,100 × 16 × 2 = 1,411.2kbps

1分間で約10.6MB。700MBのCDに約74分の音楽が収録できました。この「1411kbps」が、以後すべてのコーデックが「どれだけ削減できるか」を競う基準値となります。

MP3 ― 音楽流通を変えた革命(1993年)

MPEG-1 Audio Layer III、通称MP3は、デジタル音楽の歴史を最も大きく変えたコーデックです。

開発の背景

ドイツ・エアランゲン=ニュルンベルク大学のKarlheinz Brandenburgは、1980年代初頭からデジタル音楽圧縮の研究を開始しました。1989年に博士論文を完成させ、1993年にフラウンホーファー研究所(IIS)に参加。

有名なエピソードとして、BrandenburgはSuzanne Vegaの「Tom's Diner」(アカペラ版)をリファレンス楽曲として繰り返し使い、圧縮アルゴリズムの品質を磨きました。Vegaは後に「MP3の母」と呼ばれています。

標準化とファイル拡張子

  • 1991年: MPEG-1 Audio委員会草案承認
  • 1993年: ISO/IEC 11172-3として正式発行
  • 1995年7月14日: フラウンホーファーIIS社内メール投票で「.mp3」拡張子が決定

仕組み: 聴覚心理モデル

MP3の核心は聴覚心理学(psychoacoustics)に基づく「マスキング効果」の活用です。

  • 同時マスキング: 大きな音に隣接する周波数帯の小さな音は聞こえない → 捨てる
  • 時間マスキング: 大きな音の直後・直前の小さな音は認識されにくい → 粗い量子化にする
  • 修正離散コサイン変換(MDCT)で時間領域を周波数領域に変換し、帯域ごとにビット配分を最適化

結果として、128kbpsでCD品質に近い音を実現。1411kbpsから約11分の1への圧縮です。

特許問題と終焉

MP3のEU特許は2012年に、最後の米国特許(US 6,009,399)は2017年4月16日に失効。Technicolor/フラウンホーファーは2017年4月23日にMP3ライセンスプログラムを終了し、MP3は完全にフリーとなりました。

AAC ― MP3を超えた「正統後継者」(1997年)

AAC(Advanced Audio Coding)は、フラウンホーファーIIS、Dolby、AT&T Bell Labs、ソニーの共同開発によって生まれたMP3の正統な後継コーデックです。

標準化の歴史

  • 1997年: MPEG-2 AACとしてISO/IEC 13818-7で標準化
  • 1999年: MPEG-4 AACとしてISO/IEC 14496-3で拡張
  • 2003年4月: AppleがiTunesとiPodでAAC対応を発表 → 一般普及の起点

なぜMP3より優れているのか

  • より高精度な聴覚心理モデル(16kHz以上の周波数処理が改善)
  • 改良されたステレオ符号化
  • 128kbpsで、MP3 192kbps相当の音質を実現

プロファイル体系

プロファイル 特徴 用途
AAC-LC 標準プロファイル、最も広くサポート iTunes Store, YouTube
HE-AAC v1 SBR(帯域複製)追加、低ビットレート最適 ストリーミング (32-64kbps)
HE-AAC v2 パラメトリックステレオ追加 超低ビットレート
xHE-AAC USAC統合、音声+音楽の最新型 次世代放送

特許状況

AACは2026年現在もまだ特許が有効です。Via Licensing Alliance(Via LA)がパテントプールを管理しており、Dolby、フラウンホーファー、ソニー、NTTなどが特許権者。基本のAAC-LC特許は2028年頃、xHE-AACは2031年頃に失効する見込みです。

Vorbis ― オープンソース陣営の回答(2000年)

MP3やAACが特許で守られていた時代に、完全にフリーなコーデックとして登場したのがVorbisです。

Xiph.Org Foundationの挑戦

Chris Montgomeryが設立したXiph.Org Foundationは、1993年から音声圧縮の開発を開始。当初「Squish」と命名されましたが商標問題で変更され、コンテナ形式「Ogg」とコーデック「Vorbis」に分離されました。

  • 2000年5月8日: ビットストリーム形式凍結
  • 2002年7月19日: 安定版 1.0 リリース

品質とライセンス

音質はMP3と同等以上、AACにはやや劣る位置づけ。しかし最大の武器は完全ロイヤリティフリー(3条項BSDライセンス)であること。このDNAは後のOpusに受け継がれます。

2026年現在、VorbisはSpotifyのストリーミング(Ogg Vorbis 320kbps)やゲームエンジン(Unity、Unreal Engine)で広く使われています。

Opus ― 「最強の汎用コーデック」が誕生するまで(2012年)

Opusは、2012年にIETFが標準化した音声コーデックであり、2026年現在「最も優れた汎用非可逆コーデック」と広く認められています。

RFC 6716 ― 2つのコーデックの融合

2012年9月11日に公開されたRFC 6716は、2つの既存技術を統合したハイブリッドアーキテクチャです。

  • SILK(Skype開発): LPCベースの音声最適化コーデック。低ビットレートの人の声に強い
  • CELT(Xiph.Org開発): MDCTベースの低遅延コーデック。音楽に強い

Opusはビットレートと内容に応じて、SILK単独・SILK+CELTハイブリッド・CELT単独の3モードを自動切替します。

圧倒的な仕様

項目 Opus MP3 AAC-LC
ビットレート範囲 6〜510 kbps 32〜320 kbps 8〜256 kbps
遅延 最小5ms 約100ms 約20ms
サンプリングレート 8〜48 kHz 8〜48 kHz 8〜96 kHz
ライセンス ロイヤリティフリー(BSD) 特許切れ(2017〜) 特許あり(〜2028)

品質比較

  • Opus 64kbps ≈ MP3 128kbps(音楽)
  • Opus 96kbps ≈ AAC 128kbps
  • 音声通話では32kbps程度でも十分な品質

なぜWebRTCの必須コーデックになったのか

IETFはWebRTCの必須音声コーデックとしてOpusを指定しました。その理由は明快です。

  • 低遅延(5ms〜): リアルタイム通話に必須
  • 広いビットレート範囲: 帯域変動への適応力
  • FEC内蔵: パケットロスに強い
  • 音声と音楽の両対応: 通話中にBGMを流しても破綻しない
  • ロイヤリティフリー: ブラウザベンダーが自由に実装可能

FLAC ― 「1ビットも失わない」可逆圧縮(2001年)

FLAC(Free Lossless Audio Codec)は、Josh Coalsonが2000年から開発を開始し、2001年7月20日に安定版1.0をリリースした可逆(ロスレス)音声コーデックです。

可逆 vs 非可逆

MP3やOpusが「聞こえない音を削る」のに対し、FLACは元の音声データを完全に復元できる圧縮です。ZIPのようなアルゴリズムですが、音声データの特性に最適化されています。

  • 圧縮率: 元サイズの50〜70%(CD品質の場合、1411kbpsが約700〜1000kbpsに)
  • 汎用ZIP圧縮: 音声データでは20〜40%程度しか圧縮できないため、FLACの方がはるかに効率的
  • 用途: マスタリング、アーカイブ、ハイレゾ配信(e-onkyo、mora等)

ロイヤリティフリーで、Xiph.Orgエコシステムの一員です。

AIコーデックの衝撃 ― 3kbpsで音声を伝える(2021年〜)

2021年以降、ニューラルネットワークを使った全く新しい音声圧縮技術が登場しました。従来の聴覚心理モデルとは根本的に異なるアプローチで、桁違いの圧縮率を実現しています。

従来コーデック vs AIコーデック

アプローチ 従来(MP3/Opus等) AI(SoundStream/EnCodec等)
原理 聴覚心理モデルで「聞こえない音」を削る オートエンコーダで「特徴」を抽出し、デコーダが「再生成」する
最低ビットレート Opus: 6kbps SoundStream/Lyra: 3kbps
計算コスト 軽い(CPUのみ) 重い(GPU推奨だがスマホCPUでも動作可能に)

Google SoundStream(2021年7月)

完全畳み込みエンコーダ/デコーダ + 残差ベクトル量子化(RVQ)を使用。敵対的学習で訓練されます。

  • 3〜18kbpsで可変ビットレート対応(単一モデル)
  • 3kbpsでOpus 12kbpsを上回る品質
  • スマートフォンCPUでリアルタイム動作可能

Google Lyra(2021年4月)

SoundStreamの技術を実用化した音声通話向けコーデック。

  • 固定3kbps(v1)→ 3.2〜9.2kbps(v2, 2022年9月)
  • v2でSoundStreamアーキテクチャに移行、品質と遅延が大幅改善
  • Apache License 2.0でオープンソース公開
  • 1分あたりわずか約22KB

Meta EnCodec(2022年10月)

Metaが発表した高忠実度ニューラル音声圧縮。ICLR 2023で採択。

  • 1.5〜24kbpsの範囲で動作
  • 48kHzステレオにも対応
  • Transformerモデル併用で追加40%の帯域削減
  • MITライセンスでオープンソース

AIコーデックの仕組み

ニューラルコーデックはオートエンコーダ構造を取ります。

  1. エンコーダ(ニューラルネット): 音声波形からコンパクトな潜在表現を抽出
  2. 量子化(RVQ等): 潜在表現をさらに圧縮して伝送
  3. デコーダ(ニューラルネット): 疎な特徴量から「もっともらしい」音声波形を生成

重要なのは、デコーダが「再現」ではなく「生成」していること。元の波形と完全一致はしませんが、人間の耳には自然に聞こえる音声を作り出します。これが極端な低ビットレートを可能にする鍵です。

ビットレート・ファイルサイズ完全比較

1分間の音声を各コーデックで保存した場合のファイルサイズを比較します。

コーデック ビットレート 1分あたり 圧縮比
PCM (CD) 1,411 kbps 10.6 MB 1x(基準)
FLAC 〜850 kbps 〜6.4 MB 約1.7x
MP3 (320kbps) 320 kbps 2.4 MB 約4.4x
AAC (256kbps) 256 kbps 1.9 MB 約5.6x
MP3 (128kbps) 128 kbps 0.96 MB 約11x
Opus (音楽) 96 kbps 0.72 MB 約15x
Opus (音声通話) 32 kbps 0.24 MB 約44x
Lyra v2 3 kbps 0.022 MB 約470x

PCMの10.6MBが、Lyraではわずか22KB。同じ1分間の音声が約470分の1に圧縮されます。

ブラウザのMediaRecorderとコーデック選択

ブラウザで音声を録音するMediaRecorder APIは、利用するコーデックがブラウザごとに異なります。

ブラウザ コンテナ コーデック
Chrome / Edge WebM Opus
Firefox WebM / OGG Opus
Safari (iOS含む) MP4 AAC

NanTooのボイスレコーダーツールでは、MediaRecorder.isTypeSupported()で自動判定し、最適な形式を選択しています。Chrome/Edge/FirefoxではWebM+Opusの高効率録音、SafariではMP4+AACにフォールバックします。

なぜSafariだけAACなのか? それはAppleがWebMコンテナとOpusコーデックのエンコード側サポートを提供していないためです。再生(デコード)は対応していますが、録音(エンコード)にはAACを使う必要があります。

特許・ライセンスまとめと今後の展望

ライセンス状況一覧

コーデック 特許状況 ライセンス
MP3 全特許失効(2017年〜) フリー
AAC 特許あり(〜2028/2031) Via LAパテントプール
Vorbis 特許フリー BSD
Opus ロイヤリティフリー BSD
FLAC 特許フリー オープンソース
Lyra オープンソース Apache 2.0
EnCodec オープンソース MIT

今後の展望

音声コーデックの歴史は「いかに少ないビットで人間が満足する音を届けるか」の40年でした。

  • 従来コーデックは成熟期。Opusが事実上の標準として定着し、AAC特許失効後はさらにOpusへの移行が進むでしょう
  • AIコーデックは黎明期。現在は音声通話レベルですが、音楽や環境音への適用が進めばストリーミングサービスにも波及する可能性があります
  • ブラウザAPIは、WebCodecs APIの進化により、将来的にはJavaScriptから直接コーデックを操作できるようになるかもしれません

PCMの1411kbpsから始まった旅は、AIによって3kbpsまで到達しました。しかし人間の聴覚が最終的な審判者であることは、40年間変わっていません。

参考文献・ソース

記事作成に関する注記

本記事は AI(大規模言語モデル)を編集補助として活用して作成しています。 公開前に編集者が内容を確認していますが、事実誤認・仕様の解釈ミス・最新情報との齟齬が含まれる可能性があります。 重要な判断を行う際は、本文中の一次ソースや公式ドキュメントを必ずご自身でご確認ください。 誤りにお気づきの場合は、お問い合わせフォームよりご連絡いただけると助かります。

🔧 関連ツール

📚 関連記事

AD