といって意味がわかったら何も苦労しませんね:-) まさにいまさらながらですが, 前から順番に, 意味不明な単語をもうちょっと真面目に, 説明しましょう。
MPEG というのは, Moving Picture Expert Group の略で, デジタル化した映像と音声を圧縮しようという ISO の中に設けられたエキスパートの集まりです。 彼らは, 映像や音声のファイルというのは, 普通だと非常に大きく, とっても取り扱いが大変なので, 圧縮してディスクやメモリや CPU が取り扱いやすい大きさにしようというのを目的にしています。 ここから転じて, このグループの出している圧縮の規格を MPEG とも呼んでいます。
でもって, この団体はいろいろな規格を定義しているのですが, MPEG1 と MPEG2 という規格の中の音声の圧縮に関して, Layer1, 2, 3 というのがあります。
このうち, Layer1,2 はかなり古いフォーマットであり, あんまり圧縮率は良くありません。
これに対し, 最新技術 (といっても92年頃のもの) を使い, 圧縮率を高めて, ストリーミング放送や インターネット上での音楽のやりとりなどにも使えるようにした圧縮の規格が MP3 と略される MPEG 1 (または2) Layer 3 といわれる規格です。
大体, MP3 では CD と「ほぼ」同じクオリティの音楽が, 一分あたり大体1MBぐらい, もとの .wav ファイルの十分の一ぐらいの 大きさになります。
こんなに圧縮できる秘密が, 「人間の音響心理特性を利用した非可逆圧縮」 という言葉にあります。 要するに, 人間の耳の能力の限界を使って, うまく誤魔化しているわけです:-)
たとえば, 人間の耳は100m走のスタートの銃声のようなでっかい音がなった後, 少しの間はマトモに音が聞こえません。 あるいは, 雑踏の中では, 周りの音にかき消されて隣の人の喋っている内容が 良く聞きとれません。 ということは, こういった音の情報は, 「てきとー」に記録しても, どうせ良く聞こえないので, 問題が起きないわけです。
こういった現象 (masking effect と呼んでいます) は, 周波数と時間間隔によって違う動作になります。 そこで, まずPCMの音声データをいくつかの時間軸方向で区切り, その区間で周波数領域に変換し, そのデータに対して操作を行なうようにします。 これによって人間の耳の特徴を生かして圧縮することがやりやすくなります。
このあと, 周波数・時間軸方向にデータの解析を行ない, 「どの音が重要か」というのを調べます。そして, その重要性によって, 「どの音にどのぐらいのビットを割り振るか」というのを計算します。 重要性が少ない周波数の波は, 「大雑把な強さ」を記録すればいいので, 低い精度の表現ですみます。逆に, 重要な (人間の耳に良く聞こえる) 周波数の波は, 「正確な強さ」を記録しないといけないので, 精度良く記録します。 このような「精度を変化させて強度を記録する」方法としてはいろいろな方法が ありますが、一般的には量子化といわれる作業が使われます。 手っ取り早くいうと周波数ごとに変数の有効精度を変えるということをしています。
で, 最後に, できあがった各周波数の波の強度情報を, データの特徴(たいてい0付近の強度となる周波数が多い)を生かして可逆圧縮し、 記録します。
これが, MP3 エンコーダを始めとする多くの「音響心理を生かした非可逆圧縮」 装置がやっていることです。 当然ですが, 展開する (デコードする) はこの逆をします。
もう少し詳しい話は, 日本語だと 音響符号化の基礎 とかみるといいでしょう。結構真剣に書いてあります。英語だと Audio Compressionなんてのがいいと思います。
また、真剣に音響心理工学を学ぶのであれば、Zwicker の書いた Psychoacoustics : Facts and Models (Springer Series in Information Sciences, 22) という本ははずせません。まさにバイブルです。 アマゾンのカタログページへのリンク。
さて, この世にたくさんの音響圧縮フォーマットがあるのはなぜでしょう? また, それぞれに, たくさんのエンコーダがあるのはなぜでしょう。
さて, ここまででわかるように, 重要なのは
前述のページを見ればわかるように, 結構理論は確立しているのですが, 実際にこれらの技術を正確に実装し, MP3 というフォーマットの限界その他を考慮に入れて, 実用的な時間でデータ圧縮 (エンコード) できるプログラムを書くのは結構大変です。 また, いろいろな理論があっても, 実際にそれらのすべてを網羅してプログラムが書かれるわけではありません。
そういうわけで, 世の中にはいろいろなエンコーダがあり, それぞれ, ベースにする理論やアルゴリズムが違うので, 圧縮した後に展開すると, それぞれ違う音質のファイルになります。
そういうわけで, 世の中には複数のMP3エンコーダといわれるソフトがあり, 速度や音質で他と争っているわけです。はい。
ちなみにデコーダに関しても同様のことがあるのですが, こちらはかなりきっちりと規格が決まっているので, 最近ではデコーダによってそれほど音質の違いはありません。