前章でサンプリング、量子化(bit化)の話をしました。この過程でアナログな、現象としての音がデジタルにどのように変換されるかを説明しました。

今回は1,0のデジタル化した数値をデータ化し、さらに保存されたデータを呼び出す過程についてです。

4-1 符号化(コーデック)

サンプリングしたものを量子化し、数値が確定したなら1,0のデジタルデータに変換していきます。この工程を符号化、またはコーデックと言います。映像、動画業界ではコーデックと言う方が一般的です。コーデックと言うと最近では言葉の意味が広義になってきましたが、逆に符号化と言う人は聞いた事がありません。また、数値から1,0のデータにすることをエンコードといい、1,0から数値に戻す事をデコードといいます。

ここであれ? と疑問に思う人もあるかもしれません。

さっきbit使って量子化したからすでに1,0なんじゃないの? と。まぁ、そう思うのもごもっともです。厳密には量子化とはある数値に対してどのくらいの精度(何bitか)で数値を取るか決めて数値をとるところまでを指します。その数値を決まったbitの精度で2進数(1,0)に変換する工程が符号化です。

符号化が前提の量子化なので工程を分ける必要もないと思うかもしれませんが、コーデックの仕様に色々な方式があったり、量子化の精度は重要な事柄になります。ですから、このようにデジタル化の概要を説明する際には、やはり分けておいた方がわかりやすいかな、と僕も思います。

4-1a コーデックの色々、圧縮の正体

ここでコーデックの仕様の話が出ました。これがなかなかの曲者で、この工程でデジタルの癖がつきます。

音声コーデックの2大巨頭がWAVとMP3です。この二つのコーデックについては後ほど詳しく説明します。この二つは方式が大きく異なります。一つはWAVEを代表とする非圧縮でコーデックを行う方式と、もう一方はMP3に代表される圧縮を行う方式です。圧縮という言葉が実作業の工程のイメージをぼかして正しく理解されなくなっているように思います。ですので、少し解説します。

非圧縮

非圧縮と呼ばれるものは実はWAVEとAIFFくらいしかありません。非圧縮のコーデックのことをノンリニアPCMという名で呼ぶ事もあります。しかし、実際非圧縮の音声データの9割以上がWAVEなので非圧縮、ノンリニアPCMといえばほぼWAVEの事です。MAの現場でたまに間違って(嫌がらせ?w)書き出したAIFFのデータをもらう時くらいしか目にする事はほぼありません。CD、DVD、録音、放送用の納品データ等の高音質が必要なものは全てこのWAVEが使われています。

コーデックの工程はよりシンプルです。量子化の過程で数値化したものをそのまま記録し、再生の際にもそれをそのまま読み取ります。その為、数値化した時点からの音質(データ)の劣化がない為高音質と言われています。生データ、動画ならRAWと呼ばれる事もあります。

圧縮

一方のMP3を代表とする圧縮を行うコーデックが色々と厄介なのです。圧縮とはデータ量を少なくする事です。

そもそもなぜ圧縮を行うかといえば限りがあるデータ転送のスピードと、保存メディアの容量を節約する為です。MP3だとWAVEデータのおよそ1/10ほどまで少なくすることが可能です。

データを可能な限り少なく、そして高音質に再生する。これが圧縮を行うコーデックの基本的な考え方です。

しかし、当然容量を小さくして保存できてWAVEと同じクオリティーなら非圧縮のコーデックはお役御免なのですが、圧縮したデータには小さくしたデータを元の大きさに戻すという手間(デコード)が一つ余分にかかります。音の分野ではあまりありませんが映像の分野ではこの些細な処理が悪さをする事が稀にあります。MAミキサー(特にアシスタント!)ならProToolsの相性で推奨コーデックでも収録中に映像がカクカクし始めて冷や汗をかく、という経験をしているはずです。コーデック問題は本当に厄介なやつなんですw

圧縮の種類

世の中にはMP3の他にも多くの音声コーデックが使われています。音楽用途ではWMA、AACやFLACというコーデックがよく使われます。このように多様なコーデックがあるのは圧縮(エンコード)、再生(デコード)の方法がそれぞれ違うからです。そして、圧縮する方式も可逆圧縮非可逆圧縮という2つの方法に分岐します。

可逆圧縮

可逆圧縮とは、容量を小さくして保存したデータ(圧縮したデータ)を元の大きさに戻す際に完全に復元可能な圧縮方法です。元と同じなんて当たり前にそうしてると思うかもしれませんが、この可逆圧縮を採用しかろうじて普及していると言えそうコーデックはFLACくらいです。普段接している音源の多くはこれとは別の非可逆圧縮のコーデックになります。なぜあまり普及していないかと言うとデータの圧縮率が低いからです。FLACで1/4程度の削減率、他の可逆圧縮のコーデックでも多くて1/3程の削減率です。この程度の削減率だとあまりデータ容量の節約にならない、というのが普及しない大きな理由でしょう。

非可逆圧縮

非可逆圧縮とは、データを元の大きさに完全復元することが出来ない圧縮方法です。完全に復元できないという事はデータ(音質)が劣化する、という事になります。

なぜこのような違いが生まれるかというとそれは圧縮方法の違いによります。

可逆圧縮というのは元データに手を加える事をしないでデータを整理してまとめる事でデータを削減します。一方、非可逆圧縮は元データの中から必要のない部分を捨てる事によってデータを削減します。人間に知覚出来ない、とされている部分を削減するので必要な情報を伝えるのには問題ありませが、音質は確実に劣化しています。また何が必要で何が必要ないかという選択はそのコーデック製作者の感性に委ねられますのでここでも音質の違いが出てきます。

この事を引っ越しの作業で例えるなら、可逆圧縮は荷物の梱包で非可逆圧縮は荷物の断捨離です。梱包したものは開梱すれば同じように使用することが出来ます。断捨離した場合、捨てたのは必要のないもののはずなので生活には問題ないですが、もし、あとで必要になっても後の祭りです。

圧縮することの問題点

非可逆圧縮の場合、明らかにデータを削除しているので圧縮という言葉はユーザーに間違ったイメージを与えていると思います。かっこいい言葉は見つかりませんが、皮むき圧縮くらいが適当だと思います(皮の分だけ減ってるという事で)。

理論上音質の劣化は10%未満という事になっていますが、数値上の理屈と人間の感覚が離れている事はラウドネスの項目でも触れました。この数値を鵜呑みに出来るものか僕は疑問です。ビートルズの楽曲がストーンズになって聴こえる事はありませんが、音楽の場合は単に「わかればいい」というものでもありません。初めから配信のみ、という事であれば比較対象がないのでいいのかもしれませんが、アーティストとしての力が弱まるのは否めません。これはなかなかアカデミックに証明することが難しいですが、肌感感覚で危機を感じます。

配信のサウンド

最近ではネット配信という表現が主流になっています。この事は前に詳しく記事書いてますのでよかったら読んでみてください。ここでは簡単に説明します。

動画配信では主にmp4などと一緒に使うAACの非可逆圧縮のコーデックが使われることが多いのですが、リアルタイム配信ではデータ転送の送受信の際にでデータは欠損(劣化)します(超厳密にはダウンロードでもアナログ領域で劣化は起こりうる)。しかし、映像も音声も劣化を防ごうとWAVEなどの非圧縮の音源を使ったらとんでもないデータ量になります。5Gなどの技術革新でより高速の回線が一般化して非圧縮の高画質、高音質が可能になったとしてもデジタル化の劣化は免れません。

生音→電気信号(アナログ)→デジタル化→圧縮、とすでにアーティストが伝えようとしている音は劣化を重ねているのに、これ以上自分の音が劣化することに無頓着でいいものかと思います。

エンコード、デコード

上記では原理的に1,0に変換する事をエンコードと説明しましたが、目的のコーデックのデータを作る事をエンコードと言ったほうがより実務的でしょう。圧縮の有無を含めて目的のコーデックなくしては1,0のデータには出来ませんので、目的のコーデックに変換する=エンコードと覚えても実務的には問題ないと思います。

先にも少し触れましたが、圧縮する際に捨てるデータの取捨選択(エンコードしたデータ)は各コーデックの作り手に委ねられていますので、再生するにはデコード(解凍といってもよい)するプログラムがそれぞれ別途必要になります。その為、使用する再生アプリがそのコーデックに対応していないと再生できません。圧縮率や音質の面で勝るWMAがMP3より普及していないのはその事が関係しています。MP3は一般的にパソコン上で音声が再生できるようになった頃からほぼ全てのパソコンで再生できました。しかし、WMAはWindowsの規格ですので多くのMac系のデバイス(当時10%未満とはいえ無視出来ない影響力があったのです)では聞くことが出来ませんでした。作り手は出来るだけ多くの人に聞いてもらいたいわけですから、必然的にMP3が使われることが多くなったのです。

このようにコーデックに合わせたプレイヤーアプリが必要という問題が圧縮にはあります。特にFLACなどの可逆圧縮のコーデックは使用頻度が低く再生に対応していないアプリも多く、僕もFLACの音源を聴くためだけに対応したアプリを探しインストールした経験があります。そして、再生アプリ側でもデーコードの際に恣意的な音質の調整を行なっているので同じMP3音源でも再生アプリ毎に音が僅かに違うので、MP3はそのようなものという認識はどこかでもっておかなければいけません。アナログ機器だとプレイヤーの形が明らかに違うので自然にそのようなものと認識していますが、同じスマホから再生されると全て同じものと思いがちです。

こんな事を言ってるとただのアンチデジタルな主義者と思われるかもしれませんが、そんな事はありません。僕もMP3音源やサブスクリプションの音楽を聴く事が結構あります。耳コピをする時なんかは逆に余計な音が間引かれていて聞き取りやすいのでMP3の方を好んで使用します。BGMやカーステレオから聞く音楽はMP3で十分ですし、色んな音楽をランダムで聴くのは新たな発見や新鮮さがありそれはとても有意義なことです。ただ、自分の感性を深めたり芸術性を探求するには少しプアーな形式だという事です。

4-4 デジタル化のまとめ

やはり、音を取り扱うというと4次元(3次元空間+時間)の話になるのでどうしても単純な1本道の説明というわけにはいきません。実際はいろんな事が同時に起こるのでもう少し複雑です。ですがこれ以上複雑になると実用的とは言えません。ここで、少し違う表現をしながら角度を変えてデジタル化の工程をおさらいしてこのトピックを終了しましょう。ざっくり3ステップと再生のステップがありました。

①サンプリング

デジタル化の第一歩はサンプリングする事です。サンプリングとはデジタル化する素材を用意する事でした。そして、この工程で重要なのがどれくらい細かく素材を用意するかです。もちろんよりたくさんサンプリングすればその素材の事をよりよく知ることが出来ます。音だと1秒間に何回サンプリングするかが音質の指標になります。CDの音質では1秒間44100回サンプリングするので、サンプリングレートは44.1kHzと表現されます。

②量子化(bit化)

次にサンプリングして素材を用意したらそれをコンピュータで読み取るために測定し、数値にします。この工程を量子化と呼びました。そしてこの時測定する数値の細かさを決めます。その細かさを表現する単位にコンピューターの演算桁数を表すbitを使います。16bitの精度だとおよそ6万5千段階で測定する事になります。

③符号化(コーデック)

最後に符号化(コーデック)します。エンコードして1,0のデジタルデータに変換します。この符号化プロセス(エンコードの方法)には様々な方法があり、多くのコーデックが使われています。コーデックはWAVEに代表される量子化したものをそのまま記録する非圧縮の方法、MP3などのデータ容量を減らして記録する圧縮を行う方法の大きく2つに分けられます。圧縮はさらに可逆圧縮と非可逆圧縮に分かれます。可逆圧縮はデータの圧縮率は少ないですが音質の劣化は少なく、非可逆圧縮ではデータは1/10程になりますが、必要のないデータを削減しているので元のデータを完全再現する事は出来ないので音質は劣化します。

④デコード

データ化したものをデコード(解答)して音を再生します。

このようなステップを経て音はデジタル化されます。

このあとの章では少しマニアックになってしまうけどぜひ知っておいて欲しいと思うことをコラムとして記しておきます。気が進んだら是非読んでみてください。

 

読んでくれてありがとう。

僕はこう思う。

Taiyo Haze


デジタル編 序  はじめに

デジタル編① 基本事項のおさらい

デジタル編② アナログとデジタル

デジタル編③ デジタルが音になるまで

デジタル編④ デジタルデータが音に戻るまで

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA