組み込みメディア処理のためのオーディオ処理の基礎

目次

組み込みメディア処理のためのオーディオ処理の基礎

オーディオ処理は、組み込みメディア処理において重要な役割を果たします。オーディオ情報はビデオデータよりもメモリと処理能力をあまり必要としませんが、それでも処理する価値があるほど重要です。

オーディオ処理は、デジタル信号処理のサブセットである。オーディオ信号はデジタル形式でキャプチャされ、人間の耳のある種の特性を数学的手法とともに利用して圧縮を実現し、スタジオ品質の忠実度の高いオーディオデータを小さなディスクに保存したり、低いビットレートでデータをストリーミングしたりする。

オーディオ処理から見た人間の耳の解剖学

まず、耳がスペクトラム・アナライザーとしてどのように機能するかを理解しよう。すなわち、外耳、中耳、内耳である。

外耳は鼓膜で終わり、中耳は鼓膜から始まる。外耳道に入った音波は鼓膜に導かれ、鼓膜を振動させる。振動の強さは、音波に含まれる周波数と、その周波数のパワー/ラウドネスによって決まる。振動は中耳から蝸牛に伝わります。蝸牛は内耳の一部である。内耳は、この記事で紹介している「デジタル・フィルター・モデル」を使って数学的にモデル化することができる。

図1:オーディオ処理から見た耳の解剖学的構造

図1:オーディオ処理から見た耳の解剖学的構造
(提供: https://www.webmd.com/cold-and-flu/ear-infection/picture-of-the-ear#1)

上の写真の蝸牛の湾曲した部分には脳底膜がある。巻かれていない蝸牛の縦断面における脳底膜上のさまざまな点は、特定のオーディオ周波数に感応するため、スペクトラム・アナライザーとして機能する。蝸牛をほぐした後の脳底膜の長さは約3.5cmである。

図2:音声処理から見た蝸牛の解剖学的構造

図2:音声処理から見た蝸牛の解剖学的構造
(提供:https://www.britannica.com/science/ear/Transmission-of-sound-within-the-inner-ear)

脳底膜のデジタルフィルターモデル

この脳底膜の小さな部分をデジタルフィルターとしてモデル化する。つまり、脳底膜はすべてデジタルフィルターとして表現できる。

図3:脳底膜のデジタルフィルターモデル

図3: 脳底膜のデジタルフィルターモデル

上図の中耳部分はバンドパスフィルターとして機能する。脳底膜の音圧は、上図のようにフィルター帯域を通して電気信号に変換される。中耳の出力(バンドパスフィルター)は、カスケード接続された2次フィルターに渡される。脳底膜には128個のフィルターがある。したがって、信号がこれらすべてのフィルターを通過し、1つずつ処理されるには、128個のフィルターを合わせた群遅延のため、リアルタイムで処理するには時間がかかりすぎる。この128個のフィルターを実装するのに必要な処理能力も膨大になる。人間の耳では、中耳から心尖までの信号の移動に約10ミリ秒かかるが、これをリアルタイムで実装しようとすると、リアルタイムで出力を得ることは事実上不可能だ。

上記のモデルをリアルタイムで機能させるために、オーディオ信号をデジタル処理する "パラレル・フィルターバンク・モデル "が開発された。128個のフィルターは、それぞれ特定の周波数帯域を処理することがわかっている。したがって、リアルタイム性を実現するために、32のフィルターバンクを並列に使用して信号を処理します。これらの32のフィルター帯域は、クリティカル・バンド・フィルターとも呼ばれます。

図4:クリティカル・フィルター・バンド

図4: クリティカル・フィルター・バンド

人間の聴覚システムはフィルターバンクとしてモデル化され、人間の耳のモデル化に一般的に使用されるスケールは、中心周波数が対数的に構成されるバークスケールとして知られている。

人間の聴覚マスキング

20Hzから20KHzの周波数帯域は、一般的に対数的に整理された臨界帯域(バークバンド)に分けられる。人間の耳のリスニング能力に関する実験から一定の結果が得られており、それに基づいてバークバンドという考え方が生まれた。これらの実験には複雑な信号が使われ、音のマスキング、音の位相の知覚、複雑な音のラウドネス成分に基づいて人間の耳のリスニング能力が分析された。

図5:重なり合うバークバンドとそれぞれの中心周波数

図5: 重なり合う バークバンドとそれぞれの中心周波数
(提供: http://www-i6.informatik.rwth-aachen.de/web/Misc/Coding/365/li/material/notes/Chap4/Chap4.4/Chap4.4.html)

その結果、ある重要な帯域(バークバンド)の信号成分が、同じ帯域の他の成分によってマスクされる可能性があることがわかった。この現象は "帯域内マスキング "と呼ばれる。

その結果、ある重要な帯域(バークバンド)の信号成分が、その近傍の帯域の信号成分によってマスクされる可能性があることが判明した。この現象は "バンド間マスキング "と呼ばれる。

したがって、人間の聴覚システムを周波数分析装置と見なせば、オーディオの周波数帯域を、バンドパスフィルタを重ねたフィルタバンクに近似することができる。

マスキングカーブは、バークスケール上のすべての周波数に対して同じように見える。マスキングカーブは、カーブ下のすべての信号をマスクする。

マスキングには2つの形がある:

  • 同時マスキング(「周波数マスキング」とも呼ばれる)同時マスキングの例としては、人が別の人と会話をしているときに、別の人が大声で叫びながら通り過ぎるような場合がある。このような場合、音量が小さい人の声は、大きな声の通行人の音によってマスキングされてしまいます。音楽でも、異なる楽器がお互いをマスキングするような同様の効果が観察されます。下の図に示すように、「マスカー」周波数よりも音圧レベルが低い特定の周波数(マスキングカーブの近傍)は、消音されるため、聴こえなくなります。

図6:同時マスキング

図6:同時マスキング
(提供: https://www.researchgate.net/figure/Figure-1-Threshold-in-quite-and-masking-threshold-acoustical-events-in-the-closed-curve_fig1_272655094)

  • 非同時マスキング(「テンポラルマスキング」とも呼ばれる)これは時間領域で起こる。時間的マスキングは、わずかな時間間隔で現れることがあります。下図の曲線部分(Pre-MaskingとPost-Masking)の下にある音響イベントはマスキングされます。Post-Masking現象はマスカーの持続時間に依存します。

図7:非同時マスキング(テンポラルマスキング)

図7:非同時マスキング(テンポラルマスキング)
(提供:https://www.sciencedirect.com/topics/computer-science/masking-effect)

マスキング効果は、音声符号化システムを設計する際に考慮される。(音響心理モデル)

MP3エンコーディング技術は、出力ビットレートを下げるために、テンポラルマスキングと周波数マスキングの両方を使用します。マスキングされた信号情報(周波数マスキングと時間マスキングの両方でマスカーの近傍)は通常除去され、「マスカー」データのみがエンコードされるため、出力ビットが減少します。これがオーディオ符号化技術の核心です。

広帯域オーディオ・コーディング

高忠実度のステレオ信号のデータ・レートは、44.1KHzのサンプリング・レート、16ビット/サンプルの一様量子化で約1.4Mbpsである。低ビットレート符号化では、人間の耳のマスキング特性を利用して(上で説明したように)聞き取れない信号を除去します。低ビットレートは、まず周波数帯域をいくつかの帯域に分割し(上記の「バークバンド」のセクションで説明)、それぞれを独立して処理することで達成されます。音響心理モデル(上記の「人間の聴覚マスキング」のセクションで説明)の結果、16ビット入力の1サンプルあたりのデータレートは2~4ビットになります。音は通常、チャンネルごとに独立して処理されます。

まず、マスキング閾値が決定され、冗長なマスキングされたサンプルが破棄され、残りのサンプルが決定論的なビット割り当てアルゴリズムを用いて符号化され、高忠実度オーディオ信号のための低ビットレート出力が得られる。符号化側で冗長な情報を破棄するため、デコーダ出力で冗長な情報を再構築することができず、この符号化・復号化技術を非可逆圧縮アルゴリズムに分類する。

上記の技術は、組み込みメディア処理で最も頻繁に使用されるMP3やAACオーディオコーデックで使用されている。

いくつかのオーディオ・コーデックを以下に説明する:

  • MP3: 組み込みメディア処理業界で最も普及している音声符号化規格。MP3は、1992年にMoving Picture Experts Group (MPEG)がMPEG-1ビデオ規格を補完するために策定したMPEG-1 Audio Layer 3規格として知られている。入力オーディオ信号をサブバンド(バークバンド)に分離するためにポリフェーズデジタルフィルターが使用され、次に時間領域から周波数領域へ信号フレームを変換するために修正離散コサイン変換(MDCT)が使用される。最後に、音響心理モデルを適用して音声信号の冗長部分を除去し(上記で説明)、周波数係数をエンコードして音声信号を圧縮します。
  • AAC:Advanced Audio Codingは、MP3の後に開発された第2世代のコーデックである。MP3と似ているが、MP3よりも大幅に優れた圧縮を実現している。
  • WMA:マイクロソフトは、有料音楽業界のMP3標準に対抗するため、ウィンドウズ・メディア・オーディオ(WMA)として知られる独自(プロプライエタリ)のコーデックを開発した。そのため、コーデックにはDRM(デジタル著作権管理)も組み込まれている。
  • Vorbis:Xiph.orgがリリースしたロイヤリティフリーの非可逆コーデック。このコーデックは、組み込みメディア処理で使用されることが多くなっている。マルチチャンネル圧縮をサポートし、近くのチャンネルから冗長な情報を除去する技術/アルゴリズムも使用している。
  • FLAC: Xiph.orgによってリリースされたロイヤリティフリーのロスレス・コーデックで、上記で説明した音響心理学的エンコーディング技術を使用していません。Free Lossless Audio Codec (FLAC)は、ロスレスという性質上、上記のコーデックほど優れた圧縮はできません。
  • AC-3:ドルビーラボラトリーズがマルチチャンネルオーディオ用に開発したオーディオコーデック。

結論

音響心理学的特性を利用した音声データ圧縮は、組み込みメディア処理領域で成功を収めている。効率的なオーディオコーデック(音声圧縮アルゴリズム)の実装を可能にする様々な圧縮アルゴリズムが作られてきました。現在のオーディオ・コーデックには、品質やビットレートの点でまだ改善の余地がありますが、音響心理モデルはコーデックの実装に不可欠な要素であり続けるでしょう。

私たちeInfochipsは様々なプラットフォーム向けに音声、オーディオ、マルチメディアコーデックを含むDSPミドルウェアの移植、最適化、サポート、メンテナンスソリューションなどのソフトウェア開発サービスを提供しています。

eInfochipsはマルチメディアコーデックの統合、テスト、検証などのサービスを提供しています。また、ディープラーニングアルゴリズム、3Dサウンド用アルゴリズム、オーディオ・ビデオブロックの前処理と後処理の移植と最適化にも対応しています。マルチコアプラットフォーム上でのカスタムアルゴリズムの実装と並列化も得意としています。

オーディオ・プロセッシングの詳細については、今すぐお問い合わせください。

参考文献
https://www.webmd.com/cold-and-flu/ear-infection/picture-of-the-ear#1
https://www.britannica.com/science/ear/Transmission-of-sound-within-the-inner-ear
https://en.wikipedia.org/wiki/Bark_scale
https://www.sciencedirect.com/topics/computer-science/masking-effect
http://www-i6.informatik.rwth-aachen.de/web/Misc/Coding/365/li/material/notes/Chap4/Chap4.4/Chap4.4.html

リシケシュ・アガシェの写真

リシケシュ・アガシェ

IT業界で約19年の経験を持つ。起業家として4年、組込み分野で15年。組込みメディア・プロセッシング分野では、さまざまなマイクロプロセッサー/DSP(ARM/MIPS/TI/CRADLE/CevaDSP/Meta)での音声・音声アルゴリズムの実装に携わった。電子工学と電気通信の学士号(BE)を取得し、起業家としての潜在能力を秘めている。リシケシュ・アガシェはデビュー作家でもある。

もっと見る

専門家に相談 する

ニュースレターの購読
ニュースレター
最新情報をお届けします!ニュースレターにご登録いただき、最新のテクノロジーとイノベーションの動向をご確認ください。

サンプルレポートのダウンロード

カタログダウンロード

今すぐ会話を始めよう

自動車ソリューションのエキスパートによる30分間のコンサルテーションをご予約ください。

今すぐ会話を始めよう

バッテリー管理ソリューションのエキスパートによる30分のコンサルテーションをご予約ください。

今すぐ会話を始めよう

産業・エネルギーソリューションのエキスパートによる30分間のコンサルテーションをご予約ください。

今すぐ会話を始めよう

自動車業界のエキスパートによる30分間のコンサルテーションをご予約ください。

今すぐ会話を始めよう

専門家による30分間のコンサルテーションをご予約ください。

以下の詳細をご記入の上、サンプルレポートをご請求ください。

リファレンス・デザイン

私たちの仕事

イノベーション

変身する。

スケール

パートナーシップ

デバイス・パートナーシップ
デジタル・パートナーシップ
質の高いパートナーシップ
シリコン・パートナーシップ

会社概要

製品とIP

プライバシーポリシー

当社のウェブサイトは、お客様の利便性を向上させ、当社のサイトを改善するために、お客様のデバイスにクッキーを配置します。当社が使用するクッキーとその無効化方法については、こちらをご覧ください。クッキーとトラッキング技術は、マーケティング目的で使用されることがあります。

同意する」をクリックすると、お客様のデバイスにクッキーが配置されること、および当社がトラッキング技術を使用することに同意したことになります。クッキーおよびトラッキング技術の無効化に関する詳細および手順については、以下の「続きを読む」をクリックしてください。Cookieおよびトラッキング技術の受け入れは任意ですが、これらを無効にするとウェブサイトが正しく機能しなくなったり、特定の広告がお客様にとって適切でなくなる可能性があります。
当社はお客様のプライバシーを尊重します。プライバシーポリシーをお読みください。