【導(dǎo)讀】自然界中的聲音非常復(fù)雜,波形極其復(fù)雜,通常我們采用脈沖編碼碼調(diào)制編碼,即PCM編碼。PCM編碼通過抽樣、量化、編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)換為數(shù)字信號。本文就主要給大家介紹下音頻基礎(chǔ)知識,剛?cè)腴T的小童鞋可以來學(xué)習(xí)下。
采樣(sample)
數(shù)碼音頻系統(tǒng)是通過將聲波波形轉(zhuǎn)換成一連串的二進制數(shù)據(jù)來再現(xiàn)原始聲音的(原始聲音是模擬信號),實現(xiàn)這個步驟使用的設(shè)備是模/數(shù)轉(zhuǎn)換器(A/D轉(zhuǎn)換器,或者ADC,或者analog to digital convert)。它以每秒上萬次的速率對聲波進行采樣,每一次采樣都記錄下了原始模擬聲波在某一時刻的狀態(tài),稱之為樣本。將一串的樣本連接起來,就可以描述一段聲波了,把每一秒鐘所采樣的數(shù)目稱為采樣頻率或采率,單位為HZ(赫茲)。采樣頻率越高所能描述的聲波頻率就越高。采樣率決定聲音頻率的范圍(相當(dāng)于音調(diào)),可以用數(shù)字波形表示。以波形表示的頻率范圍通常被稱為帶寬。要正確理解音頻采樣可以分為采樣的位數(shù)和采樣的頻率。
采樣位數(shù)(采樣精度)
電腦中的聲音文件是用數(shù)字0和1來表示的。所以在電腦上錄音的本質(zhì)就是把模擬聲音信號轉(zhuǎn)換成數(shù)字信號。反之,在播放時則是把數(shù)字信號還原成模擬聲音信號輸出。采樣位數(shù)可以理解為采集卡處理聲音的解析度。這個數(shù)值越大,解析度就越高,錄制和回放的聲音就越真實。采集卡的位是指采集卡在采集和播放聲音文件時所使用數(shù)字聲音信號的二進制位數(shù)。采集卡的位客觀地反映了數(shù)字聲音信號對輸入聲音信號描述的準(zhǔn)確程度。8位代表2的8次方--256,16 位則代表2的16次方--64K。
采樣率(sample rate)
單位時間內(nèi)對媒體對象的采樣次數(shù),單位Hz。采樣頻率是指錄音設(shè)備在一秒鐘內(nèi)對聲音信號的采樣次數(shù),采樣頻率越高聲音的還原就越真實越自然。在當(dāng)今的主流采集卡上,采樣頻率一般共分為 22.05KHz、44.1KHz(44100Hz)、48KHz三個等級,22.05 KHz只能達到FM廣播的聲音品質(zhì),44.1KHz則是理論上的CD音質(zhì)界限,48KHz則更加精確一些。對于高于48KHz的采樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價值。
5kHz的采樣率僅能達到人們講話的聲音質(zhì)量。
11kHz的采樣率是播放小段聲音的最低標(biāo)準(zhǔn),是CD音質(zhì)的四分之一。
22kHz采樣率的聲音可以達到CD音質(zhì)的一半,目前大多數(shù)網(wǎng)站都選用這樣的采樣率。
44kHz的采樣率是標(biāo)準(zhǔn)的CD音質(zhì),可以達到很好的聽覺效果。
通道數(shù)(channel)
分為單聲道m(xù)ono;立體聲stereo。當(dāng)然還存在更多的通道數(shù)。舉個列子,聲道多,效果好,兩個聲道,說明只有左右兩邊有聲音傳過來, 四聲道,說明前后左右都有聲音傳過來
比特率(bitrate)
也叫碼率。針對編碼格式,表示壓縮編碼后每秒的音頻數(shù)據(jù)量大小。計算公式:比特率 = 采樣率 x 采樣精度 x 聲道數(shù)。單位kbps,這里的k為1000
VBR、ABR、CBR
VBR(Variable Bitrate)動態(tài)比特率。也就是沒有固定的比特率,壓縮軟件在壓縮時根據(jù)音頻數(shù)據(jù)即時確定使用什么比特率。這是Xing發(fā)展的算法,他們將一首歌的復(fù)雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯,可惜Xing編碼器的VBR算法很差,音質(zhì)與CBR相去甚遠。幸運的是, Lame完美地優(yōu)化了VBR算法,使之成為MP3的最佳編碼模式。這是以質(zhì)量為前提兼顧文件大小的方式時推薦的編碼模式。
ABR(Average Bitrate)平均比特率,是VBR的一種插值參數(shù)。Lame針對CBR不佳的文件體積比和VBR生成文件大小不定的特點獨創(chuàng)了這種編碼模式。ABR也被稱為“Safe VBR”,它是在指定的平均Bitrate內(nèi),以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對低的流量,高頻和大動態(tài)表現(xiàn)時使用高流量。舉例來說,當(dāng)指定用192kbps ABR對一段wav文件進行編碼時,Lame會將該文件的85%用192kbps固定編碼,然后對剩余15%進行動態(tài)優(yōu)化:復(fù)雜部分用高于192kbps 來編碼、簡單部分用低于192kbps來編碼。與192kbps CBR相比,192kbps ABR在文件大小上相差不多,音質(zhì)卻提高不少。ABR編碼在速度上是VBR編碼的2到3倍,在128-256kbps范圍內(nèi)質(zhì)量要好于CBR??梢宰鰹?VBR和CBR的一種折衷選擇。
CBR(Constant Bitrate),常數(shù)比特率,指文件從頭到尾都是一種位速率。相對于VBR和ABR來講,它壓縮出來的文件體積很大,但音質(zhì)卻不會有明顯的提高。
有損和無損
根據(jù)采樣和量化的過程可知,音頻編碼最多只能做到無限接近 自然界的信號 ,至少目前的技術(shù)還不可能將其完全一樣。這是因為自然界的信號是連續(xù)的,而音頻編碼后的 值 是離散的。因此,任何數(shù)字音頻編碼方案都是有損的,這也就意味著任何的音頻都不可能完全還原出自然界的聲音。
在計算機應(yīng)用中, PCM編碼 能夠達到最高保真水平。它已經(jīng)被廣泛地應(yīng)用于素材保存及音樂欣賞,包括CD、DVD以及 WAV文件等等。因此,PCM約定俗成了無損編碼,但是這并不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。
我們習(xí)慣性地把MP3列入有損音頻編碼范疇,這是相對PCM編碼的。
強調(diào)編碼的相對性的有損和無損,要做到真正的無損是非常困難,甚至是不可能的。就如同,我們用小數(shù)去表達圓周率,不管小數(shù)精度有多高,也只能無限地接近,而不是真正等于圓周率的值。
為什么要使用音頻壓縮技術(shù)
要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值&TImes;采樣大小值&TImes;聲道數(shù)bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道 的PCM編碼的WAV文件,它的數(shù)據(jù)速率則為 44.1K&TImes;16&TImes;2=1411.2 Kbps。我們常說128K的MP3,對應(yīng)的WAV的參數(shù),就是這個1411.2Kbps,這個參數(shù)也被稱為數(shù)據(jù)帶寬,它和ADSL中的帶寬是一個概念。 將碼率除以8,就可以得到這個WAV的數(shù)據(jù)速率,即176.4KB/s。這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM 編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用, 只有2種方法,降低采樣指標(biāo)或者壓縮。降低指標(biāo)是不可取的,因此專家們研發(fā)了各種壓縮方案。由于用途和針對的目標(biāo)市場不一樣,各種音頻壓縮編碼所達到的音 質(zhì)和壓縮比都不一樣,在后面的文章中我們都會一一提到。有一點是可以肯定的,他們都壓縮過。
頻率與采樣率的關(guān)系
采樣率表示了每秒對原始信號采樣的次數(shù),我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢?假設(shè)我們有2段正弦波信號,分別為 20Hz和20KHz,長度均為一秒鐘,以對應(yīng)我們能聽到的最低頻和最高頻,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什么樣的結(jié)果呢?結(jié)果是:20Hz的信號每次振動被采樣了40K/20=2000次,而20K的信號每次振動只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠比高頻的詳細。這也是為什么有些音響發(fā)燒友指責(zé)CD有數(shù)碼聲不夠真實的原因,CD的44.1KHz采樣也無法保證高頻信號被較好記錄。要較好的記錄高頻信號,看來需要更高的采樣率,于是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率,這是不可取的!這其實對音質(zhì)沒有任何好處,對抓軌軟件來說,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質(zhì)的保證之一,而不是去提高它。較高的采樣率只有相對模擬信號的時候才有用,如果被采樣的信號是數(shù)字的,請不要 去嘗試提高采樣率。
PCM編碼
PCM脈沖編碼調(diào)制是Pulse CodeModulation的縮寫。前面的文字我們提到了PCM大致的工作流程,我們不需要關(guān)心PCM最終編碼采用的是什么計算方式,我們只需要知道 PCM編碼的音頻流的優(yōu)點和缺點就可以了。PCM編碼的最大的優(yōu)點就是音質(zhì)好,最大的缺點就是體積大。我們常見的AudioCD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。
WAVE
這是一種古老的音頻文件格式,由微軟開發(fā)。WAV是一種文件格式,符合 PIFF Resource Interchange FileFormat規(guī)范。所有的WAV都有一個文件頭,這個文件頭音頻流的編碼參數(shù)。WAV對音頻流的編碼沒有硬性規(guī)定,除了PCM之外,還有幾乎所有 支持ACM規(guī)范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示范,因為AVI和WAV在文件結(jié)構(gòu)上是非常相似的,不過 AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經(jīng)常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種 視頻編碼,AVI可以采用DivX編碼來壓縮視頻流,當(dāng)然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的 都是音頻流被PCM編碼處理的WAV,但這不表示W(wǎng)AV只能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,只要安裝好了相應(yīng)的 Decode,就可以欣賞這些WAV了。
在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持, 由于本身可以達到較高的音質(zhì)的要求,因此,WAV也是音樂編輯創(chuàng)作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式, 常常使用在其他編碼的相互轉(zhuǎn)換之中,例如MP3轉(zhuǎn)換成WMA。
MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關(guān)的軟件產(chǎn)品層出不窮,而且更多的硬件產(chǎn)品也開始支持MP3,我們能夠買 到的VCD/DVD播放機都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮 的格式的生存與流傳。MP3發(fā)展已經(jīng)有10個年頭了,他是MPEG(MPEG:Moving Picture Experts Group) AudioLayer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國FraunhoferIIS研究院和湯姆生公司合作發(fā)展成功。MP3可以 做到12:1的驚人壓縮比并保持基本可聽的音質(zhì),在當(dāng)年硬盤天價的日子里,MP3迅速被用戶接受,隨著網(wǎng)絡(luò)的普及,MP3被數(shù)以億計的用戶接受。MP3編 碼技術(shù)的發(fā)布之初其實是非常不完善的,由于缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質(zhì)破壞嚴重。隨著新技術(shù)的不斷導(dǎo) 入,mp3編碼技術(shù)一次一次的被改良,其中有2次重大技術(shù)上的改進。
VBR:MP3格式的文件有一個有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征。也就是說播放器可以不用預(yù)讀文件的全部內(nèi)容就可以播放,讀到哪里播放到哪里,即使是文件有部分損壞。雖然mp3可以有文件頭,但對于 mp3格式的文件卻不是很重要,正因為這種特性,決定了MP3文件的每一段每一幀都可以單獨的平均數(shù)據(jù)速率,而無需特別的解碼方案。于是出現(xiàn)了一種叫 VBR(Variablebitrate,動態(tài)數(shù)據(jù)速率)的技術(shù),可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在 保證音質(zhì)的前提下最大程度的限制了文件的大小。這種技術(shù)的優(yōu)越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配 bitrate,這對沒有波形分析的編碼器而言,這種技術(shù)如同虛設(shè)。正是如此,VBR技術(shù)并沒有一出現(xiàn)就顯得光彩奪目。
專家們通過長期的聲學(xué)研究,發(fā)現(xiàn)人耳存在遮蔽效應(yīng)。聲音信號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的 反應(yīng)就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小 不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人 耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型,當(dāng)頻率超過15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻 率,不管響度有多大。當(dāng)人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風(fēng)扇的聲音,晚上卻 成了噪聲源,根據(jù)這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息復(fù)雜度,增加壓縮比,而不明顯的降低音質(zhì)。這種遮蔽被稱為同時遮蔽效應(yīng)。但聲音 A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內(nèi),遮蔽會更明顯,這個范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500
根據(jù)這種效應(yīng),專家們設(shè)計出人耳聽覺心理模型,這個模型被導(dǎo)入到mp3編碼中后,導(dǎo)致了一場翻天覆地的音質(zhì)革命,mp3編碼技術(shù)一直背負著音質(zhì) 差的惡名,但這個惡名現(xiàn)在已經(jīng)逐漸被洗脫。到了此時,一直被埋沒的VBR技術(shù)光彩四射,配合心理模型的運用便現(xiàn)實出強大的誘惑力與殺傷力。
長期 來,很多人對MP3印象不好,更多人認為WMA的最佳音質(zhì)要好過MP3,這種說法是不正確的,在中高碼率下,編碼得當(dāng)?shù)腗P3要比WMA優(yōu)秀很多,可以非 常接近CD音質(zhì),在不太好的硬件設(shè)備支持下,沒有多少人可以區(qū)分兩者的差異,這不是神話故事,盡管你以前盲聽就可以很輕松區(qū)分MP3和CD,但現(xiàn)在你難保 證你可以分辨正確。因為MP3是優(yōu)秀的編碼,以前被埋沒了。