網上很多觀點說,根據采樣定理,48K的音頻采樣率即可無損的表示音頻模擬信號(人耳最多可以聽到20K的音頻),為何還需要96K, 192K等更高的采樣率呢?最先我也有這樣的疑問,畢竟采樣定理是經過數學家證明過的,48K的采樣率確實可以無損的表示20K的音頻信號,注意是無損,而不是近似!
近日重讀《數字音頻技術》這本書,豁然開朗了。大家說的沒錯,采樣定理是數學上證明過了的。但是具體到物理的、各種電子設備來實現這個錄音過程時,器件本身的各種局限性,決定了48K不能達到理論的音質。
例如,根據采樣定理,如果用48K的采樣率,那么音頻信號就不能超過20K(理論是24K,但為了契合人耳的20K上限,后面統一說20K)。而麥克風或者各種拾音器收集到的模擬信號卻包含了很多超出20K的信號。麥克風不是人耳,人耳只能聽到最高20K的聲音,但是,麥克風的震膜卻可以采集到超出20K很多的高頻信號。這些超出20K的高頻信號必須被過濾掉,否則經過48K的采樣率進行采樣時,會產生“混疊效應”,因為根據采樣定理,48K的采樣率最高只能處理20K的信號。
混疊效應,打個比方,當你看高速旋轉的風扇、或者車輪時,你會有一種錯覺:他們好像在倒着轉,這就是混疊效應。在音頻系統中,它們會造成非常嚴重的失真,因為信號采集錯了!
因此,電子系統中,必須使用一種濾波器,把麥克風采集到的原始信號中20K以上的高頻信號完美的過濾掉,只有這樣才能保證符合采樣定理。但是這樣完美的濾波器只存在數學公式中,現實中要制造這樣的濾波器太難了,基本做不到。現實中的濾波器,一方面對於20K以內的信號,並不是完整不變的PASS過去的,而是一條近似水平的波浪線,不同頻率點的信號會有不同程度的衰減;另一方面,20K以外的音頻信號,並不是說立馬就給全部過濾了,它存在一個漸變區域,可能21K, 22K, 23K ... 逐漸給你過濾到0。這樣的物理器件,其輸出信號,實際上是不完全滿足采樣定理數學上的嚴格要求的,因此必然會產生各種各樣的噪聲。
那么,為了進一步提升音頻系統的品質,只有提升采樣率了,96K, 192K,也就有他們存在的意義了。
---------------------------------------------------------------------------------------------------------------------------
華麗的分割線
即使提升了采樣率,還不夠,因為要滿足采樣定理而制造的濾波器,還是太困難了,因此工程師們想了很多辦法。超高采樣率就是這樣,它使用64倍或者128倍20K的采樣率進行采樣,這樣即使原始模擬信號中存在高頻信號,也在采樣定理的保證下,被無損的采樣,而不會發生混疊效應。這就大大降低了對於濾波器的要求了,而且即使濾波器的截止點存在漸變地帶,那也是在很高的頻率了,引入的混疊效應也發生在很高的頻率點,所引入的噪聲遠遠超出人耳的聽覺范圍。可以這么理解:過采樣系統中仍然有噪聲,但是它降低了器件的復雜度,而且它把噪聲趕到人耳聽覺能力以外了。
超高采樣率采集到的數據,包含很多高頻信號,但是可以使用數字濾波器進行濾波,數字濾波器可以使用各種算法進行計算優化,傅里葉變換等等,把高頻信號過濾掉以后,只保留20K以內的音頻信號。根據采樣定理,再數字重采樣到48K的采樣率,輸出給后續系統進行處理。
超高采樣時,就沒有必要使用16位或者24位做AD轉換了,只是用6位、或1位即可,這個叫做delta-segma轉換。
思路至此, DSD格式的音樂就橫空出世了,DSD相對於傳統的PCM,就是另外一片天地了。