44.1 kHz – Di sản sót lại từ quá khứ

Con số 44.1 kHz có lẽ đã quá quen thuộc đối với nhiều người chơi âm thanh. Thế nhưng con số này bắt nguồn từ đâu và tại sao nhất thiết phải là 44.1kHz?

CD đã trở thành tiêu chuẩn cơ bản của âm thanh digital từ rất lâu. Khi ta nói đến những thông số như 16-bit/44.1kHz, đó chính là độ dài chuỗi (bit depth) và tần số lấy mẫu (sampling rate) của CD. Thời điểm CD ra mắt vào năm 1982, định dạng này tạo ra những file có dung lượng bị cho là quá lớn. Một đĩa CD thông thường có dung lượng lên đến 500 – 700MB. Cần nhớ đĩa cứng 3.5 đầu tiên xuất hiện vào năm 1983 và dung lượng khi ấy mới chỉ khoảng 10MB. Phải đến đầu những năm 2000, dung lượng đĩa cứng mới đủ lớn để dung lượng của đĩa CD không còn là rào cản cho những hệ thống audio từ nền tảng máy tính nữa. Thậm chí, những ổ cứng với dung lượng lên đến 4TB ngày nay còn là một thứ quá bình thường.

so do Analogue

Khi mà dung lượng lưu trữ (và cả băng thông download) không còn là rào cản nữa, chúng ta không cần phải giới hạn đam mê trong phạm vi 16-bit / 44.1kHz nữa. Cả hai đều có thể mở rộng ra để đạt đến những tiêu chuẩn cao hơn và thực tế, từ năm 2000 đến nay đã có rất nhiều nỗ lực như vậy, đem đến những lợi ích không hề nhỏ. Các định dạng audio với độ dài chuỗi lớn hơn 16 bit và tần số lấy mẫu cao hơn 44.1kHz đều được gọi chung bằng từ “Hi-Res”, viết tắt của “High Resolution” tức “độ phân giải cao”. Thực tế cho thấy các định dạng Hi-Res đang ngày càng phổ biến ở các hệ thống cao cấp.

Một cách đơn giản nhất và cũng tuyệt nhất để tăng chất lượng âm thanh là tăng độ dài chuỗi từ 16 bit lên 24 bit. Điều này cũng giống như việc tăng một dãy chữ số bất kỳ từ 5 số lên 8 số. Một file âm thanh 24-bit cũng giống như một hệ thống băng từ analog với nhiễu tape hiss (tức tiếng sôi rất nhỏ ở phần âm nền, có thể nghe thử ở đây) ở mức dưới -140dB. Chất lượng âm thanh tốt nhất của một mạch analog mà các thiết bị âm thanh digital kết nối cùng nằm trong khoảng -125dB đến -130dB. Trong khi đó, ngay cả những người nhạy cảm nhất cũng chỉ có thể cảm nhận độ nhiễu âm nền thấp nhất là -120dB. Như vậy, các file âm thanh Hi-Res 24-bit có thể sở hữu tất cả những tính chất chúng ta cần liên quan đến độ động. Thứ duy nhất phải đánh đổi chỉ là dung lượng tăng thêm 50% mà thôi.

so do tan so

Tất nhiên, 16-bit và 24-bit chỉ là những con số tương đối. Khi cần tìm sự chính xác, chúng có thể là bất cứ con số nào. Tuy nhiên, việc là bội số của 8 sẽ giúp chúng dễ xử lý hơn. Một vài người có thể nhận ra rằng không ít bàn mix studio thậm chí còn hỗ trợ xử lý các định dạng 32-bit (thậm chí còn cao hơn). Như vậy, chất lượng âm thanh của những file được xử lý hẳn sẽ phải tốt hơn. Tuy nhiên, thực tế cho thấy chúng chỉ giúp việc quản lý hoạt động của bàn mix trở nên chính xác hơn. Khi mix nhiều track với nhau và xử lý digital, lượng bit dư đó sẽ giúp cho các hoạt động được thực hiện với độ chính xác cao hơn hẳn.

Nếu như tăng độ dài chuỗi là một cách đơn giản để có được âm thanh chất lượng cao, vậy tăng tần số lấy mẫu thì sao? Chúng ta thường tin rằng giới hạn nghe của con người không bao giờ vượt quá 20kHz. Tuy nhiên, vẫn có những thử nghiệm cho thấy não bộ có thể phản ứng với những kích thích mang dải tần số lớn hơn 20kHz, kể cả khi chính bản thân cũng không thể nhận ra rằng mình đang nghe hay nghe cái gì. Vấn đề ở chỗ các thí nghiệm trên chưa được xác nhận độc lập, vẫn còn phải chịu khá nhiều thách thức và hoài nghi. Vậy nếu muốn thu lại các tần số dưới 20kHz, và định lý Nyquist-Shannon cho thấy một tần số lấy mẫu 44.1kHz (cùng độ dài chuỗi 24-bit) có thể mã hóa hoàn toàn những gì mà ta nghe được, vậy tại sao chúng cần có tần số lấy mẫu cao hơn? Đó sẽ là câu hỏi phức tạp mà chúng ta cần nghiên cứu trong những bài viết sau này.

so sanh

Và cuối cùng, tại sao lại là 44.1kHz mà không phải là một con số khác đẹp hơn. Đó là vì chúng ta cần một tần số lấy mẫu cao hơn 2 x 20kHz, cộng với một khoảng cho bộ lọc chống chồng phổ (anti-aliasing). Bất cứ con số nào lớn hơn, kết hợp với yêu cầu dữ liệu vốn đã quá ngặt nghèo đều sẽ vượt quá mức có thể kiểm soát được. Quay trở lại cuối thập niên 70, định dạng digital audio sớm nhất chính là các băng cassette VCR. Đó là công nghệ duy nhất có thể xử lý dữ liệu và băng thống yêu cầu. Cách vận hành tiết kiệm và hiệu quả nhất chính là chạy các băng này với cùng tốc độ của các băng VCR dành cho video. Thời điểm ấy có hai chuẩn video phổ biến nhất là PAL và NTSC. Định dạng video của hệ PAL sử dụng 625 dòng với tần số làm mới 50Hz, hệ NTSC là 525 dòng với tần số làm mới 60Hz. Nếu thiết bị transport viết 3 trường audio cho mỗi dòng, yêu cầu tần số lấy mẫu cho hệ PAL (sử dụng 588 dòng/625 dòng) sẽ là (588/2) x 50 x 3 = 44100Hz, với hệ NTSC (sử dụng 490 dòng/525 dòng) sẽ là (490/2) x 60 x 3 = 44100Hz. Bất cứ thiết bị VCR nào cũng có thể dùng làm transport cho digital audio với mức độ chỉnh sửa nhỏ nhất.

Như vậy, có thể thấy 44.1kHz chính là di sản lâu dài, bắt nguồn từ chuẩn video analog của thập niên 50 và 60. Cho đến nay, chúng vẫn còn tồn tại ngay cả ở những định dạng digital audio cao cấp.

Nguyễn Hào