Bài giảng Truyền thông đa phương tiện - Chương 2: Kỹ thuật audio và video - Trần Bá Nhiệm - Bai giang Truyen thong da phuong tien - Chuong 2 Ky thuat audio va video - Tran Ba Nhiem

Tóm tắt Bài giảng Truyền thông đa phương tiện - Chương 2: Kỹ thuật audio và video - Trần Bá Nhiệm: ...M), mỗi kênh sử dụng một khe thời gian được ấn định trước 27Trần Bá Nhiệm Truyền thông đa phương tiện Ghép kênh 28Trần Bá Nhiệm Truyền thông đa phương tiện Mã hóa audio cảm quan • Mục đích – Biểu diễn chuỗi số ngắn gọn – Tốc độ bit thấp – Chất lượng cao • Động cơ – Giảm tốc độ dữ liệu ... đáp ứng của các cường độ khác nhau • Đáp ứng của tai với các tần số khác nhau • Nghe một âm khi có mặt một âm khác 51Trần Bá Nhiệm Truyền thông đa phương tiện Ngưỡng nghe tuyệt đối • Ngưỡng nghe tuyệt đối - ATH (Absolute Theshold of Hearing) – Thí nghiệm: để một người trong phòng kín, im ... đa phương tiện MPEG-1 68Trần Bá Nhiệm Truyền thông đa phương tiện MPEG-1 69Trần Bá Nhiệm Truyền thông đa phương tiện MPEG-1 70Trần Bá Nhiệm Truyền thông đa phương tiện MPEG-1 • Thuật toán cơ bản – Tiến hành chia ngõ vào thành 32 băng con bởi các băng lọc: Lấy 32 mẫu PCM trong cùng một th...
97 trang | Chia sẻ: havih72 | Lượt xem: 410 | Lượt tải: 0
Nội dung tài liệu Bài giảng Truyền thông đa phương tiện - Chương 2: Kỹ thuật audio và video - Trần Bá Nhiệm, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nhiệm Truyền thông đa phương tiện
Mã hóa audio cảm quan
• Mã hóa nguồn không thực tế với tín hiệu 
audio, do đó người ta muốn thực hiện phải 
tiến hành:
– Khai thác các đặc tính thu được
– Loại bỏ các thành phần không thích hợp với cảm 
nhận
– Giảm các dư thừa thống kê
31Trần Bá Nhiệm Truyền thông đa phương tiện
Mã hóa audio cảm quan
32Trần Bá Nhiệm Truyền thông đa phương tiện
Tiêu chuẩn lấy mẫu
33
– Băng thông
– Tốc độ
– Chất lượng
– Độ trễ
Trần Bá Nhiệm Truyền thông đa phương tiện
Băng lọc số
• Là một tập hợp các bộ lọc số có chung đầu vào 
nhiều đầu ra hoặc chung đầu ra nhiều đầu vào
• Băng lọc số phân tích là tập hợp các bộ lọc số 
có đáp ứng tần số Hk(e
j) có chung đầu vào và 
nhiều đầu ra
34Trần Bá Nhiệm Truyền thông đa phương tiện
Băng lọc số
• Ngõ ra gồm M tín hiệu Xk(n) chiếm dải tần liên 
tiếp nhau gọi là các tín hiệu băng con 
(subband)
• Các bộ lọc H0(e
j): thông thấp, HM-1(e
j): thông 
cao, Hi(e
j): thông dải (với i từ 1 đến M – 2)
35Trần Bá Nhiệm Truyền thông đa phương tiện
Băng lọc số tổng hợp
• Là tập hợp các bộ lọc số có đáp ứng tần số 
Gk(e
j) có chung đầu ra
• Các bộ lọc G0(e
j): thông thấp, GM-1(e
j): thông 
cao, Gi(e
j): thông dải (với i từ 1 đến L – 2)
36Trần Bá Nhiệm Truyền thông đa phương tiện
Băng lọc số nhiều nhịp 2 kênh và băng 
lọc gương cầu phương QMF 
(Quadrature Mirror Filter Bank)
• Băng lọc số nhiều nhịp là sự kết hợp của băng 
lọc số phân tích, băng lọc số tổng hợp với bộ 
phân chia và bộ nội suy
• Với số bộ lọc của băng lọc phân tích và tổng 
hợp bằng 2 thì ta có băng lọc số nhiều nhịp 2 
kênh 
37Trần Bá Nhiệm Truyền thông đa phương tiện
Băng lọc số nhiều nhịp 2 kênh và băng 
lọc gương cầu phương QMF 
(Quadrature Mirror Filter Bank)
• Các bộ lọc H0(ej), G0(ej): thông thấp, 
H1(ej), G1(ej): thông cao
• Lý tưởng:   = ()
38Trần Bá Nhiệm Truyền thông đa phương tiện
Băng lọc số nhiều nhịp 2 kênh và băng 
lọc gương cầu phương QMF 
(Quadrature Mirror Filter Bank)
• Nếu (
) = (
) và nếu chọn tần số 
cắt cho 2 bộ lọc là /2 ta thấy (
) là 
ảnh của (
) 	qua gương đặt ở vị trí /2. 
Băng lọc nhiều nhịp 2 kênh như vậy gọi là 
băng lọc gương cầu phương
• Nếu   = c( − ) giống dạng tín hiệu 
ngõ vào thì ta gọi là băng lọc gương cầu 
phương khôi phục hoàn hảo PRQMF (Perfect 
ReconstructureQMF)
39Trần Bá Nhiệm Truyền thông đa phương tiện
Mã hóa băng con và cấu trúc bộ lọc 
QMF
• Dùng bộ lọc số
• Thuận lợi trong việc nén tín hiệu âm thanh vì 
phổ tập trung không đồng đều. Từ đó ta có 
được sự phân bố hợp lý, vừa hiệu quả vừa đạt 
chất lượng cao
40Trần Bá Nhiệm Truyền thông đa phương tiện
Cấu trúc dạng cây đơn phân giải
41Trần Bá Nhiệm Truyền thông đa phương tiện
Cấu trúc dạng cây đa phân giải
42Trần Bá Nhiệm Truyền thông đa phương tiện
Các phương pháp mã hóa chuyển đổi
• FFT (Fast Fourier Transform)
• DFT (Discrete Fourier Transform)
• DCT (Discrete Cosine Transform)
• MDCT (Modified DCT)
• Wavelets
43Trần Bá Nhiệm Truyền thông đa phương tiện
DCT (Discrete Cosine Transform)
• DCT là phép biến đổi trực giao, là một thuật 
toán hiệu quả cho các đặc tính nén mạnh và 
giảm độ tương quan
44Trần Bá Nhiệm Truyền thông đa phương tiện
MDCT (Modified DCT)
• MDCT là phép biến đổi trực giao tuyến tính 
được sửa đổi từ DCT
45Trần Bá Nhiệm Truyền thông đa phương tiện
Wavelests
• Wavelests có thể được xem như một bộ phân 
tích băng con với cây không cân bằng, nghĩa là 
các tần số được chia một cách không đồng 
nhất
• Băng lọc tương đồng với dải tới hạn
46Trần Bá Nhiệm Truyền thông đa phương tiện
DWT (DiscreteWaveletTransform)
• Mở rộng và dịch chuyển “hàm mẹ” h(t) bằng 
cách định nghĩa một cơ sở trực giao, wavelet 
cơ sở:
hn.m(t) = 2
-m/2 h (2-m t – n)
Trong đó: n là tỷ lệ, m là độ dời và t là thời gian
• Hệ số n chỉ thị độ rộng của các wavelet và hệ 
số vị trí m xác định vị trí của nó. Với hàm mẹ 
h(t) ta được một tập hàm wavelet trực giao cơ 
sở
47Trần Bá Nhiệm Truyền thông đa phương tiện
DWT (DiscreteWaveletTransform)
• Trực giao: f(t), g(t) là hai vector thuộc không 
gian L2(a, b), t [a, b]. Hai vector là trực giao 
khi tích vô hướng của chúng bằng 0
• Cơ sở trực giao: tập các vector {vk} = {v1, , vn} 
được gọi là cơ sở trực giao nếu chúng trực 
giao từng đôi một và có độ dài bằng 1
48Trần Bá Nhiệm Truyền thông đa phương tiện
DWT (DiscreteWaveletTransform)
• = mn
• Hay 
• Hàm delta:
• Chuyển đổi wavelet: 
• Chuyển đổi wavelet ngược: 
49Trần Bá Nhiệm Truyền thông đa phương tiện
Phân tích tâm lý âm học
• Hệ thống thính giác của con người
– Được chú trọng khai thác trong audio cảm quan
– Trong dải 20Hz đến 20kHz thì khả năng nghe 
không đồng nhất với các tần số - việc cảm nhận 
phụ thuộc vào mức áp lực và tùy thuộc vào từng 
người
– Dải 20Hz  20kHz được chia thành các dải con 
không đồng nhất và không tuyến tính. Cảm nhận 
tốt trong khoảng 2kHz đến 4kHz và ngưỡng nghe 
đến ngưỡng đau khoảng 96dB 
50Trần Bá Nhiệm Truyền thông đa phương tiện
Phân tích tâm lý âm học
• Hệ thống thính giác của con người
– Phụ thuộc vào môi trường nghe, với môi trường 
nhiễu lớn thì hạn chế khả năng nghe và khả năng 
phân biệt các âm thanh khác nhau
– Vậy phân tích tâm lý nghe là xét các vấn đề:
• Độ nhạy của tai, khả năng đáp ứng của các cường độ 
khác nhau
• Đáp ứng của tai với các tần số khác nhau
• Nghe một âm khi có mặt một âm khác
51Trần Bá Nhiệm Truyền thông đa phương tiện
Ngưỡng nghe tuyệt đối
• Ngưỡng nghe tuyệt đối - ATH (Absolute 
Theshold of Hearing)
– Thí nghiệm: để một người trong phòng kín, im 
lặng, phát âm kiểm tra với tần số xác định (1kHz), 
tăng mức âm thanh cho đến khi có thể nghe 
được, ghi lại các giá trị và lặp lại với tần số khác
– Vẽ đồ thị, ta được ngưỡng nghe tuyệt đối
– Thử với người khác, ghi kết quả 
52Trần Bá Nhiệm Truyền thông đa phương tiện
Dải tới hạn (critical bankwidth)
• Fletcher thí nghiệm và thấy việc nghe của con 
người giống như dùng các bộ lọc tâm sinh lý 
có độ rộng gần bằng một giá trị tới hạn và 
Fletcher gọi độ rộng của bộ lọc tới hạn là dải 
tới hạn
• Dải tới hạn biểu diễn công suất xác định của 
tai cho các tần số hay dải tần số liên tục
53Trần Bá Nhiệm Truyền thông đa phương tiện
Dải tới hạn (critical bankwidth)
• Các thí nghiệm cho thấy rằng:
– Với các tần số che nhỏ hơn 500Hz thì dải tới hạn 
không đổi với độ rộng khoảng 100Hz
– Với các tần số che lớn hơn 500Hz thì dải tới hạn có 
độ rộng tăng tương đối tuyến tính theo tần số
• Vậy thang tần số không tuyến tính  thang 
bark (Barkhausen)
• Flecher chia băng thông âm thanh thành 25 
dải tới hạn
54Trần Bá Nhiệm Truyền thông đa phương tiện
Dải tới hạn (critical bankwidth)
55Trần Bá Nhiệm Truyền thông đa phương tiện
Dải tới hạn (critical bankwidth)
• Bark là đơn vị để biểu diễn một dải tới hạn, 1 
bark = 1 độ rộng dải tới hạn
• Công thức chuyển đổi:
• Hoặc: 1 bark = 13 arctg(0,76f) + 3,5 
arctg(f/7500) 
• Hoặc: 1 bark = 13 arctg(0,76f) + 3,5 
arctg(f2/65,25) 
56Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật che (masking)
• Con người khi nghe một âm với sự có mặt của 
một âm khác sẽ cảm nhận yếu đi khi âm này 
có tần số gần với âm cần nghe hoặc biên độ 
lớn
• Che tần số (frequency masking) : 
– Thí nghiệm: Để một người trong phòng kín, phát 
ra một âm che (maskingtone) với tần số xác định 
(1,1kHz) ở một mức nào đó (60dB); tăng mức âm 
thanh cho đến khi có thể nghe được; thay đổi âm 
kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che khác
57Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật che (masking)
• Che thời gian (temporal masking) : 
– Thí nghiệm: Phát ra một âm che với tần số 1kHz, 
biên độ 55dB, thêm một âm kiểm tra 1,1kHz, biên 
độ 20dB trước và sau âm che. Âm kiểm tra không 
thể nghe được (nó đang bị che)
– Lặp lại các mức khác của âm kiểm tra và vẽ
– Với thí nghiệm này, âm 1,1kHz với 20dB bị che 
trước khoảng 15ms và che sau khoảng 50ms
58Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật che (masking)
• Che thời gian (temporal masking) : 
59Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật nén audio
• Cơ sở:
– Âm thanh trung thực và chất lượng dịch vụ thỏa 
mãn thì tốc độ dòng dữ liệu phải lớn
– Ví dụ: hệ thống âm thanh đa kênh mã hóa 16 bit, 
tần số lấy mẫu 48kHz (6 kênh) sẽ có tốc độ 
48x16x6=4,5Mbps
– Tốc độ cao  khó khăn lưu trữ, truyền dẫn và giá 
thành thiết bị; do vậy cần phải nén
60Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật nén audio
• Nén không tổn hao
– Khôi phục đúng thông tin ban đầu sau khi giải nén
– Loại bỏ dư thừa thống kê, các thông tin xuất hiện 
trong tín hiệu mà có thể dự báo trước
– Tỷ số nén thấp, khoảng 2:1; phụ thuộc vào mức 
độ phức tạp của nguồn
– Thường dùng kỹ thuật mã hóa dự đoán trong 
miền thời gian
61Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật nén audio
• Thuật toán vi sai
– Tín hiệu âm thanh có đặc tính lặp đi lặp lại nên xuất 
hiện sự dư thừa số liệu. Thông tin lặp lại sẽ được loại 
bỏ trong quá trình mã hóa và được đưa vào lại trong 
quá trình giải mã dùng kỹ thuật DPCM
– Các tín hiệu audio đầu tiên được phân tích thành tập 
hợp các dải băng con bao gồm một số lượng âm thanh 
rời rạc, sau đó DPCM được dùng để dự báo các tín 
hiệu lặp lại theo chu kỳ. Nếu dùng ADPCM sẽ cho kết 
quả còn tốt hơn nữa
62Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật nén audio
• Mã hóa Entropy
– Tận dụng độ dư thừa trong cách miêu tả các hệ số 
băng con đã lượng tử hóa nhằm cải thiện tính 
hiệu quả của quá trình mã hóa. Các hệ số lượng tử 
được gửi đi theo sự tăng dần của tần số
– Kết quả nhận được là bảng mã tối ưu thống kê các 
giá trị miền tần số thấp và cao
– Dùng mã hóa Hufman, Lempel-Zip để nén
63Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật nén audio
• Nén tổn hao
– Hệ thống thính giác của con người không thể phân 
biệt các thành phần phổ có biên dộ nhỏ giữa các 
thành phần phổ có biên độ lớn
– Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá 
trình nén và chất lượng audio yêu cầu
64Trần Bá Nhiệm Truyền thông đa phương tiện
Kỹ thuật nén audio
• Nén tổn hao
– Các kỹ thuật:
• Kỹ thuật che đ/v các thành phần tín hiệu trong miền thời 
gian và tần số
• Che mức tạp âm lượng tử cho từng âm độ của tín hiệu âm 
thanh bằng cách chỉ định số bit vừa đủ để chắc chắn rằng 
mức nhiễu lượng tử luôn nằm dưới mức giá trị cần che
• Mã hóa ghép: khai thác độ dư thừa trong hệ thống audio đa 
kênh với các thành phần số liệu trong các kênh giống nhau. 
Mã hóa một phần số liệu chung trên một kênh và chỉ định 
cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại
65Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Được phát triển trên cơ sở phối hợp chuẩn 
ISO/IEC 11172
• Dùng tần số lấy mẫu của CD-DA với fs = 32kHz 
hoặc 44kHz hoặc 48kHz; mã hóa 16bit/mẫu tín 
hiệu
66Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Tốc độ bit: 32 – 768kbps/channel
• Các kiểu: Mono, dual-mono, dual-stereo, joint-
stereo
• Xác định các tham số khác nhau về tốc độ, 
dòng số sau khi nén, số mẫu trong header cho 
một kênh, cấu trúc thời gian khung, phương 
pháp mã hóa dự đoán và các chế độ làm việc
67Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
68Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
69Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
70Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Thuật toán cơ bản
– Tiến hành chia ngõ vào thành 32 băng con bởi các 
băng lọc: Lấy 32 mẫu PCM trong cùng một thời 
điểm, kết quả là 32 hệ số tần số ở ngõ ra
– Trong MPEG-1 lớp I thì tập 32 giá trị PCM được kết 
hợp vào trong khối gồm 12 nhóm 32 mẫu này
– MPEG-1 lớp II và III thì gồm 3 khối 12 nhóm này
– Phân bố bit đảm bảo rằng mọi nhiễu lượng tử 
nằm ở dưới các ngưỡng che
71Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Thuật toán cơ bản
– Với mỗi băng con, xác định mức biên độ và mức 
nhiễu bằng mô hình tâm sinh lý nghe. SMR (signal 
mask rate) được dùng để xác định số bit cho quá 
trình lượng tử hóa đ/v mỗi băng con với mục đích 
giảm thiểu dung lượng
– Ví dụ: sau khi phân tích, mức của 16 băng con đầu 
là: 
72Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Thuật toán cơ bản
– Nếu mức của băng con thứ 8 là 60 thì nó che 12dB 
ở băng con thứ 7 và 15dB ở băng con thứ 9
– Băng con thứ 7 có mức 10dB<12dB: loại. Băng con 
thứ 9có mức 35dB>15dB: gửi đi  chỉ có các mức 
lớn hơn mức che là được gửi đi  thay vì dùng 6 
bit để mã hóa, ta chỉ cần dùng 4 bit  tiết kiệm
– MPEG LayerI: bộ lọc DCT 1 khung và tần số bằng 
phẳng trong mỗi băng con. Mô hình tâm sinh lý 
nghe dùng che tần số
73Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Thuật toán cơ bản
– MPEG LayerII: có 3 khung trong bộ lọc (trước, hiện 
tại và kế), tổng là 1125 mẫu. Sử dụng bài bit để 
che thời gian
– MPEG LayerIII: dùng bộ lọc tới hạn để đáp ứng tốt 
hơn. Mô hình tâm sinh lý nghe dùng che thời gian, 
che tần số, tính toán độ dư thừa stereo và mã hóa 
Huffman
74Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Cấu trúc khung
– Header info: bao gồm 12 bit đồng bộ, 20 bit thông 
tin hệ thống chỉ thị tốc độ bit, tần số lấy mẫu, 
dạng nhấn, 16 bit CRC với đa thức sinh x16 + x15
+ x2 + 1
75Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-1
• Cấu trúc khung
– Side info: có phân bố bit như sau: lớp 1 với 4 bit 
tuyến tính cho các băng con, lớp II 4 bit cho các 
băng con tần thấp, 3 bit tần trung và 2 bit tần cao; 
hệ số tỷ lệ là 6 bit/băng con kết hợp với phân bố 
bit và các bit mã hóa cho băng con đó để xác định 
giá trị, lớp III mã hóa âm thanh nổi
– Subband sample: 32 x 12 mẫu đối với lớp I và 32 x 
36 mẫu đối với lớp II và lớp III
– Aux data: dữ liệu bổ sung
76Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-2
• Mở rộng MPEG-1 cho các ứng dụng mới
• Có khả năng áp dụng nhiều tốc độ khác nhau 
từ 32 đến 1066kbps. Tần số lấy mẫu có thể 
giảm một nửa so với MPEG-1 (16; 22,05; 
24kHz)
• Khả năng đa kênh, tốc độ bit mở rộng có thể 
lên đến 1 Mbps cho các ứng dụng tốc độ cao. 
Cho phép nén đồng thời nhiều kênh
77Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-2
• Chất lượng âm thanh tùy thuộc ứng dụng
• Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn 
ngữ trong phần bit mở rộng
• Sử dụng khả năng mã hóa cường độ cao, giảm 
xuyên âm, mã hóa dự đoán liên kênh và mã hóa 
ảo ảnh kênh trung tâm để nhận được tốc độ bit 
kết hợp 384kb/s
• Khung được chia làm 2 phần, phần đầu là MPEG-
1 stereo, phần mở rộng MPEG-2 chứa tất cả 
những dữ liệu surround khác
78Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-2
79Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-2
• Mã hóa và giải mã
80Trần Bá Nhiệm Truyền thông đa phương tiện
MPEG-2
• Mã hóa và giải mã
– Trong đó:
– Với R: phải, L: trái, C: trung tâm, LS: trái vòm, RS: 
phải vòm  dễ dàng trong mã hóa thuận/nghịch
– Cấu trúc khung
81Trần Bá Nhiệm Truyền thông đa phương tiện
AC-3 (Dolby Digital)
• Chuyển tải âm thanh đa kênh trong các ứng dụng 
như DVD-video, DTV và DBS
• Phát triển từ AC-1, AC-2
• Mã hóa âm thanh từ 1 đến 6 kênh, thông thường 
cung cấp âm thanh 5.1 kênh: trái, phải, trung 
tâm, trái vòm, phải vòm và 1 kênh hiệu ứng tần 
số thấp (âm trầm)
• 6 kênh yêu cầu 6 x 48kHz x 18 bit = 5,184 Mb/s 
chưa nén có thể được mã hóa tối thiểu với tốc độ 
384kb/s (tỷ lệ 13:1)
Trần Bá Nhiệm Truyền thông đa phương tiện 82
AC-3 (Dolby Digital)
• Tuy nhiên AC-3 hỗ trợ tốc độ từ 32 đến 
640kb/s
• Cung cấp khả năng tự chọn mức âm thanh cho 
thính giả
• Cho phép giảm dữ liệu bằng quá trình lượng 
tử biểu diễn trong miền tần số của tín hiệu âm 
thanh
Trần Bá Nhiệm Truyền thông đa phương tiện 83
AC-3 (Dolby Digital)
• Bộ mã hóa dùng băng lọc phân tích chuyển các 
mẫu PCM thành các hệ số trong miền tần số. Mỗi 
hệ số biểu diễn ký hiệu mũ nhị phân gồm phần số 
mũ và phần định trị. Các tập số mũ được mã hóa 
thô qua phổ tín hiệu và xem như là đường bao 
phổ. Dùng phân phối bit xác định số bit cần mã 
hóa mỗi định trị dựa vào đường bao phổ. Đường 
bao phổ và các định trị được lượng tử cho 6 khối 
âm thanh (1536 mẫu âm thanh) được định dạng 
thành khung rồi chuyển đi
Trần Bá Nhiệm Truyền thông đa phương tiện 84
AC-3 (Dolby Digital)
• Mã hóa
Trần Bá Nhiệm Truyền thông đa phương tiện 85
APT-X100
• Cho tỷ lệ nén 4:1
• Dùng để truyền dẫn, lưu trữ các tín hiệu 
mono, stereo hay đa kênh chất lượng cao
• Không hẳn dựa vào mô hình tâm sinh lý nghe, 
cũng không trực tiếp loại các thành phần 
không thích hợp trong tín hiệu audio mà ngầm 
hiểu một mô hình đáp ứng nghe bằng việc 
phân phối ít bit ở tần số cao
Trần Bá Nhiệm Truyền thông đa phương tiện 86
APT-X100
• Thuật toán hoàn toàn trong miền thời gian, 
dùng mã hóa dự đoán tuyến tính trong các 
băng con
• Hoạt động với bất kỳ tần số lấy mẫu nào với 
ngõ ra 16 bit/từ mẫu
• Tín hiệu audio chia thành 4 băng con với băng 
thông đều như nhau dùng các bộ lọc QMF
Trần Bá Nhiệm Truyền thông đa phương tiện 87
APT-X100
• Tín hiệu được phân tích trong miền thời gian: 
dùng mã hóa dự đoán tuyến tính ADPCM để 
lượng tử mỗi băng theo nội dung và loại bỏ độ 
dư thừa trong các băng con
• Mã hóa sự khác biệt của mẫu hiện thời và 
mẫu trước
• Giải mã được tiến hành ngược lại cách trên
Trần Bá Nhiệm Truyền thông đa phương tiện 88
Mã hóa âm thanh nổi
Trần Bá Nhiệm Truyền thông đa phương tiện 89
Mã hóa âm thanh nổi
• Mã hóa Trái-Phải (LR)
– Không loại bỏ độ dư thừa
– Các kênh riêng biệt được mã 
hóa độc lập
– Ngưỡng che không liên quan
– Hiệu quả với âm thanh rất 
khác biệt giữa kênh trái và 
kênh phải
Trần Bá Nhiệm Truyền thông đa phương tiện 90
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Khuynh hướng của Join Stereo không chỉ là kết 
hợp các định dạng của chuẩn nén MP3 (MPEG-1 
lớp III) mà còn kết hợp các dạng nén khác như 
MPEG và AAC
– Middle-Side Stereo xét 2 kênh dữ liệu theo 2 
phương diện khác nhau. Thay vì lưu trữ một dữ 
liệu âm thanh theo 2 kênh Left-Right ta chỉ cần lưu 
trữ một chuỗi tương tự số trung bình Average và 
sự sai biệt Difference (của Left và Right) 
Trần Bá Nhiệm Truyền thông đa phương tiện 91
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Middle-Side có thể lấy Middle=(L+R)/2 và 
Side=(LR)/2
– Dấu của Side rất quan trọng, nếu dương thì nghĩa 
là tín hiệu L lớn hơn R
– Hoàn toàn có thể tái tạo 2 kênh L, R như sau: 
L=Middle + Side, R=Middle  Side
Trần Bá Nhiệm Truyền thông đa phương tiện 92
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Ưu điểm là sự khác biệt tương đối của các tín 
hiệu audio của các kênh L và R. Kết quả kênh 
Middle lớn hơn nhiều so với Side. Việc mã hóa 
kênh Side dùng ít bit hơn để giải phóng tài nguyên 
để có thể triển khai hữu hiệu hơn trên kênh 
Middle. Khi tải định dạng lại L, R thì kết quả sẽ thể 
hiện tín hiệu gốc ngõ vào “thực” hơn
Trần Bá Nhiệm Truyền thông đa phương tiện 93
Mã hóa âm thanh nổi
• Join Stereo Middle-Side
– Tính chất: 
• Kênh Side dùng số bit rất ít
• Loại bỏ độ dư thừa cho tín hiệu mono trong thực tế
• Có thể được áp dụng trong miền thời gian lẫn tần số
• Độ lợi mã hóa cao phụ thuộc tín hiệu
– Biến đổi ngược: tổng/hiệu chuẩn hóa
Trần Bá Nhiệm Truyền thông đa phương tiện 94
Mã hóa âm thanh nổi
• Stereo ghép cường độ cao (Intensity Stereo)
– Mục đích: tối thiểu hóa thông tin stereo để nhận 
được tốc độ bit thấp nhất nếu có thể
– Mã hóa tín hiệu tổng các kênh+ các hướng của 
kênh. Truyền đường bao, sau đó là tỷ lệ theo các 
kênh
– Kiểm chứng dựa trên việc cảm nhận của con 
người kém đối với tần số trên 3kHz
– Biên độ và pha không quan trọng
Trần Bá Nhiệm Truyền thông đa phương tiện 95
Mã hóa âm thanh nổi
• Stereo ghép cường độ cao (Intensity Stereo)
– Giảm gần 50% lượng dữ liệu 
– Không đảm bảo thông tin về pha của tín hiệu
– Có thể cảm nhận một số vấn đề méo tín hiệu
– Dùng trong các ứng dụng có tốc độ bit thấp
Trần Bá Nhiệm Truyền thông đa phương tiện 96
Mã hóa âm thanh nổi
• Stereo ghép cường độ cao (Intensity Stereo)
Trần Bá Nhiệm Truyền thông đa phương tiện 97
File đính kèm:
bai_giang_truyen_thong_da_phuong_tien_chuong_2_ky_thuat_audi.pdf