Bài giảng Truyền thông đa phương tiện - Chương 3: Công nghệ video - Trần Bá Nhiệm

Tóm tắt Bài giảng Truyền thông đa phương tiện - Chương 3: Công nghệ video - Trần Bá Nhiệm: ... • DCT liên tục: Ảnh được mã hóa từ trái sang phải, từ trên xuống dưới dựa vào DCT • DCT lũy tiến: Ảnh được mã hóa quét phức hợp theo chế độ phân giải không gian cho các ứng dụng băng hẹp • Không tổn hao: khôi phục chính xác, tỷ lệ nén thấp, chỉ loại bỏ thông tin không cảm nhận được JP... đó  điều chế PCM cho thành phần DC JPEG • Mã hóa loạt dài cho thành phần AC – Có nhiều loạt 0 liên tiếp mã hóa loạt dài cho hiệu quả rất cao JPEG • Mã hóa Entropy – Dùng kỹ thuật mã hóa Hufman với các bảng mã hóa gồm bảng loại và bảng Hufman dựa vào đặc tính thống kê của tín h...31 H.261 – Mỗi MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối H.261 – Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB. Một header chứa dữ liệu là dạng ảnh (CIF hoặc QCIF) và số khung. – Chú ý: CIF có 12 GOB còn QCIF có 3 GOB – Cấu trúc...

pdf58 trang | Chia sẻ: havih72 | Lượt xem: 163 | Lượt tải: 0download
Nội dung tài liệu Bài giảng Truyền thông đa phương tiện - Chương 3: Công nghệ video - Trần Bá Nhiệm, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
CHƯƠNG 3: CÔNG NGHỆ 
VIDEO
ThS. Trần Bá Nhiệm
Nội dung
• Cơ sở video
• JPEG
Cơ sở video
• Các dạng của tín hiệu video màu
• Tín hiệu video thành phần
– Được xử lý riêng rẽ
– Tập các thành phần RGB: là các tín hiệu màu cơ 
bản được camera cung cấp. Ba tín hiệu này có 
cùng độ rộng băng tần
– Tập các thành phần Y, R-Y, B-Y: là tổ hợp các giá trị 
màu cơ bản, thông thường tín hiệu Y có băng tần 
rộng hơn  khả năng tái tạo tốt nhất
Cơ sở video
• Tín hiệu video tổng hợp
– Là tín hiệu video trong đó thông tin độ chói 
(luminance), màu (chrominance) và đồng bộ 
(synchronization) được phối hợp với nhau (theo tần 
số, thời gian và biên độ) để tạo ra 1 tín hiệu duy nhất.
– Phổ năng lượng tập trung vào hài của tần số quét 
dòng
– Cho phép quét cách dòng để có cảm nhận tốt hơn 
yêu cầu băng thông nhỏ, không đồng bộ nhưng xử lý 
khó khăn
Cơ sở video
• Video tương tự
– Thông tin về cảnh vật truyền đi mang các tính chất 
về độ chói, màu sắc và sự thay đổi theo thời gian
– Một tín hiệu video bao gồm các ảnh theo trình tự 
thời gian, mỗi ảnh bao gồm các điểm ảnh. Các 
điểm ảnh mang thông tin về độ chói, màu sắc
– Kỹ thuật quét:
• Quét liên tục: tần số quét lớn
• Quét cách dòng: giảm được tần số quét nhưng vẫn đảm 
bảo cảm nhận liên tục, không bị trôi, nhấp nháy
Cơ sở video
• Video tương tự
Cơ sở video
• Đặc điểm của video tương tự
– Tín hiệu đơn cực, mức 1 chiều 
– DC = 0V biểu diễn mức đen 
– DC = 0,7V biểu diễn mức trắng
– DC = 25mV biểu diễn mức xóa
Cơ sở video
Cơ sở video
• Các tiêu chuẩn video màu hệ NTSC:
– 525 dòng trên một frame (khung), 30 frame/s
– Quét cách dòng, chia làm 2 trường, 262,5 
dòng/trường
– Có 20 dòng dự trữ cho thông tin điều khiển tại 
thời điểm bắt đầu mỗi trường
– Phù hợp vì độ phân giải của laser disk và S-VHS là 
420 và tivi thông thường là 320 dòng
Cơ sở video
• Các tiêu chuẩn video màu hệ NTSC:
– Dùng kiểu màu YIQ
– Thành phần tổng hợp = Y + I cos(fsct) + Q sin(fsct), 
trong đó thành phần fsc là tần số sóng mang của 
màu
Cơ sở video
• Các tiêu chuẩn video màu hệ PAL:
– 625 dòng trên một frame (khung), 25frame/s
– Quét cách dòng, chia làm 2 trường chẵn lẻ, 312,5 
dòng/trường
– Dùng kiểu màu YUV
– Dải tần tín hiệu chói Y rộng 5MHz. Tín hiệu U và V 
được xác định theo công thức
Video số
• Thuận lợi
– Truy cập ngẫu nhiên trực tiếp thuận tiện
– Việc tạo, lưu trữ, ghi và đọc nhiều lần không ảnh 
hưởng đến chất lượng ảnh
– Không cần xung xóa và xung đồng bộ
– Xử lý thuận tiện, không gặp trở ngại về giới hạn tần số, 
băng thông
• Khó khăn:
– Một số trở ngại xoay quanh vấn đề về tính hiệu quả: 
bộ lọc số có giá thành tương đối cao, 
Video số
• Tiêu chuẩn lấy mẫu màu
– Thuận lợi trong việc xử lý đối với tín hiệu video 
thành phần, nhưng băng thông yêu cầu lớn
– Điểm khác chủ yếu của các tiêu chuẩn lấy mẫu là 
tỷ lệ giữa tần số lấy mẫu và phương pháp lấy mẫu 
tín hiệu chói và tín hiệu màu. Tần số chuẩn là 
3,375MHz. Mẫu tín hiệu được lấy chỉ đ/v phần tử 
tích cực của tín hiệu video. Cấu trúc lấy mẫu là 
trực giao
Video số
Video số
Video số
JPEG
• Chuẩn JPEG mô tả một họ kỹ thuật nén ảnh 
cho tone liên tục (mức xám hay màu) của ảnh. 
• JPEG khai thác độ dư thừa sinh lý thị giác 
trong ảnh.
• Tháng 3/1986 đề xuất và đến tháng 1/1988 thì 
JPEG được chấp thuận giải pháp DCT thích 
nghi để cải thiện và tăng cường ảnh
JPEG
• DCT liên tục: Ảnh được mã hóa từ trái sang 
phải, từ trên xuống dưới dựa vào DCT
• DCT lũy tiến: Ảnh được mã hóa quét phức hợp 
theo chế độ phân giải không gian cho các ứng 
dụng băng hẹp
• Không tổn hao: khôi phục chính xác, tỷ lệ nén 
thấp, chỉ loại bỏ thông tin không cảm nhận 
được
JPEG
• Thứ bậc (phân 
cấp): Mã hóa quét 
phức hợp phân giải 
không gian, hiệu 
quả với những ảnh 
có độ phân giải cao
• Tài liệu này chỉ xét 
DCT liên tục
JPEG
JPEG
• Chuyển đổi cosin rời rạc DCT (Discrete Cosine 
Transform)
JPEG
• DCT thuận và ngược 1 chiều gồm N mẫu được 
định nghĩa như sau:
• DCT thuận
• DCT ngược:
• Trong đó:
JPEG
• DCT làm giảm độ tương quan không gian của 
thông tin trong khối  biểu diễn DCT có độ 
dư thừa thông tin ít hơn
• Đồng thời DCT chứa thông tin về nội dung tần 
số không gian của thông tin trong khối, dựa 
vào đặc tính sinh lý thị giác ta chỉ mã hóa 
những hệ số DCT quan trọng  chính là quá 
trình nén
JPEG
• Ví dụ
JPEG
• Lượng tử hóa
– Lượng tử các hệ số F(u, v) để giảm số bit
– Các hệ số tương ứng với các tín hiệu tần số thấp là 
các giá trị lớn nên phải được lượng tử chính xác
– Các hệ số tương ứng với các tín hiệu tần số cao 
(AC) có giá trị bé nên cho phép sai số
– Lượng tử hóa thay đổi theo khoảng cách để đạt 
được hiệu quả cao
JPEG
• Lượng tử hóa
• Trong đó q(u, v) là giá trị trong bảng lượng tử 
hóa 8 x 8, tùy thuộc vào kênh chói hay kênh 
màu sắc
• Mắt người ít cảm nhận được các nội dung ở 
tần số cao và càng kém đối với kênh màu sắc
JPEG
• Lượng tử hóa
Nhận xét: hệ số q(u, v) càng xa thì càng có giá trị lớn  kết quả các thành phần được 
lượng tử có tần số càng cao càng tiến về 0. Đây là quá trình tổn hao thông tin duy 
nhất trong quá trình nén ảnh không tổn hao
JPEG
• Quét ZigZag
– Ánh xạ ma trận 8 x 8 thành vector 1 x 64, đáy của 
vector là giá trị EOB (End of Block)
– Mục đích: nhóm các thành phần tần số thấp vào 
đỉnh vector
– Ví dụ: Xét trường hợp trong hình trên, với các 
thành phần đã được lượng tử hóa
JPEG
• Quét ZigZag
JPEG
• Điều chế xung mã sai biệt trên các thành phần 
DC
– Thành phần DC là thành phần đầu sau khi quét 
zigzag
– Giá trị của thành phần này lớn, thay đổi nhưng 
gần với giá trị của block trước đó  điều chế PCM 
cho thành phần DC
JPEG
• Mã hóa loạt dài cho 
thành phần AC
– Có nhiều loạt 0 liên 
tiếp mã hóa loạt 
dài cho hiệu quả rất 
cao
JPEG
• Mã hóa Entropy
– Dùng kỹ thuật mã hóa Hufman với các bảng mã 
hóa gồm bảng loại và bảng Hufman dựa vào đặc 
tính thống kê của tín hiệu
– Ví dụ minh họa dùng cho thành phần DC
JPEG
• Mã hóa Entropy
JPEG
• Sơ đồ mã hóa Entropy
JPEG
• Mã hóa các thành phần AC
– Các từ mã với độ dài thay đổi có tần suất xuất 
hiện cao được mã hóa với từ mã ngắn và ngược 
lại. Quá trình mã hóa như vậy gọi là mã hóa độ dài 
từ mã thay đổi VLC
– Bảng phân loại giống như bảng phân loại của 
thành phần DC nhưng khác bảng Huffman
JPEG
JPEG
Các chuẩn nén video
• H.261
• H.263
• MPEG11
• MPEG12
• MPEG14
• MPEG17
H.261
• Được tổ chức ITU phát triển cho dịch vụ 
truyền hình hội nghị và video phone qua ISDN 
ở tốc độ p × 64kb/s (p = 1..30)
• Ví dụ: Tốc độ 64kb/s truyền 48kb/s video và 
16kb/s audio
• Truyền hình hội nghị yêu cầu chất lượng hình 
ảnh cao hơn, p ≥ 6, tốc độ 384kbps
• Là cơ sở cho chuẩn nén sau này như MPEG 1, 
2
H.261
• Các đặc tính:
– Trễ mã hóa < 150ms  truyền hình hội nghị song 
công, cho ấn tượng tốt đối với khán giả
– Thực hiện trên linh kiện VLSI (giá thành thấp) 
mở rộng thị trường ở các dịch vụ như video 
phone, truyền hình hội nghị 
• Các dạng ảnh ngõ vào
– Khả năng phối hợp giữa các chuẩn 625 và 525 
dòng của tivi
H.261
– Dùng dạng thức trung gian chung CIF (Common 
Intermediate Format) với các tốc độ bit thấp hơn, 
ví dụ QCIF (Quadrature) có tốc độ bằng ¼
– Với tốc độ 30 frame/s thì tốc độ dữ liệu của CIF là 
37,3Mb/s, QCIF là 9,35Mb/s, tốc độ càng thấp thì 
càng giảm số frame/s
• Ghép tín hiệu video 
– Mục đích: Định nghĩa cấu trúc dữ liệu để bộ giải 
mã có thể hiểu được khi nhận dòng bit
H.261
– Tín hiệu video được phân thành các lớp. Mỗi lớp 
như vậy đều có header để định nghĩa các tham số 
được dùng bởi bộ mã hóa khi tạo ra dòng bit
– Lớp ảnh được phân thành các nhóm khối GOB 
(Group of Block).
– Các GOB bao gồm các MB (Macro Block). MB là 
đơn vị nhỏ nhất gồm 4 khối 8 x 8 của tín hiệu Y và 
2 khối 8 x 8 của tín hiệu màu sắc
– Lớp GOB luôn được kết hợp bởi 33 MB, hợp thành 
ma trận 1 x 31
H.261
– Mỗi MB có một header chứa địa chỉ MB và kiểu 
nén, tiếp theo là dữ liệu của khối
H.261
– Cuối cùng, lớp ảnh bao gồm header ảnh theo sau 
bởi dữ liệu cho các GOB. Một header chứa dữ liệu 
là dạng ảnh (CIF hoặc QCIF) và số khung. 
– Chú ý: CIF có 12 GOB còn QCIF có 3 GOB
– Cấu trúc MB
H.261
• Cấu trúc chuỗi bit
• PSC (Picture Start Code): bắt đầu ảnh
• TR: Temporalo Reference: dùng để 
đồng bộ audio
• Ptype: kiểu ảnh
• Grp#: Số group.
• GQuant: lượng tử cả nhóm 
với cùng một hệ số lượng 
tử
H.261
• Các khung
H.261
– Intra Frame: Khung I cho khả năng truy cập ngẫu 
nhiên, kiểu nén intra tương tự như JPEG dựa trên 
mã hóa DCT với từng MB
– Inter Frame: Liên khung, liên hệ với các khung I và 
P trước, MB đầu có thể bù chuyển động MC 
(Motion Compensation) hoặc không. 
– Mã hóa DCT sai biệt dự đoán
– Cung cấp các tùy chọn cho từng MB như lượng tử 
với cùng hệ số lượng tử, dùng bộ lọc bù chuyển 
động
H.261
• Mã hóa 
trong 
khung
H.261
• Sơ đồ mã hóa trong khung
• Control: điều 
khiển tốc độ 
bit và bộ đệm
• Memory: dùng 
để lưu hình 
ảnh được khôi 
phục lại với 
mục đích tìm 
vector chuyển 
động cho 
frame P tiếp 
theo
H.261
• Mã hóa 
liên 
khung
H.261
H.263
• Tiêu chuẩn cải tiến H.261 cho video tốc độ 
thấp, có thể truyền trên mạng điện thoại công 
cộng PSTN
• Được công nhận năm 1996
• Mã hóa DCT cho các MB trong 1 frame và DCT 
sai biệt dự đoán trong P frame
• Tốc độ tối thiểu
H.263
• Ưu điểm:
– Chính xác sai biệt dự đoán với ½ pixel
– Không hạn chế vector chuyển động
– Mã hóa số học
– Dự đoán thuận lợi với các frame P
– Ngoài CIF, QCIF, H.263 còn hỗ trợ SQCIF, 4CIF và 
16CIF với độ phân giải tín hiệu chói tuần tự là 
128x96, 704x576, 1408x1152. Độ phân giải tín 
hiệu màu sắc bằng ¼ tín hiệu chói
MPEG-1
• MPEG-1 là một chuẩn được phát triển và thừa 
nhận năm 1992 để lưu trữ video dạng CIF và 
kết hợp với audio khoảng 1,5Mb/s trên nhiều 
môi trường lưu trữ số khác nhau như CD-
ROM, DAT, Winchester, đĩa quang với ứng 
dụng chính là các hệ thống đa môi trường trực 
tuyến
• Thuật toán MPEG-1 tương tự như H.261 
nhưng có một số đặc tính bổ sung
MPEG-1
• Chất lượng nén và giải nén tín hiệu CIF khoảng 
1,2Mb/s (tốc độ video) tương đương với chất 
lượng của video analog VHS
• Hỗ trợ ước lượng chuyển động
• Dự đoán bù chuyển động
• DCT, lượng tử và VLC
• Không định nghĩa các thuật toán xác định cụ 
thể mà thiết kế bộ mã hóa linh hoạt
MPEG-1
• Khả năng phục vụ các ảnh khác nhau, hoạt 
động trên các thiết bị, tốc độ khác nhau
• Truy cập ngẫu nhiên dựa vào các điểm truy 
cập độc lập (khung I)
• Trễ mã hóa và giải mã hợp lý (1s), gây ấn 
tượng tốt cho truy cập video đơn công
MPEG-1
• Dạng tín hiệu ngõ vào:
– Chỉ xét tín hiệu video lũy tiến; để đạt được tốc độ 
bit 1.5Mb/s, video thường được chuyển đổi trước 
khi đưa vào dạng chuẩn MPEG SIF (Standard 
Input Format)
– Không gian màu (Y, Cr, Cb) đã được thừa nhận theo 
khuyến nghị CCIR 601. Trong MPEG SIF kênh chỉ là 
352 pixel x 240 dòng và 30 frame/s
– Số pixel lớn nhất trên 1 dòng: 720
MPEG-1
– Số dòng lớn nhất trên 1 ảnh: 576
– Số ảnh trên 1s: 30
– Số MB trên 1 ảnh: 396
– Tốc độ bit tối đa: 1,86Mb/s
– Kích thước bộ đệm giải mã tối đa: 376,832bit
• Cấu trúc dữ liệu và các kiểu nén
– Cấu trúc dữ liệu gồm 6 lớp, cho phép bộ giải mã 
hiểu được những tín hiệu chưa xác định

File đính kèm:

  • pdfbai_giang_truyen_thong_da_phuong_tien_chuong_3_cong_nghe_vid.pdf