Bài giảng Truyền thông đa phương tiện - Chương 3: Công nghệ video - Trần Bá Nhiệm
Tóm tắt Bài giảng Truyền thông đa phương tiện - Chương 3: Công nghệ video - Trần Bá Nhiệm: ... • DCT liên tục: Ảnh được mã hóa từ trái sang phải, từ trên xuống dưới dựa vào DCT • DCT lũy tiến: Ảnh được mã hóa quét phức hợp theo chế độ phân giải không gian cho các ứng dụng băng hẹp • Không tổn hao: khôi phục chính xác, tỷ lệ nén thấp, chỉ loại bỏ thông tin không cảm nhận được JP... đó điều chế PCM cho thành phần DC JPEG • Mã hóa loạt dài cho thành phần AC – Có nhiều loạt 0 liên tiếp mã hóa loạt dài cho hiệu quả rất cao JPEG • Mã hóa Entropy – Dùng kỹ thuật mã hóa Hufman với các bảng mã hóa gồm bảng loại và bảng Hufman dựa vào đặc tính thống kê của tín h...31 H.261 – Mỗi MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối H.261 – Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB. Một header chứa dữ liệu là dạng ảnh (CIF hoặc QCIF) và số khung. – Chú ý: CIF có 12 GOB còn QCIF có 3 GOB – Cấu trúc...
CHƯƠNG 3: CÔNG NGHỆ VIDEO ThS. Trần Bá Nhiệm Nội dung • Cơ sở video • JPEG Cơ sở video • Các dạng của tín hiệu video màu • Tín hiệu video thành phần – Được xử lý riêng rẽ – Tập các thành phần RGB: là các tín hiệu màu cơ bản được camera cung cấp. Ba tín hiệu này có cùng độ rộng băng tần – Tập các thành phần Y, R-Y, B-Y: là tổ hợp các giá trị màu cơ bản, thông thường tín hiệu Y có băng tần rộng hơn khả năng tái tạo tốt nhất Cơ sở video • Tín hiệu video tổng hợp – Là tín hiệu video trong đó thông tin độ chói (luminance), màu (chrominance) và đồng bộ (synchronization) được phối hợp với nhau (theo tần số, thời gian và biên độ) để tạo ra 1 tín hiệu duy nhất. – Phổ năng lượng tập trung vào hài của tần số quét dòng – Cho phép quét cách dòng để có cảm nhận tốt hơn yêu cầu băng thông nhỏ, không đồng bộ nhưng xử lý khó khăn Cơ sở video • Video tương tự – Thông tin về cảnh vật truyền đi mang các tính chất về độ chói, màu sắc và sự thay đổi theo thời gian – Một tín hiệu video bao gồm các ảnh theo trình tự thời gian, mỗi ảnh bao gồm các điểm ảnh. Các điểm ảnh mang thông tin về độ chói, màu sắc – Kỹ thuật quét: • Quét liên tục: tần số quét lớn • Quét cách dòng: giảm được tần số quét nhưng vẫn đảm bảo cảm nhận liên tục, không bị trôi, nhấp nháy Cơ sở video • Video tương tự Cơ sở video • Đặc điểm của video tương tự – Tín hiệu đơn cực, mức 1 chiều – DC = 0V biểu diễn mức đen – DC = 0,7V biểu diễn mức trắng – DC = 25mV biểu diễn mức xóa Cơ sở video Cơ sở video • Các tiêu chuẩn video màu hệ NTSC: – 525 dòng trên một frame (khung), 30 frame/s – Quét cách dòng, chia làm 2 trường, 262,5 dòng/trường – Có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường – Phù hợp vì độ phân giải của laser disk và S-VHS là 420 và tivi thông thường là 320 dòng Cơ sở video • Các tiêu chuẩn video màu hệ NTSC: – Dùng kiểu màu YIQ – Thành phần tổng hợp = Y + I cos(fsct) + Q sin(fsct), trong đó thành phần fsc là tần số sóng mang của màu Cơ sở video • Các tiêu chuẩn video màu hệ PAL: – 625 dòng trên một frame (khung), 25frame/s – Quét cách dòng, chia làm 2 trường chẵn lẻ, 312,5 dòng/trường – Dùng kiểu màu YUV – Dải tần tín hiệu chói Y rộng 5MHz. Tín hiệu U và V được xác định theo công thức Video số • Thuận lợi – Truy cập ngẫu nhiên trực tiếp thuận tiện – Việc tạo, lưu trữ, ghi và đọc nhiều lần không ảnh hưởng đến chất lượng ảnh – Không cần xung xóa và xung đồng bộ – Xử lý thuận tiện, không gặp trở ngại về giới hạn tần số, băng thông • Khó khăn: – Một số trở ngại xoay quanh vấn đề về tính hiệu quả: bộ lọc số có giá thành tương đối cao, Video số • Tiêu chuẩn lấy mẫu màu – Thuận lợi trong việc xử lý đối với tín hiệu video thành phần, nhưng băng thông yêu cầu lớn – Điểm khác chủ yếu của các tiêu chuẩn lấy mẫu là tỷ lệ giữa tần số lấy mẫu và phương pháp lấy mẫu tín hiệu chói và tín hiệu màu. Tần số chuẩn là 3,375MHz. Mẫu tín hiệu được lấy chỉ đ/v phần tử tích cực của tín hiệu video. Cấu trúc lấy mẫu là trực giao Video số Video số Video số JPEG • Chuẩn JPEG mô tả một họ kỹ thuật nén ảnh cho tone liên tục (mức xám hay màu) của ảnh. • JPEG khai thác độ dư thừa sinh lý thị giác trong ảnh. • Tháng 3/1986 đề xuất và đến tháng 1/1988 thì JPEG được chấp thuận giải pháp DCT thích nghi để cải thiện và tăng cường ảnh JPEG • DCT liên tục: Ảnh được mã hóa từ trái sang phải, từ trên xuống dưới dựa vào DCT • DCT lũy tiến: Ảnh được mã hóa quét phức hợp theo chế độ phân giải không gian cho các ứng dụng băng hẹp • Không tổn hao: khôi phục chính xác, tỷ lệ nén thấp, chỉ loại bỏ thông tin không cảm nhận được JPEG • Thứ bậc (phân cấp): Mã hóa quét phức hợp phân giải không gian, hiệu quả với những ảnh có độ phân giải cao • Tài liệu này chỉ xét DCT liên tục JPEG JPEG • Chuyển đổi cosin rời rạc DCT (Discrete Cosine Transform) JPEG • DCT thuận và ngược 1 chiều gồm N mẫu được định nghĩa như sau: • DCT thuận • DCT ngược: • Trong đó: JPEG • DCT làm giảm độ tương quan không gian của thông tin trong khối biểu diễn DCT có độ dư thừa thông tin ít hơn • Đồng thời DCT chứa thông tin về nội dung tần số không gian của thông tin trong khối, dựa vào đặc tính sinh lý thị giác ta chỉ mã hóa những hệ số DCT quan trọng chính là quá trình nén JPEG • Ví dụ JPEG • Lượng tử hóa – Lượng tử các hệ số F(u, v) để giảm số bit – Các hệ số tương ứng với các tín hiệu tần số thấp là các giá trị lớn nên phải được lượng tử chính xác – Các hệ số tương ứng với các tín hiệu tần số cao (AC) có giá trị bé nên cho phép sai số – Lượng tử hóa thay đổi theo khoảng cách để đạt được hiệu quả cao JPEG • Lượng tử hóa • Trong đó q(u, v) là giá trị trong bảng lượng tử hóa 8 x 8, tùy thuộc vào kênh chói hay kênh màu sắc • Mắt người ít cảm nhận được các nội dung ở tần số cao và càng kém đối với kênh màu sắc JPEG • Lượng tử hóa Nhận xét: hệ số q(u, v) càng xa thì càng có giá trị lớn kết quả các thành phần được lượng tử có tần số càng cao càng tiến về 0. Đây là quá trình tổn hao thông tin duy nhất trong quá trình nén ảnh không tổn hao JPEG • Quét ZigZag – Ánh xạ ma trận 8 x 8 thành vector 1 x 64, đáy của vector là giá trị EOB (End of Block) – Mục đích: nhóm các thành phần tần số thấp vào đỉnh vector – Ví dụ: Xét trường hợp trong hình trên, với các thành phần đã được lượng tử hóa JPEG • Quét ZigZag JPEG • Điều chế xung mã sai biệt trên các thành phần DC – Thành phần DC là thành phần đầu sau khi quét zigzag – Giá trị của thành phần này lớn, thay đổi nhưng gần với giá trị của block trước đó điều chế PCM cho thành phần DC JPEG • Mã hóa loạt dài cho thành phần AC – Có nhiều loạt 0 liên tiếp mã hóa loạt dài cho hiệu quả rất cao JPEG • Mã hóa Entropy – Dùng kỹ thuật mã hóa Hufman với các bảng mã hóa gồm bảng loại và bảng Hufman dựa vào đặc tính thống kê của tín hiệu – Ví dụ minh họa dùng cho thành phần DC JPEG • Mã hóa Entropy JPEG • Sơ đồ mã hóa Entropy JPEG • Mã hóa các thành phần AC – Các từ mã với độ dài thay đổi có tần suất xuất hiện cao được mã hóa với từ mã ngắn và ngược lại. Quá trình mã hóa như vậy gọi là mã hóa độ dài từ mã thay đổi VLC – Bảng phân loại giống như bảng phân loại của thành phần DC nhưng khác bảng Huffman JPEG JPEG Các chuẩn nén video • H.261 • H.263 • MPEG11 • MPEG12 • MPEG14 • MPEG17 H.261 • Được tổ chức ITU phát triển cho dịch vụ truyền hình hội nghị và video phone qua ISDN ở tốc độ p × 64kb/s (p = 1..30) • Ví dụ: Tốc độ 64kb/s truyền 48kb/s video và 16kb/s audio • Truyền hình hội nghị yêu cầu chất lượng hình ảnh cao hơn, p ≥ 6, tốc độ 384kbps • Là cơ sở cho chuẩn nén sau này như MPEG 1, 2 H.261 • Các đặc tính: – Trễ mã hóa < 150ms truyền hình hội nghị song công, cho ấn tượng tốt đối với khán giả – Thực hiện trên linh kiện VLSI (giá thành thấp) mở rộng thị trường ở các dịch vụ như video phone, truyền hình hội nghị • Các dạng ảnh ngõ vào – Khả năng phối hợp giữa các chuẩn 625 và 525 dòng của tivi H.261 – Dùng dạng thức trung gian chung CIF (Common Intermediate Format) với các tốc độ bit thấp hơn, ví dụ QCIF (Quadrature) có tốc độ bằng ¼ – Với tốc độ 30 frame/s thì tốc độ dữ liệu của CIF là 37,3Mb/s, QCIF là 9,35Mb/s, tốc độ càng thấp thì càng giảm số frame/s • Ghép tín hiệu video – Mục đích: Định nghĩa cấu trúc dữ liệu để bộ giải mã có thể hiểu được khi nhận dòng bit H.261 – Tín hiệu video được phân thành các lớp. Mỗi lớp như vậy đều có header để định nghĩa các tham số được dùng bởi bộ mã hóa khi tạo ra dòng bit – Lớp ảnh được phân thành các nhóm khối GOB (Group of Block). – Các GOB bao gồm các MB (Macro Block). MB là đơn vị nhỏ nhất gồm 4 khối 8 x 8 của tín hiệu Y và 2 khối 8 x 8 của tín hiệu màu sắc – Lớp GOB luôn được kết hợp bởi 33 MB, hợp thành ma trận 1 x 31 H.261 – Mỗi MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối H.261 – Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB. Một header chứa dữ liệu là dạng ảnh (CIF hoặc QCIF) và số khung. – Chú ý: CIF có 12 GOB còn QCIF có 3 GOB – Cấu trúc MB H.261 • Cấu trúc chuỗi bit • PSC (Picture Start Code): bắt đầu ảnh • TR: Temporalo Reference: dùng để đồng bộ audio • Ptype: kiểu ảnh • Grp#: Số group. • GQuant: lượng tử cả nhóm với cùng một hệ số lượng tử H.261 • Các khung H.261 – Intra Frame: Khung I cho khả năng truy cập ngẫu nhiên, kiểu nén intra tương tự như JPEG dựa trên mã hóa DCT với từng MB – Inter Frame: Liên khung, liên hệ với các khung I và P trước, MB đầu có thể bù chuyển động MC (Motion Compensation) hoặc không. – Mã hóa DCT sai biệt dự đoán – Cung cấp các tùy chọn cho từng MB như lượng tử với cùng hệ số lượng tử, dùng bộ lọc bù chuyển động H.261 • Mã hóa trong khung H.261 • Sơ đồ mã hóa trong khung • Control: điều khiển tốc độ bit và bộ đệm • Memory: dùng để lưu hình ảnh được khôi phục lại với mục đích tìm vector chuyển động cho frame P tiếp theo H.261 • Mã hóa liên khung H.261 H.263 • Tiêu chuẩn cải tiến H.261 cho video tốc độ thấp, có thể truyền trên mạng điện thoại công cộng PSTN • Được công nhận năm 1996 • Mã hóa DCT cho các MB trong 1 frame và DCT sai biệt dự đoán trong P frame • Tốc độ tối thiểu H.263 • Ưu điểm: – Chính xác sai biệt dự đoán với ½ pixel – Không hạn chế vector chuyển động – Mã hóa số học – Dự đoán thuận lợi với các frame P – Ngoài CIF, QCIF, H.263 còn hỗ trợ SQCIF, 4CIF và 16CIF với độ phân giải tín hiệu chói tuần tự là 128x96, 704x576, 1408x1152. Độ phân giải tín hiệu màu sắc bằng ¼ tín hiệu chói MPEG-1 • MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ video dạng CIF và kết hợp với audio khoảng 1,5Mb/s trên nhiều môi trường lưu trữ số khác nhau như CD- ROM, DAT, Winchester, đĩa quang với ứng dụng chính là các hệ thống đa môi trường trực tuyến • Thuật toán MPEG-1 tương tự như H.261 nhưng có một số đặc tính bổ sung MPEG-1 • Chất lượng nén và giải nén tín hiệu CIF khoảng 1,2Mb/s (tốc độ video) tương đương với chất lượng của video analog VHS • Hỗ trợ ước lượng chuyển động • Dự đoán bù chuyển động • DCT, lượng tử và VLC • Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hóa linh hoạt MPEG-1 • Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau • Truy cập ngẫu nhiên dựa vào các điểm truy cập độc lập (khung I) • Trễ mã hóa và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video đơn công MPEG-1 • Dạng tín hiệu ngõ vào: – Chỉ xét tín hiệu video lũy tiến; để đạt được tốc độ bit 1.5Mb/s, video thường được chuyển đổi trước khi đưa vào dạng chuẩn MPEG SIF (Standard Input Format) – Không gian màu (Y, Cr, Cb) đã được thừa nhận theo khuyến nghị CCIR 601. Trong MPEG SIF kênh chỉ là 352 pixel x 240 dòng và 30 frame/s – Số pixel lớn nhất trên 1 dòng: 720 MPEG-1 – Số dòng lớn nhất trên 1 ảnh: 576 – Số ảnh trên 1s: 30 – Số MB trên 1 ảnh: 396 – Tốc độ bit tối đa: 1,86Mb/s – Kích thước bộ đệm giải mã tối đa: 376,832bit • Cấu trúc dữ liệu và các kiểu nén – Cấu trúc dữ liệu gồm 6 lớp, cho phép bộ giải mã hiểu được những tín hiệu chưa xác định
File đính kèm:
- bai_giang_truyen_thong_da_phuong_tien_chuong_3_cong_nghe_vid.pdf