BAO CAO

TRƯƠNG ĐAI HOC BACH KHOA HA NÔI

VIÊN CÔNG NGHÊ THÔNG TIN VA TRUYÊN THÔNG

Bộ môn truyền thông và mạng máy tính

********************

Bài tập lớn môn học

Truyền thông đa phương tiệnGiáo viên hướng dẫn : PGS-TS Nguyễn Thị Hoàng Lan

Sinh viên thực hiện : Nguyễn Thành Nam B (trưởng nhóm) - 20062201

Đào Việt Phương - 20062418

Vũ Văn Thành - 20062900

Nguyễn Hoài Nam - 20062194

Phạm Ngọc Quang - 20062504

Hoàng Anh Minh - 20062101

Trịnh Ngọc Đức - 2006C078

Nguyễn An Hưng - 20061531

Lớp : Truyên thông và Mạng máy tinh – K51

Mục lụcI. CHUẨN MPEG 1 và MPEG 2........................................................................................7

1. Tổng quan vê MPEG....................................................................................................7

2. MPEG 1........................................................................................................................7

2.1. Phân cấp cấu trúc của MPEG 1............................................................................8

2.2. Các kĩ thuật nén của MPEG 1...............................................................................9

3. MPEG 2......................................................................................................................14

3.1. Sơ đồ nén và giải nén của MPEG 2....................................................................14

3.2. Các kĩ thuật nén của MPEG 2.............................................................................16

4. Ảnh hưởng của kĩ thuật nén lên chất lượng hình ảnh................................................23

5. So sánh giữa MPEG 1 và MPEG 2............................................................................32

II. H261 và H262................................................................................................................34

1. H261...........................................................................................................................34

1.1. Group of Block (GOB).......................................................................................35

1.2. Mô hình mã hóa và giãi mã của H261................................................................38

1.3. Các kĩ thuật nén của H261..................................................................................39

2. H262...........................................................................................................................45

2.1. Mô hình mã hóa H262........................................................................................45

2.2. Loại ảnh..............................................................................................................47

2.3. Kiểm soát bộ đệm...............................................................................................47

2.4. Các profiles và các bậc.......................................................................................48

2.5. Kết luận...............................................................................................................51

3. So sánh H261 và H262...............................................................................................52

4. So sánh giữa MPEG và H26X...................................................................................54

III. MPEG 4......................................................................................................................56

1. Giới thiệu chung.........................................................................................................56

2. Phạm vi và tinh năng của chuân MPEG-4.................................................................56

3. Kĩ thuật mã hóa Video của chuân MPEG4................................................................57

3.1. Sự tổ hợp khung hình trong MPEG 4.................................................................57

3.2. Cấu trúc bộ mã hóa và giải mã của MPEG 4......................................................59

3.3. Các Profiles và Levels trong chuân MPEG-4.....................................................60

2

4. MPEG 4 video............................................................................................................60

4.1. Khả năng mở rộng mã hóa các đối tượng Video................................................62

4.2. Khả năng khăc phuc lôi mạnh me.......................................................................62

4.3. Cải thiện sự ổn định với độ phân giải thời gian trễ thấp.....................................65

4.4. Thuật toán nén của MPEG 4...............................................................................66

5. So sánh MPEG 4 với MPEG 2...................................................................................69

IV. H264...........................................................................................................................72

1. Tổng quan vê H264....................................................................................................72

2. Sự phát triển của H264...............................................................................................72

3. Sơ đồ mã hóa khối của H264.....................................................................................73

4. Các phương pháp nén của H264................................................................................75

4.1. Giảm bớt độ dư thừa...........................................................................................75

4.2. Chọn chế độ, phân chia và chế ngự....................................................................76

4.3. Nén theo miên thời gian......................................................................................77

4.4. Nén theo miên không gian..................................................................................78

5. Các ưu điểm nổi bật của chuân nén H264.................................................................79

5.1. Ưu điểm của nén không gian..............................................................................79

5.2. Ưu điểm của nén thời gian..................................................................................79

5.3. Kich cỡ khối........................................................................................................79

5.4. Ưu điểm vê lượng tử hoá và biến đổi.................................................................81

5.5. Ưu điểm đối với mã hoá entropy........................................................................81

6. So sánh H264 với các chuân nén khác.......................................................................82

7. Kết luận vê H264.......................................................................................................83

KẾT LUẬN...........................................................................................................................84

TAI LIỆU THAM KHẢO.....................................................................................................85

3

Danh mục hình vẽ

Hình 1 Hệ thống giải mã của MPEG......................................................................................8Hình 2 Video Sequence...........................................................................................................8Hình 3 Thành phân độ sáng và thành phân độ màu................................................................9Hình 4 Các khung hình trong chuân MPEG.........................................................................11Hình 5 Các khung hình trong 1s...........................................................................................11Hình 6 Mã hóa Macroblock..................................................................................................13Hình 7 SCRs..........................................................................................................................14Hình 8 Sơ đồ mã hóa.............................................................................................................15Hình 9 Sơ đồ giải mã............................................................................................................15Hình 10 Hai tiêu chuân lấy mẫu 4:2:0 và 4:2:2....................................................................16Hình 11 Biến đổi DCT..........................................................................................................17Hình 12 Sơ đồ biến đổi DCT................................................................................................18Hình 13 Một số vi du vê biến đổi DCT.................................................................................18Hình 14 Sơ đồ mã hóa VLC..................................................................................................19Hình 15 Blocks trước và sau khi quét Zig-zag.....................................................................20Hình 16 Bit rate control........................................................................................................21Hình 17 Ba ma trận lượng từ hóa..........................................................................................21Hình 18 Dung lượng dữ liệu nén ứng với lượng tử hóa của hình 17....................................22Hình 19 Hai ma trận lượng tử hóa tiêu chuân W(u,v) với MQUANT = 2...........................22Hình 20 Dung lượng dữ liệu nén với ma trận lượng tử hóa trên hình 19.............................23Hình 21 MPEG 2 Profiles.....................................................................................................24Hình 22 MPEG 2 Levels.......................................................................................................25Hình 23 Trật tự của một GOB trong ảnh..............................................................................35Hình 24 Cấu trúc của GOB header.......................................................................................35Hình 25 Trật tự của macroblock trong một GOB.................................................................36Hình 26 Cấu trúc của một lớp Macroblock...........................................................................36Hình 27 Trật tự của blocks trong Macroblock......................................................................37Hình 28 Sơ đồ mã hóa H261.................................................................................................38Hình 29 Sơ đồ giải mã H261.................................................................................................38Hình 30 Intra frame và Inter frame.......................................................................................39Hình 31 Intra-frame coding...................................................................................................39Hình 32 Inter-frame coding...................................................................................................40Hình 33 H261 frame encoder................................................................................................41Hình 34 Phương pháp tìm kiếm Motion Vector...................................................................42Hình 35 Two-Dimensional Logarithmic...............................................................................43Hình 36 Hierarchical Motion Estimation..............................................................................44Hình 37 Hệ thống mã hóa bù chuyển động DCT..................................................................45Hình 38 Cấu trúc của chuôi các bit video mã hóa theo chuân H262....................................46Hình 39 Bộ mã hóa video SNR.............................................................................................49

4

Hình 40 Bộ mã hóa video sử dung profile đánh giá không gian..........................................50Hình 41 H262 levels.............................................................................................................51Hình 42 Sự tổ hợp khung hình trong MPEG-4.....................................................................58Hình 43 Cấu trúc của bộ mã hoá và giải mã video MPEG-4................................................59Hình 44 Sơ đồ cấu trúc giải mã video MPEG-4...................................................................59Hình 45 The VLBV Core and the Generic MPEG-4 Coder.................................................61Hình 46 Phân loại các hình ảnh MPEG-4 và Video Coding thuật toán và công cu.............65Hình 47 Sơ đồ khối cơ bản của MPEG-4 Video coder.........................................................66Hình 48 Vi du vê Sprite mã của chuôi Video.......................................................................68Hình 49 Sơ đồ mã hóa khối của H264..................................................................................74Hình 50 Sơ đồ mã hóa H264.................................................................................................74Hình 51 Sơ đồ giải mã H264.................................................................................................75Hình 52 Multiple Reference Frames.....................................................................................76Hình 53 Profiles của H264....................................................................................................77Hình 54 Sơ đồ khối mã hoá MPEG......................................................................................78Hình 55 H264 có thể phân chia thành phân chói của từng MacroBlock..............................80

5

LỜI MỞ ĐẦU

Hiện nay, chúng ta đang sống trong thời đại khoa học kĩ thuật và công nghệ cao, con người đã đạt nhiêu thành tựu trong rất nhiêu lĩnh vực, đặc biệt là trong công nghệ thông tin. Truyên thông đa phương tiện là một một ngành trong công nghệ thông tin, có mặt ở hâu hết mọi nơi, đóng vai trò quan trọng trong việc truyên tải thông tin, xóa nhòa các khoảng cách địa lý và mang lại cho con người nhiêu lợi ich to lớn.

Trong truyên thông đa phương tiện, nén video là một công nghệ vô cùng quan trọng. Tại sao ta phải nén video? Những video gốc với dung lượng lớn không thể truyên tải nếu không có nén. Tùy theo nhu câu và các kĩ thuật thực hiện, chúng ta đã phát minh ra nhiêu chuân nén video khác nhau, phù hợp với nhiêu muc đich sử dung.

Có các loại chuân nén video nào, chúng hoạt động ra sao, chất lượng hình ảnh và các ứng dung của chúng trong thực tế như thế nào, sự khác biệt giữa chúng như thế nào, đây chinh là chủ đê mà chúng em se tìm hiểu trong tiểu luận này:

“So sánh các chuân nén video trong truyên thông đa phương tiện.”

Tiểu luận này của chúng em se được chia thành 4 phân: Chuân Mpeg 1 và Mpeg 2, phân này se trình bày vê các kĩ thuật nén, ảnh

hưởng của phương nén tới chất lượng nén video, và một số so sánh giữa 2 chuân nén này.

Chuân H261 và H262, phân này se trình bày vê các kĩ thuật nén, ảnh hưởng của phương pháp nén tới chất lượng nén video, và so sánh giữa kĩ thuật nén của dòng H26X (ITU-T) với dòng MPEG (ISO).

Chuân MPEG 4, phân này se trình bày vê các khia cạnh của chuân nén MPEG 4 và so sánh phương pháp nén giữa MPEG 4 với MPEG 1 và MPEG 2.

Phân cuối cùng là chuân H264, tìm hiểu vê các kĩ thuật, các cải tiến trong phương pháp nén của H264 với các chuân khác, một số so sánh giữa H264 với MPEG và các chuân H26X khác.

Cách thực hiện môi phân trên do các bạn thực hiện phân đó quyết định tùy theo hướng tìm hiểu của từng người.

Chúng em xin cảm ơn cô Nguyễn Thị Hoàng Lan đã giúp chúng em hoàn thành tiểu luận này.

6

Nhóm 4 - lớp Truyên thông và mạng máy tinh K51

I. CHUẨN MPEG 1 và MPEG 2

1. Tổng quan về MPEG

Chuân MPEG (moving picture experts group) là chuân nén, giải nén và đồng bộ hóa các tin hiệu video và audio. Với các tỉ lệ nén 1.2 Mbps, với độ phân giải 352x240 quét 30Hz thông thường thì chất lượng video có thể so sánh được với chuân VHS

Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữ liệu lớn hơn mà không cân thay đổi độ phân giải. MPEG không phải là công cu nén đơn lẻ mà ưu điểm của nén MPEG chinh là ở chô nó có một tập hợp các công cu mã hóa chuân, chúng có thể được kết hợp với nhau một cách linh động để phuc vu cho một loạt các ứng dung khác nhau.

Các chuân MPEG hiện có gồm: MPEG-1 là chuân lưu trữ và phuc hồi ảnh động và Audio trong lưu trữ

Media. MPEG-1 có thể nén tin hiêu video tới 1.5 Mbps với chất lượng VHS và âm thanh lập thể (stereo audio) với tốc độ 192 bps. NÓ được dùng để lưu trữ video và âm thanh trên CD-ROM.

MPEG-2 là chuân cho TV số. MPEG-4 là chuân cho các ứng dung Multmedia. MPEG-4 trở thành 1 tiêu

chuân cho nén ảnh kỹ thuật truyên hình số, các ứng dung vê đồ họa và video tương tác hai chiêu (Games, Video conferencing) và các ứng dung Multimedia tương tác hai chiêu (world wide web hoặc các ứng dung nhằm phân phát dữ liệu video như truyên hình cáp, internet video…). MPEG-4 đã trở thành một tiêu chuân công nghệ trong quá trình sản xuất, phân phố và truy cập vào các hệ thống video. Nó đã góp phân giải quyết vấn đê dung lượng cho các thiết bị lưu trữ, giải quyết vấn đê vê băng thông của đường truyên tin hiệu video hoặc kết hợp cả hai vấn đê trên.

MPEG-7 chứa đặc tả thông tin, giao diện cho việc tìm kiếm thông tin

MPEG-1 và MPEG-2 đã được chuân hóa trong khi MPEG-4 và MPEG-7 đang được phát triển.

2. MPEG 1

Dữ liệu MPEG gồm 2 lớp: Lớp hệ thống (System layer) chứa thông tin vê thời gian (Timing) và các

thông tin khác cân thiết cho việc tách các dòng dữ liệu Video và Audio đồng thời đồng bộ hóa Video và Audio trong quá trình phát (Playback)

7


Lớp dữ liệu nén (Compress Layer) bao gồm các dòng dữ liệu Video và Audio.

Hình 1 Hệ thống giải mã của MPEG

Hệ thống giải mã se tách các thông tin vê thời gian từ dữ liệu hệ thống MPEG và gửi nó đến các thiết bị hệ thống khác (việc đồng bộ hóa se cân thêm nhiêu thông tin vê thời gian). Hệ thống giải mã cũng tách các dữ liệu Video và Audio từ dữ liệu ban đâu, sau đó gửi chúng đến bộ giải mã thich hợp.

Bộ giải mã Video (Video Decoder) và Audio (Audio Decoder) giải nén các dòng dữ liệu Video và Audio. Hâu hết các sơ đồ nén MPEG đêu dùng kỹ thuật lấy mẫu bổ xung (subsampling) và lượng tử hóa (Quantization) trước khi mã hóa. Lấy mẫu bổ xung nhằm muc đich để làm giảm kich thước khung hình đâu vào theo cả chiêu ngang và chiêu dọc, như vậy se giảm số lượng các điểm ảnh trước mã hóa. Trong một số trường hợp người ta còn lấy mẫu bổ xung theo thời gian để giảm số lượng các khung hình trước khi mã hóa. Đây được xem như là một kỹ thuật rất cơ bản nhằm loại bỏ sự dư thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ.

2.1. Phân cấp cấu trúc của MPEG 1Chuân MPEG định nghĩa một kiểu phân cấp cấu trúc trong dữ liệu Video như

sau: Video Sequence (Cảnh): băt đâu với một Sequence Header, bao gồm một

hoặc một nhóm khung hình và kết thúc với mã End-of-sequence.

Hình 2 Video Sequence

GOP (Group of picture): một dãy liên tiếp các ảnh (picture) trong cảnh. Frame/Picture (khung hình): là thành phân mã hóa chinh, thường chúng ta có

thể phân biết sự thay đổi vê độ sáng của ảnh (Brightness) tốt hơn sự thay đổi

8


vê màu (Chromiance), do đó trước hết các sơ đồ nén MPEG se tiến hành chia khung hình thành các thành phân độ sáng Y và thành phân độ màu Cb, Cr; một khung hình se gồm có ba ma trận ứng với các thành phân vê độ sáng Y và độ màu Cb, Cr

Hình 3 Thành phần độ sáng và thành phần độ màu

Ma trận Y có số hàng và cột bằng nhau (ma trận vuông). Ma trận Cb và Cr có số hàng và cột bằng nửa ma trận Y. Cứ 4 giá trị Y lại có 2 giá trị kết hợp một của Cb và một của Cr (Vị tri của giá trị Cb và Cr là tương đương).

Slice: Dãy các Macroblock, thứ tự của Macroblock bên trong Slice được xác định từ trái qua phải, từ trên xuống dưới. Slice rất quan trong trong việc định lôi. Nếu dòng dữ liệu (Bitstream) có chứa lôi, bộ giải mã có thể bỏ qua và tiếp tuc ở Slice kế tiếp. Nhiêu slice trên dòng dữ liệu cho phép che giấu lôi tốt hơn và được dùng để cải thiện chất lượng hình ảnh.

Macroblock: 16 pixel trong 16 hàng của thành phân Y tương ứng với 8 pixel trong 8 hàng của thành phân Cb và Cr. Một Macroblock chứa 4 Y Block với 1 Cb Block và 1 Cr Block với các con số ứng với thứ tự trong các dòng dữ liệu.

Block: là tập hợp 8 pixel trong 8 hàng các giá trị của thành phân Y hoặc Cb, C

2.2. Các kĩ thuật nén của MPEG 1

Nén MPEG là sự kết hợp hài hóa của 4 kỹ thuật cơ bản: Preprocessing (tiên xử lý), Temporal Prediction (đoán trước sự chuyển động của các frame ở bộ mã hóa), Motion compensation (bù chuyển động ở bộ giải mã), Quantization Coding (lượng tử hóa).

Các bộ lọc tiên xử lý se lọc ra những thông tin không cân thiết từ tin hiệu Video và những thông tin khó mã hóa những không quan trọng cho sự cảm thu của măt người. Kỹ thuật đoán chuyển động dựa trên nguyên tăc là các khung hình trong một cảnh video (video sequence) dường như có quan hệ mật thiết với nhau theo thời gian: Môi khung hình tại môi thời điểm nhất định se có nhiêu khả năng giống với các khung hình đững ngay trước và ngay sau nó. Các bộ mã hóa se tiến hành quét

9


lân lượt từng phân nhỏ trong môi khung hình gọi là Macroblock, sau đó nó se phát hiện Macroblock nào không thay đổi từ khung hình này đến khung hình khác. Bộ mã hóa se tiên đoán trước sự xuất hiện của các Macroblock khi biết vị tri và hướng chuyển động của nó. Do dó chỉ những sự thay đổi giữa các Macroblock trong khung hình hiện tại và các Macroblock được tiên đoán mới được truyên tới bên phia thu. Phia thu (bộ giải mã) đã lưu trữ sẵn những thông tin mà không thay đổi từ khung hình này tới khung hình khác trong bộ nhớ đệm của nó và chúng được dùng để điên thêm một cách đêu đặn vào các vị tri trống trong khung hình được khôi phuc.

Nén tin hiệu video được thực hiện nhờ việc loại bỏ cá sự dư thừa vê không gian (Spatial Coding) và thời gian (Temporal Coding). Trong MPEG, việc loại bỏ dư thừa vê thời gian được thực hiện nhờ sử dung các tinh chất giống nhau giữa các khung hình liên tiếp. Chúng ta có thể sử dung tinh chất này để tạo ra các khung hình mới nhờ vào những thông tin từ những khung hình mới nhờ vào những thông tin từ những khung hình đã gửi trước nó. Do vậy ở phia bộ mã hóa chỉ cân gửi những khung hình có thay đổi so với những khung hình trước, sau đó dùng phương pháp nén vê không gian để loại bỏ sự dư thừa vê không gian trong chinh những khung hình sai khác này. Nén vê không gian dựa trên nguyên tăc là phát hiện sự giống nhau của các điểm ảnh lân cận nhau.

2.2.1. Các kiểu khung hình trong MPEG 1

Chuân MPEG định nghĩa cu thể 3 kiểu khung hình: I-frame, B-frame, P-frame. I-frame (Intra frame - khung hình độc lập): I-frame là khung hình được mã

hóa độc lập mà không cân tham khảo tới các khung hình khác. Hiệu quả nén tin hiệu đạt được do loại bỏ sự dư thừa vê không gian (không có yếu tố thời gian tham gia quá trình). I-frame được dùng một cách tuân hoàn để tạo các điểm tựa cho dòng dữ liệu trong quá trình giải mã. I-frame cung cấp khả năng truy xuất ngẫu nhiên các điểm trong dữ liệu video nén và cung cấp độ nén vừa phải được dùng với 2 bit môi pixel.

P-frame (Predicted frame - khung hình dự đoán): P-frame có thể sử dung các I-frame hay P-frame ngay trước nó để bù chuyển động. Công nghệ này gọi là công nghệ dự đoán tiếp (Forward prediction). Môi Macroblock trong P-frame có thể được mã hóa hóa theo kiểu tiên đoán (Predicted) hoặc được mã hóa độc lập (intra-coded)Cũng như I-frame, P-frame được dùng như một tham chiếu cho việc dự đoán B-frame và P-frame kế tiếp. P-frame dùng để bù chuyển động và cũng cấp nhiêu khả năng nén hơn I-frame do sử dung cả nén không gian và thời gian. P-frame có thể sinh ra các lôi do P-frame được dự đoán từ I-frame hoặc P-frame trước đó.

10


B-frame (Bidirectional frame - khung hình hai hướng): B-frame là các khung hình sử dung các khung hình trong quá khứ và tương lại để tham khảo. B-frame cung cấp khả năng nén lớn hơn và không sinh ra lôi do nó không được dùng cho việc tham chiếu.

Hình 4 Các khung hình trong chuẩn MPEG

Thuật toán MPEG cho phép mã hóa để chọn ra các tân số và vị tri của I-frame. Việc lựa chôm này dựa vào sự cân thiết của ứng dung trong truy xuất ngẫu nhiên và vị tri của cảnh. Đối với các ứng dung mà việc truy xuất ngẫu nhiên quan trọng thì I-frame luôn được sử dung 2 lân một giây.

B-frame có thể sử dung các ảnh I-frame hoặc P-frame phia trước hoặc phia sau nó cho việc bù chuyển động và do vậy cho kết quả nén cao nhất. Môi khối trong B-frame có thể được tiên đoán theo chiêu ngược, xuôi, cả hai hướng hoặc được mã một cách độc lập. Để có thể tiên đoán ngược từ một khung hình phia sau nó, bộ mã hóa se tiến hành săp xếp lại các khung hình từ thứ tự xuất hiện một cách tự nhiên sang một thứ tự khác của các khung hình trên đường truyên. Do vậy từ đâu ra của bộ mã hóa, B-frame được truyên sau các khung hình dùng để tham khảo ở phia trước và phia sau của nó. Điêu này se tạo độ trể do phải săp xếp lại thông tin, độ trễ này lớn hay nhỏ là tùy thuộc vào số các B-frame liên tiếp nhau được truyên

Hình 5 Các khung hình trong 1s

Bộ mã hóa chọn số B-frame nằm giữa môi cặp tham chiếu (I-frame hoặc P-frame). Việc lựa chọn này dựa vào các yếu tố như khối lượng bộ nhớ trong bộ mã hóa và đặc trưng của thành phân được mã hóa. Chẳng hạn một dãy khung hình thường có hai khung hình hai hướng xen giữa các khung hình tham chiếu.

11


2.2.2. Motion compensation

Bù chuyển động là công nghệ cải tiến việc nén P-frame và B-frame bằng việc loại bỏ dư thừa, thuật toán bù chuyển động làm việc ở mức Macroblock. Khi macroblock được bù chuyển động, file nén chứa các thông tin sau:

Vector không gian giữa Macroblock tham chiếu và Macroblock được mã hóa (Motion vertor).

Sự khác nhau giữa Macroblock tham chiếu và Macroblock được mã hóa (Error Term).

Kỹ thuật tiên đoán bù chuyển động được sử dung như là một trong những công cu mạnh để làm giảm sự dư thừa vê không gian giữa các khung hình. Khái niệm vê bù chuyển động của các khung hình tức là các khung hình thành phân trong cảnh video se được thay thế gân đúng. Kỹ thuậ tiên đoán bù chuyển động giữa các khung hình được xem như là biện pháp để hạn chế bớt các thông số của chuyển động bởi việc dùng các Vector chuyển động để mô tả sự dịch chuyển các điểm ảnh. Kết quả tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một khung hình đã mã hóa được truyên phia trước của nó. Cả hai thông số, sai dố chuyển động (biên độ) và các vector chuyển động (hướng chuyển động) đêu được truyên tới phia bên nhận. Tuy nhiên do có mối quan hệ tương quan chặt che giữa các điểm ảnh vê không gian (trùng vê không gian), một vector chuyển động có thể được dùng cho một khố các điểm ảnh gồm các pixel lân cận nhau (MPEG-1 và MPEG-2 dùng các khối 16x16 pixels).

Không phải tất cả các thông tin trong khung hình có thể được dự đoán từ khung hình trước. Chằng hạn một cảnh với của phòng mở: các chi tiết của căn phòng không thể dự đoán được từ các khung hình trước (khi cửa đóng). Trong trường hợp này Macroblock trong P-frame không thể được miêu tả hiệu quả bởi bù chuyển động.

Sự khác nhau giữa bù chuyển động của B-frame và P-frame là các Macroblock trong P-frame chỉ được tham chiếu từ các khung hình trước còn các Macroblock trong B-frame được mã hóa phối hợp giữa các khung hình tham chiếu trước và sau nó.

2.2.4. Mã hóa trong Mpeg 1

4 kiểu mã hóa cho mối Macroblock trong B-frame: Intra Coding: không bù. Forward Prediction: khung hình trước được dùng để tham chiếu. Backward Prediction: khung hình tiếp theo được dùng để tham chiếu. Bidirection Prediction: cả hai khung hình trước và sau đêu được sử dung.

12


Backward Prediction có thể được sử dung để dự đoán những vị tri không xuất hiện trong khung hình trước. Các phương pháp dùng để tiên đoán các Macroblock trong cùng một khung hình cũng có thể không giống nhau. Hai trường (fields) trong cùng một Macroblock cũng có thể được tiên đoán theo hai cách khác nhau dùng các vector độc lập nhau hoặc có thể dùng chung một vector. Đối với môi Macroblock, bộ mã hóa se chon các phương pháp tiên đoán thich hợp, cố găng đảm bảo chất lượng ảnh tốt nhất khi được giải mã. Các thông số liên quan tới việc chon phương pháp tiên đoán cũng được truyên tới bộ giải mã cùng với dự đoán sai số nhằm khôi phuc gân chinh xác khung hình gốc.

Thuật toán mã hóa biến đổi MPEG gồm các bước: Biến đổi Cosine rời rác (DCT). Lượng tử hóa. Mã hóa dọc (Run-length Encoding).

Cả Block ảnh và Block dự đoán lôi đêu có không gian dư thừa rất lớn. Để giảm sự dư thừa, thuật toán MPEG biến đổi Block từ miên không gian sang miên tân số với biến đổi Cosine.

Tiếp theo, thuật toán lượng tử hóa các hệ số tân số. Lượng tử hóa là quá trình làm xấp xỉ môi hệ số tân số thành các số hữu hạn. Bộ mã hóa chọn mã hóa trận lượng tử hóa xác định môi hệ số tân số trong Block được lượng tử hóa như thế nào.

Hình 6 Mã hóa Macroblock

Sự kết hợp giữa DCT và lượng tử hóa cho kết quả là rất nhiêu tân số có giá trị 0, nhất là các hệ số có tân xuất lớn. Để tận dung tối đa điêu này, các hệ số được tổ chức theo đường zigzag, sau đó các hệ số được chuyển thành dãy các cặp chỉ số biên độ, môi cặp biểu thị số lượng các hệ số 0 và biện độ của các hệ số khác 0. Các cặp chỉ số biên độ sau đó được mã hóa bằng các mã có độ dài thay đổi, các mã có độ dài ngăn hơn cho các cặp hay xuất hiện còn các mã dài hơn cho các cặp it xuất hiện hơn.

Một vài Macroblock cân mã hóa chinh xác hơn. Để giải quyết sự không đồng đêu giữa các block, thuật toán MPEG cho phép khối lượng lượng tử có thể thay đổi cho môi Macroblock. Cơ chế này có thể được dùng để cung cấp sự điêu chỉnh tỉ lệ Bit rate (tỉ lệ truyên bit).

Chuân MPEG cung cập cơ chế timing để đảm bảo đồng bộ giữa video và audio. Chuân bao gồm hai tham số SCR (system clock reference) và PTS

13


(Presentation Timestamp). Theo lý thuyết của MPEG, SCR chạy ở mức 90kHz. Các giá trị SCR và PTS được mã hóa trong dòng dữ liệu MPEG sủ dung 33 bit.

SCR là ảnh của xung nhịp bộ mã hóa. Trong quá trình giải mã, các giá trị này được dùng để cập nhật vào bộ đếm xung nhịp CL480.

Hình 7 SCRs

PTS là những mẫu của xung nhịp bộ mã hóa được kết hợp giữa bộ phát video và Audio. Bộ phát giải mã cảnh Video hoặc Audio. PTS thể hiện thời gian khung hình Video được hiển thị hoặc thời gian băt đâu phát đoạn Audio.

Bộ giải mã cũng giữ hoặc phát lại các khung. Nếu PTS sớm hơn (có giá rị nhỏ hơn) SCR hiện thời thì bộ giải mã se bỏ qua khung hình. Nếu PTS chậm hơn (có giá trị lớn hơn) SCR hiện tại, bộ giải mã se lặp lại khung hình.

3. MPEG 2

MPEG 2 là chuân nén trong bộ tiêu chuân MPEG dùng để mã hóa luồng dữ liệu video kết hợp với các thông tin vê âm thanh. Đây là phương pháp mã hóa dữ liệu có tổn hao cho phép lưu trữ và truyên phim ảnh trên nên hệ thống và băng thông hiện thời. Chuân nén MPEG 2 được nhóm MPEG phát triển tiếp sau chuân nén MPEG 1, nó được mở rộng và kế thừa nhằm muc đich hô trợ việc truyên video số tốc độ bit lớn hơn 4 Mb/s, bao gồm các ứng dung DSM (phương tiện lưu trữ số), các hệ thống truyên hình hiện tại (PAL, NTSC, SECAM), cáp, thu lượn tin tức điện tử, truyên hình trực tiếp từ vệ tinh, truyên hình mở rộng (EDTV), truyên hình độ phân giải cao (HDTV),…

3.1. Sơ đồ nén và giải nén của MPEG 2

Dưới đây là sơ đồ nén và giải nén của chuân MPEG 2:

14


Hình 8 Sơ đồ mã hóa

Hình 9 Sơ đồ giải mã

15


3.2. Các kĩ thuật nén của MPEG 2

3.2.1. Video filtering

Là kỹ thuật nén tổn hao dùng để giảm dư thừa không gian giữa các khối macroblock trong một frame. Đây là công đoạn xử lý các frame nguyên gốc trước khi thực hiện biến đổi DCT. Các frame hệ màu RBG se được chuyển sang hệ màu YCbCr , công thức chuyển đổi :

Y= 0.299R + 0.587G + 0.114B Cb = 0.296 (B-Y ) +0.5 ; V = 0.435 ( R-Y ) =0.5

Việc chuyển từ hệ RGB sang YCbCr loại bỏ được cở bản ‘mutual redundancies’ . Trong thực tế, hệ màu RGB cho chất lượng hình ảnh tôt hơn nhưng lại yêu câu không gian lớn để lưu trữ và truyên file.

Sau đó tin hiệu se được lấy mẫu và số hóa, MPEG 2 chọn 2 tiêu chuân lấy mẫu là 4:2:0 và 4:2:2

Hình 10 Hai tiêu chuẩn lấy mẫu 4:2:0 và 4:2:2

16


3.2.2. DCT

Hình 11 Biến đổi DCT

Biến đổi DCT được thực hiện trên một một macroblock của ảnh thật đã lấy mẫu để cho ra một ma trận 8 x 8 với các điểm là các hệ số DCT.Phép DCT thực hiện chuyển các hệ số không gian sang miên tân số .Môi một phân tử điểm ảnh ở ma trận gốc được biểu diễn bằng một hệ số tân số nào đó. Có nhiêu năng lượng ảnh tập trung ở vùng tân số thấp ( vi du như các cảnh bâu trời, cảnh nên,..), các chi tiết của ảnh lại thể hiện ở tân số cao.Măt người tập trung trước hết vào phân tân số thấp của ảnh vì năng lượng tập trung chủ yếu vào phân này.Nhưng vùng mang hệ số tân số cao lại mang nhiêu thông tin hơn vùng tân số thấp. Vì vậy phép DCT săp xếp lại thông tin, thuận tiện cho các bước mã hóa khác sau Các hệ số DCT nói lên sự biến đổi tân số giữa các mẫu theo chiêu ngang và dọc.

Phép toàn DCT được mô tả như sau :

17


3.2.3. Lượng tử hóa

Hình 12 Sơ đồ biến đổi DCT

Lượng tử hoá là quá trình bỏ bớt các hệ số tân số, lượng tử hoá là quy cho (phân định) độ phân giải cho từng hệ số tân số (số lượng tử bit), sau đó nén số liệu bằng cánh quy các bit có trọng lượng thấp cho hệ số tâng số cao, điêu này it có nghĩa đối với người xem

Thực chất của lượng tử hóa là quá trình chia các hệ số F(u,v) cho các hệ số lớn hơn 1 ở các vị tri tương ứng, trong đó các hệ số ứng với tân số xuất hiện thấp của phân tử ảnh được chia cho các giá trị nhỏ (10, 11, 12, ...), ứng với tân số cao được chia cho các giá trị lớn (100, 120, 121, ...) và bỏ đi phân thập phân (chinh là sai số lượng tử hoá). Quá trình lượng tử hoá tạo ra nhiêu giá trị 0 trong ma trận các hệ số, và làm nhỏ đi các giá trị còn lại, nhờ vậy số lượng các bit của dữ liệu được mã hoá giảm đi đáng kể mà không gây ra sự khác biệt đáng kể dưới góc độ cảm nhận của măt người so với ảnh gốc ban đâu.

Lượng tử hóa được thực hiện bởi công thức sau :

T’[u][v] =

Trong đó: T : ma trận DCT T’: ma trận sau lương tử hóaQM : ma trận lượng tử hóa được xác định bởi chuân MPEG 2QS = 40, Quantizer scale

18


Hình 13 Một số ví dụ về biến đổi DCT

3.2.4. Mã hóa VLC

Hình 14 Sơ đồ mã hóa VLC

Còn gọi là mã hoá Huffman hay mã hoá entropy. Kỹ thuật này quan tâm đến khả năng có thể xảy ra của các thông tin giống nhau trong một ảnh, gán các từ mã ngăn (số bit nhỏ) cho các giá trị có khả năng xuất hiện cao và các từ mã dài (số bit lớn) để mã hoá những giá trị it khả năng xảy ra. Kỹ thuật này còn được kết hợp với kỹ thuật mã hóa chiêu dài chạy RLC : : tạo ra các mã đặc biệt để đánh dấu sự băt đâu và kết thúc của một chuôi các giá trị lặp lại, với kỹ thuật này chỉ có các giá trị khác 0 được mã hoá song song với các giá trị mẫu Zero suốt theo dòng quét.Việc kết hợp 2 kỹ thuật se làm giảm đáng kể số hệ số cân mã hóa.Bộ mã hóa se quét zic-zăc khối cân mã hóa để tạo ra danh sách các hệ số, sau đó sử dung kỹ thuật RLC để làm giảm số hệ số cân mã hóa trước khi tiến hành mã hóa bằng kỹ thuật VLC.

Vi du : cho một DCT

19


Sau khi quét zic-zăc se tiến hành nhóm các hệ số : (12), (6), (6), (0,4), (3), (0,…,0). Các nhóm này se được mã hóa :

Như vậy, từ 64 hệ số, chúng ta chỉ cân mã hóa và truyên đi 6 hệ số

Hình 15 Blocks trước và sau khi quét Zig-zag

3.2.5. Motion – Compensated Inter – Frame Prediction

Phân này tương tự như bên MPEG 1, kỹ thuật này được sử dung để nén các ảnh P,B có tác dung làm giảm các dư thừa thời gian giữa các frame.Frame P luôn được dự đoán tiến (dự đoán chđ dựa trên frame đã được mã hóa ), frame B dùng dự đoán 2 chiêu (dự đoán chuyển động dựa trên ảnh đã được mã hóa và săp được mã hóa). Phương pháp dự đoán cuyển động gồm 2 giai đoạn :

20


Đánh giá chuyển động để để xác định vector chuyển động giữa các khối Bù chuyển động để xác định ảnh bù sai số dự đoán

Phương pháp đánh giá chuyển động dựa trên nguyên tăc: môi khối trong frame hiện tại tìm khối phù hợp nhất trong khối frame được tham chiếu .Vecto chuyển động chinh là vecto có tọa độ tinh từ tâm khối hiện tại đến tâm khối tham chiếuNhư vậy, thay vì phải mã hóa ảnh gôc với tỉ lệ bit lớn, chúng ta chỉ cân mã hóa vecto chuyển động và ảnh bù chuyển động.

3.2.6. Bit rate control

Hình 16 Bit rate control

Bit rate control dùng để quản lý bộ đệm,kiểm soát quá trình lượng tử hóa.Đây là công đoạn dùng để kiểm soát chất lượng video cũng như bit rate đâu ra thông qua kiểm soát quá trình lượng tử hóa và quản lý dữ liệu nén trong bộ đệm

Chìa khoá để điêu khiển tốc độ truyên là trật tự dữ liệu đã nén trong bộ đệm (Buffer).Việc nén có thể được tiến hành với việc loại bỏ một vài thông tin đã được lựa chọn. Ảnh hưởng nhỏ nhất đối với chất lượng toàn bộ khung hình có thể đạt được bằng cách bỏ bớt các thông tin chi tiết. Điêu này đảm bảo giới hạn tỉ lệ nén dữ liệu trong khi chất lượng của khung hình suy giảm tối thiểu

Lượng tử hóa là kỹ thuật nén có tổn hao, kiểm soát quá trình này có thể kiểm soát được chất lượng video đâu ra. Con số các bit được mã hoá thể hiện khối ảnh phu thuộc rất nhiêu vào kết quả của quá trình lượng tử hoá - ở đây là các giá trị QF(u,v). Đây là cơ sở để hình thành cơ chế để kiểm soát tốc độ dòng bit hoặc chất lượng ảnh sau nén, dựa trên nguyên tăc kiểm soát/thay đổi các giá trị QF(u,v) thông qua việc thay đổi giá trị của:

Mức lượng tử hóa QS (MQUANT) Ma trận lượng tử hóa QM

21


Hình 17 Ba ma trận lượng từ hóa: (a) MQUANT = 2, (b) MQUANT = 4, (c) MQUANT = 6

Hình trên biểu diễn tương quan của các hệ số lượng tử hóa khi sử dugj 3 mức lượng tử hóa khác nhau : 2,4,6. Để thấy rõ sự khác biệt vê chất lượng nén khi sử dung các mức nén khác nhau ta theo dõi sơ đồ sau :

Hình 18 Dung lượng dữ liệu nén ứng với lượng tử hóa của hình 17

Ở hình trên, đường màu xanh thể hiện quá trình nén không tổn thất ứng W(u,v) =1 đối với tất cả.

Dạng răng cưa của các biểu đồ số bit trung bình trên hình 18 là kết quả của quá trình bù chuyển động, trong đó các giá trị cao hơn (ở đỉnh răng) là số bit thể hiện các phân tử ảnh I, kết quả của nén trong ảnh (intra pictures). Các giá trị nhỏ hơn liên kê là số bit thể hiện các phân tử ảnh dự báo trên cơ sở bù chuyển động và các ảnh được mã hóa từ quá trình tham chiếu ảnh I (ảnh P và B). Tại đây chúng ta cũng nhận thấy có sự dao động của số lượng bit trung bình trên môi phân tử ảnh trong phạm vi vài chuc khung hình. Đây chinh là tác động của cơ chế kiểm soát duy trì chất lượng ảnh để thich nghi với độ phức tạp khác nhau từ cảnh này sang cảnh khác. Cơ chế này làm việc ngay khi có sự thay đổi đột ngột của từng cảnh trên video, làm mất khả năng của thuật toán bù chuyển động. Khi đó mã hóa MPEG-2 có thể mã hóa từng khối ảnh như là một phân tử nén trong ảnh (Intra Frame Compression).

Một khả năng khác để thay đổi giá trị QF(u,v) là thay đổi ma trận lượng tử hóa, minh họa ta theo dõi 2 hình sau, mức lượng tử hóa là giống nhau:

22


Hình 19 Hai ma trận lượng tử hóa tiêu chuẩn W(u,v) với MQUANT = 2

(a)W(u,v) với độ dốc thoải (b) W(u,v) với độ dốc lớn

Hình 20 Dung lượng dữ liệu nén với ma trận lượng tử hóa trên hình 19

Cả hai phương pháp kiểm soát quá trình lượng tử hóa trên - như bất kỳ thuật toán nén có tổn thất nào khác - khi các giá trị MQUANT và W(u,v) đạt đến các giá trị cực trị se tạo ra các hiệu ứng phu (artifact) mà măt ngưòi có thể nhận biết được. Các hiệu ứng phu này khác nhau vê bản chất trong hai trường hợp, và đêu làm suy giảm nhiêu chất lượng ảnh. Khi tăng quá mức giá trị MQUANT (hình 17) se dẫn đến hình thành các khối 8x8 phân tử trên các ảnh thu được. Đối với trường hợp thứ hai (hình 19), khi tăng quá mức độ dốc của ma trận W(u,v) se dẫnđến hiện tượng nhiễu tân số cao, được gọi là nhiễu "muôi”, làm suy giảm độ nét và xuất hiện hiện tượng “méo” đường chéo trong các hình. Các hiệu ứng này càng lớn khi kich thước ảnh càng rộng, yêu câu độ phân giải ảnh cao (trường hợp điện ảnh số). Quá trình cài đặt chế độ kiểm soát lượng tử hoá trong các thiết bị nén MPEG-2 cân xác định phạm vi các giá trị cho phép của Mức lượng tử hoá MQUANT hay Độ dốc của ma trận W(u,v) để không xuất hiện các hiệu ứng phu nói trên. Phạm vi các giá trị này se thay đổi và phu thuộc vào từng trường hợp ứng dung cu thể (multimedia trên mạng, truyên hình, telecine hay điện ảnh số...).

23


Bit rate là yếu tố quan trọng quyết định đến chất lượng video đâu ra. MPEG 2 hô trợ nhiêu ứng dung đâu ra với bit rate khác nhau. Chúng ta se tìm hiểu vấn đê này ở phân sau.

4. Ảnh hưởng của kĩ thuật nén lên chất lượng hình ảnh

Như chúng ta đã biết, MPEG 2 được phát triển dựa trên MPEG 1, các kỹ thuật nén, sơ đồ nén vê cơ bản là hoàn toàn giống MPEG 1. Tuy nhiên MPEG 2 lại có thể nén video với các chất lượng đâu ra khác nhau, phuc vu các ứng dung rất đa dạng. Vì vậy bộ mã hóa với cơ chế nén phải có nhiêu mức để phù hợp với từng trường hợp đâu ra. MPEG 2 định nghĩa ra các profile và level để diễn tả các mức nén video của mình.

Các yếu tố chinh ảnh hưởng đến chất lượng video video trong MPEG 2 là: bit rate, buffer size, tốc độ lấy mẫu, kiểu lấy mẫu, vector ranger. Việc kiểm soát bit rate và buffer size được thực hiện trong công đoạn bit rate control. Các việc còn lại được thực hiện ở công đoạn tiên xử lý, video filtering.

Hình 21 MPEG 2 Profiles

24


Hình 22 MPEG 2 Levels

Sau đây là các profiles và levels của MPEG 2 cùng với các thông số kĩ thuật của chúng:

SimpleProfile@MainLevel:

MainProfile@HighLevel:

25


MainProfile@High-1440Level:

MainProfile@MainLevel:

MainProfile@LowLevel:

26


SNRProfile@MainLevel:

27


SNRProfile@LowLevel

SpatialProfile@High-1440Level:

28


HighProfile@HighLevel:

29


HighProfile@High-1440Level

30


HighProfile@MainLevel

4:2:2Profile@MainLevel:

31


5. So sánh giữa MPEG 1 và MPEG 2

Vê cơ bản, MPEG 1 và MPEG 2 là giống nhau. Tuy nhiên vẫn có những khác biệt trong các kỹ thuật nén giữa 2 chuân này:

MPEG 2 hô trợ thêm định dạng 4:2:2, điêu này cho phép MPEG 2 hô trợ các định dạng nén video chất lượng cao.

Trong kỹ thuật quét các hệ số để phu vu việc mã hóa, MPEG 2 hô trợ thêm kiểu quét Alternate Zic-zăc, tập trung nhiêu năng lượng hơn ( do trong ma trận sau lương tử hóa, các hệ số khác không thường tập trung ở góc trên bên trái ma trận),làm cho mã hóa RLC và VLC đạt hiệu quả cao hơn

32


MPEG 1 hô trợ 1 loại frame đặc biệt mà không thể tìm thấy ở các đời MPEG sau là D-frame. Frame này độc lập, không có quan hệ gì với các frame I, B,C. Nó dùng để ‘fast preview” video.

Chế độ dánh giá chuyenr động trong MPEG 2 chinh xác tới ½ pixel, trong khi đó MPEG 1 chỉ là full pixel. Điêu này cho phép MPEg 2 nén video tốt hơn, đâu ra chất lượng tốt hơn.

MPEG 2 hô trợ 2 kiểu quét video là quét tuân tự và quét xem ke. Trong khi đó MPEG 1 chỉ hô trọ kiểu quét tuân tự.

33


II. H261 và H262

1. H261

H261. Là một tiêu chuân mã hóa được sử dung trong mã hóa video. Ban đâu nó đượcc chỉ định dung trong mạch kỹ thuật số tich hợp các dịch vu(ISDN) nhưng nhiêu thi nghiệm đã cho thấy nó có thể sử dung trong mạng chuyển mạch gói như internet.

H261 được tổ chức như là một hệ thống phân cấp. Dòng Video được bao gồm một ngăn xếp của các image hay các frame.các image(frame) được tổ chức như là tập hợp của nhiêu nhóm các khối(GoB). Môi GOB bao gồm 3 dòng môi dòng 11 khối nhỏ (MB). Môi MB mang thong tin của môt nhóm 16x16 pixels trong đó thông tin vê độ sáng được chứa trong 4 khối môi khối 8x8 pixels trong khi những thông tin vê màu săc được đưa bởi hai màu đỏ và xanh của các thành phân khác nhau trong một độ phân giải của môi khổi 8x8 pixels. Những thành phân và các mã được đại diện bởi các giá trị lấy mẫu và được định nghĩa trong khuyến nghị ITU-R 601.

Việc chia nhóm như thế này để chỉ rõ thông tin ở môi cấp của hệ thống phân cấp:

Ở cấp khung ảnh, thông tin được chỉ ra là độ trễ từ ảnh trước đó, định dạng ảnh và các chỉ số.

Ở cấp GOB, thông tin được chỉ ra là số hiệu GOB và lượng hóa mặc định để sử dung cho MBs

Ở cấp MB, thông tin được chỉ ra là các khối được đại diện và những cái không thay đổi, các tùy chọn lượng tử và vecto chuyển động.

Những khối thay đổi được giải mã bằng tinh toán DCT các hệ số thống kê của chúng sau khi đã được lượng tử và mã hóa Huffman.

Mã hóa Huffman của H261 chia ra 1 khối đặc biệt là “GOB start” gồm 15 số 0 tiếp đến là 1 số 1. Nó không thể băt đâu mã hóa bằng một khối khác, và khuôn này băt đâu ở header của môi GOB(và cũng là đâu của môi frame) để đánh dấu sự tách biệt của 2 GOB và chỉ ra GOB hiện tại đã kết thúc. Việc mã hóa cũng băt đâu bằng một mô hình gồm 7 chữ số 0 và phia sau là 1 chữ số 1. Mô hình có thể chỉ được chọn giữa việc mã hóa các khối hoặc ngay trước khi phân tách GOB.

34


1.1. Group of Block (GOB)

Ứng với ½ CIF(Common Image Format) picture hoặc là 1/3 QCIF(Quarter Common Image Format)

Hình 23 Trật tự của một GOB trong ảnh

Dữ liệu cho một group of block bao gồm một GOB header theo sau là macroblock data.Cấu trúc của nó như sau:

Hình 24 Cấu trúc của GOB header

Hình 24. Cấu trúc của GOB header

Trong đó: GBSC: Group of blocks Start Code(16 bit) Một word 16 bits có giá trị là

0000 0000 0000 0001 GN: Group of Number(4 bits) 4 bits này dùng để chỉ vị tri của group of

blocks GQUANT: Quantizer Information(5 bits) Dùng để chỉ ra lượng tử

hóa(quantizer) được dùng trong group of block cho đến khi bị loại bỏ bởi bất kỳ một MQUANT nào theo sau.Đây là giá trị của lượng tử có trị số từ 1-31.

GEI: Extra Insertion Information(1 bit) Được bật lên 1 khi có trường data. GSPARE: Spare Information(0,8,16,......bits) Khi thông số GEI bật lên thì 9

bits theo sau se bao gồm 8 bits data và 1 bit GEI khác dùng để 9 bits tiếp theo và cứ tiếp tuc như thế cho đến khi gặp bit GEI=0.

35


1.1.1. Macroblocks:Môi GOB(Group of Block) được chia thành 33 macroblock ứng với 16*16

pixel của cường độ sáng và 2 thành phân màu(8*8).

Hình 25 Trật tự của macroblock trong một GOB

Hình 26 Cấu trúc của một lớp Macroblock

Trong đó MBA: Macroblock Address: Có độ dài thay đổi dùng để chỉ vị tri của

macroblock trong một group of block.Trật tự được truyên đi theo đúng thứ tự như hình 5 ở trên.Còn đối với các macroblock cuối cùng notice chuyển đi.Những macroblock nào không chứa thông tin của phân ảnh đó se không được chuyển đi.

MITYPE: type Information Là từ mã có độ dài thay đổi cung cấp thông tin vê macroblock và những yếu tố data có mặt.

MQUANT: Quantizer(5 bit) Giá trị của MQUANT cũng giống như GQUANT.

MVD: Motion Vector Data Giá trị MVD tinh được từ macroblock vetor bằng cách trừ đi vector của macroblock đi trước được xem là bằng 0 trong 3 trường hợp sau:

o Macblock 1,12,23o Các macroblock mà MBA có độ sai lệch khác 1o MTYPE của macroblock trước không phải là MCo MDV bao gồm một word mã hóa thành phân ngang và theo sau là một

word mã hóa thành phân dọc. CPB:Coded block pattern:Trường này chỉ có khi nó được chỉ định bởi trường

MTYPE.Từ mã(codeword) cung cấp 1 con số chỉ định những block ở trong macroblock nào có it nhất một hệ số biến đổi được truyên đi.

36


1.1.2. Block:

Ứng với 8*8 pixel.Dữ liệu cho môi block bao gồm các codewords cho các hệ số biến đổi theo sau là ki hiệu kết thúc block.Trật tự của các block trong một macroblock như sau:

Hình 27 Trật tự của blocks trong Macroblock

Còn dưới là cấu trúc của block layer:

Trong đó:TCOEFF(Transform Coefficients) là hệ số biến đổi luôn luôn biểu thị cho tất cả 6 blocks trong một macroblock khi trường MTYPE chỉ định là INTRA.Các hệ số biến đổi đã được lưởng tử hóa được truyên đi một cách tuân tự theo 1 dãy như sau:

37


1.2. Mô hình mã hóa và giãi mã của H261

Hình 28 Sơ đồ mã hóa H261

Hình 29 Sơ đồ giải mã H261

38


1.3. Các kĩ thuật nén của H261

1.3.1. Frame coding

H261 sử dung hai loại khung: intra-frame(I-frame) và Inter-frame (P-frame): I-frame cung cấp một điểm truy cập, nó sử dung JPEG làm cơ bản P-frames sử dung "pseudo-differences" từ frame trước đó ("Predicted"), do

đó, khung hình phu thuộc lẫn nhau.

Hình 30 Intra frame và Inter frame

Intra-frame Coding

Hình 31 Intra-frame coding

MB là 16x16 pixel trên vùng Y của tổ chức ảnh. Một MB thường bao gồm 4 khối Y, 1 khối Cr và 1 khối Cb.

Lượng tử hóa bằng 1 giá trị không đổi cho tất cả các hệ số DCT

Inter-frame (P-frame) Coding

39


Hình 32 Inter-frame coding

Ảnh phia sau được gọi là ảnh tham chiếu, ảnh được mã hóa được gọi là target image.

Chú ý: Các ảnh khác nhau thì được mã hóa. Cân sử dung các ảnh được giải mã như là ảnh tham chiếu, không phải nguyên

gốc.Chúng ta sử dung “Mean Absulate Error”(MAE) để chọn block tốt . Cũng có

thể sử dung “Mean Squared Error”(MSE) = Sum(E*E)/N

H. 261 Frame Encoder

Hình dưới là sơ đồ của bộ mã hóa frame của H261. Trong đó: “Control” điểu khiển tốc độ dòng bit. Nếu bộ đệm truyên quá đây thì tốc độ

bit se được giảm bằng cách thay đổi các yếu tố lượng tử. “Memory” Sử dung để chứa các ảnh được tái tạo(block) cho muc đich của

vecto chuyển động để tìm ra P-frame tiếp theo.

40


Hình 33 H261 frame encoder

1.3.2. Block transformation:H261 hô trợ việc bù đăp những mất mát của quá trình chuyển động trong bộ

mã hóa như một tùy chọn.Trong việc bồi thường chuyển động,một vùng tìm kiếm đc xây đựng dựa trên frame trước để xác định macroblock tham chiếu tốt nhất(reference macroblock).Cả độ lệch ước tinh cũng như vector chuyển động,xác định giá trị và hướng di chuyển giữa macroblock được mã hóa và vùng tham chiếu đã chọn đêu được gửi đi.Cùng tìm kiếm cũng như làm thế nào để tinh toán vector chuyển động không tùy thuộc vào sự chuân hóa.Thành phân nằm ngang và thẳng đứng của vector phải có giá trị nguyên trong khoảng từ -15 đến 15.

Trong sự biến đổi khối những frame mã hóa theo kiểu INTRA cũng như những sai số dự đoán đêu được vào trong khối 8*8.Môi khối se được xử lý bởi một hàm FDCT hai chiêu.

41


1.3.3. Quantization&Entropy Coding:Muc đich của bước này là đạt được sự nén tốt hơn bằng các hệ số

DCT(Discrete Cosine Transform) để đạt được chất lượng đòi hỏi.Số lượng tử hóa là 1 đối với các hệ số INTRA và là 31 cho tất cả các hệ số khác.

Mã hóa entropy kéo theo sự nén tốt hơn được thực hiện bằng cách gán những từ mã ngăn hơn cho những sự kiện phổ biến và sử dung những sự kiện it phổ biến hơn.Mã hóa Huffman thường được sử dung trong trường hợp này.

Nói cách khác,chúng ta có thể mất một vài hệ số trong việc chuyển đổi bằng cách sử dung it bit hơn so với số bit cân thiết cho tất cả các giá trị.Chúng ta se dùng những từ mã ngăn hơn đối với những giá trị thông thường(giống như việc sử dung 8 bit cho việc mã hóa 3 ki tự trong tiếng Anh).

1.3.4. Phương pháp tìm kiếm Motion Vector

Hình 34 Phương pháp tìm kiếm Motion Vector

C(x + k, y + l) là pixels trong MB ở góc bên trái phia trên (x, y) trong Target frame.

R(x + i + k, y + j + l) là pixels trong MB ở góc trái phia trên của (x + i, y + j) ở trong Reference frame.

Hàm tinh toán giá trị:

42


Muc đich là tìm ra (u,v) để MAE(u,v) nhỏ nhất.Phương pháp tìm kiếm đầy đủ: Lân lượt tìm kiếm toàn bộ vùng pxp => rất chậm

Phương pháp Two-Dimensional Logarithmic Tương tự nhu tìm kiếm nhị phân. Hàm MAE se được băt đâu tinh toán trong

môi vùng [-p/2;p/2] trong 9 vùng được chỉ trong hình ve.Lặp lại cho tới khi kich thước của vùng tìm kiếm chỉ bằng 1pixel.

1. Tìm kiếm 1 trong 9 vùng đó mà MAE nhỏ nhất2. Thiết lập vùng tìm kiếm mới với kich thước môi chiêu bằng nửa so vs ban

đâu với trung tâm là điểm vừa tìm kiếm được ở bước 1.

Hình 35 Two-Dimensional Logarithmic

43


1.3.5. Phương pháp Hierarchical Motion Estimation

Hình 36 Hierarchical Motion Estimation

Tạo một số phiên bản độ phân giải thấp của target image và reference image. Tìm kiếm vector chuyển động phù hợp nhất trong độ phân giải thấp nhất. Sửa đổi vector chuyển động dân dân theo mức đi dân lên.

Một số vấn đề: Tránh lôi khi truyên:

o Phải sử dung truyên 1 I-frame trong môi lân truyêno Phải sử dung các frame đã được giả mã để so sánh.

Điêu khiển dòng truyên: Dựa trên thông điệp phản hồi vê độ đây của bộ đệm, nếu bộ đệm quá đây phải tăng các yếu tố lượng tử hóa để giảm dòng dữ liệu.

44


2. H262

H.262 hay MPEG-2 Part 2 (thường được biết đến là tiêu chuân ISO/IEC 13818-2, cũng như là chuân MPEG-2 Video) là 1 chuân nén và mã hóa video kỹ thuật số được phát triển bởi ITU-T Video Coding Experts Group (VCEG) and ISO/IEC Moving Picture Experts Group (MPEG). Nó là phân thứ 2 của chuân ISO/IEC MPEG-2. Tài liệu ITU-T Recommendation H.262 và ISO/IEC 13818-2 là như nhau. H.262 là phân mở rộng của chuân nén quốc tế MPEG-1 (H261) dành cho video. H261 được thiết kế để mã hóa những đoạn video có tốc độ từ 1,2 Mbit/s đến 1,5 Mbit/s dùng để ghi CD-ROM, VCD trong khi H262 được hướng đến để mã hóa những đoạn video có tốc độ cao hơn từ 10 Mbit/s đến 15 Mbit/s dùng cho DVD, TV số và HDTV. H262 cung cấp những thuật toán để mã hóa tốt hơn những video có liên hệ với nhau và hô trợ nhiêu tốc độ hơn. H262 cung cấp một công cu mã hóa từng nấc mà những video có thể được tái tạo từ những dòng bit.

2.1. Mô hình mã hóa H262Trong hệ thống H.262, DCT và khối dự đoán bù chuyển động giữa các frame

được kết hợp với nhau như trong hình 37. Bộ mã hóa trừ dự đoán bù chuyển động từ ảnh gốc để tạo nên một ảnh ‘dự báo lôi’. Ảnh dự báo lôi được biến đổi cùng với DCT, hệ số được lượng tử hóa và giá trị này được mã hóa sử dung VLC. Lôi độ chói được kết hợp với những thông tin ‘phu’ mà hệ thống giải mã cân, như vectơ chuyển động và thông tin đồng bộ hóa, và đượ tạo thành 1 chuôi các bit để truyên đi. Hình 38 chỉ ra khung cấu trúc của 1 chuôi video mã hóa theo chuân H.262.

Hình 37 (a) Hệ thống mã hóa bù chuyển động DCT

45

http://en.wikipedia.org/wiki/MPEG-2

http://en.wikipedia.org/wiki/Moving_Picture_Experts_Group

http://en.wikipedia.org/wiki/International_Electrotechnical_Commission

http://en.wikipedia.org/wiki/International_Organization_for_Standardization

http://en.wikipedia.org/wiki/Video_Coding_Experts_Group

http://en.wikipedia.org/wiki/ITU-T


(b)Hệ thống giải mã bù chuyển động DCT.

Hình 38 Cấu trúc của chuỗi các bit video mã hóa theo chuẩn H262.

Trong hệ thống giải mã, những hệ số lượng tử hóa DCT được xây dựng lại và lấy nghịch đảo để tạo ra dự đoán lôi, sau đó se được đưa vào việc dự đoán bù chuyển động được tạo ra từ những ảnh đã được mã hóa từ trước để tạo ra ảnh được mã hóa.

Trong mộ bộ mã hóa theo chuân H262, khối dự đoán bù chuyển động trong hình 2 hô trợ rất nhiêu phương thức để dự đoán chuyển động. Vi du, khối có thể được dự đoán ‘tiến’ từ ảnh trước, hay ‘lùi’ từ ảnh sau, hoặc dự đoán ‘hai chiêu’ bằng cách lấy trung bình của ảnh trước và ảnh sau. Phương thức được sử dung để dự đoán khối có thể thay đổi. Thêm nữa, 2 vùng trong 1 khối có thể được dự đoán riêng re với vectơ chuyển động riêng của nó. Một lựa chọn khác là tạo ra 1 dự đoán mang giá trị 0, vi du như là khối ảnh gốc hơn là khối đã được dự đoán lôi được mã hóa bởi DCT. Với môi khối được mã hóa, bộ mã hóa se lựa chọn trong những chế độ dự đoán này, cố găng tối đa hóa chất lượng của ảnh trong giới hạn tốc độ. Sự lựa chọn chế độ dự đoán se được truyên cho bộ giãi mã, cùng với lôi dự đoán, vì vậy nó có thể tái lập được lại dự đoán đúng.

46


2.2. Loại ảnhTrong chuân H262, có 3 loại ảnh được định nghĩa. Loại ảnh lại định nghĩa chế

độ dự đoán nào được sử dung để mã hóa môi khối.‘Intra’ pictures (I-pictures) được mã hóa mà không cân tham khảo những ảnh

khác. Nén một cách trung bình đạt được bằng cách giảm đi những dư thừa vê không gian, nhưng không phải là những dư thừa vê thời gian. Loại ảnh này được sử dung để cung cấp điểm truy cập trong chuôi bit để công việc giải mã được băt đâu.

Predictive' pictures (P-pictures) có thể sử dung ảnh loại I hoặc ảnh loại P trước đó để bù chuyển động và được sử dung như là tham khảo cho những dự đoán tiếp theo. Môi khối trong ảnh loại P có thể được dự đoán hoặc mã hóa nội tại. Bằng cách giảm bớt sự dư thừa vê không gian và thời gian, ảnh loại P tạo ra một độ nén nhiêu hơn so với ảnh loại I.

'Bidirectionally-predictive' pictures (B-pictures) có thể sử dung ảnh loại I hoặc ảnh loại P trước và sau để bù chuyển động, tạo ra mức nén cao nhất. Môi ảnh loại B có thể được dự đoán tiên, lùi hay 2 chiêu hoặc mã hóa nội tại. Để kich hoạt việc dự đoán lùi từ frame tiếp theo, bộ mã hóa se yêu câu lại những bức ảnh theo thứ tự hiển thị tự nhiên cho tới thứ tự hiển thị trong chuôi bit vì vậy ảnh loại B có thể được truyên đi sau khi ảnh trước và sau nó tham khảo.

Sự khác nhau giữa các loại ảnh xảy ra trong những chuôi lặp đi lặp lại, được gọi là ‘Nhóm ảnh’ hay GOP. Một nhóm ảnh điển hình theo thứ tự hiển thị:B1 B2 I3 B4 B5 P6 B7 B8 P9 B10 B11 P12

Thứ tự tương ứng trong chuôi bit là:I3 B1 B2 P6 B4 B5 P9 B7 B8 P12 B10 B11

Một cấu trúc nhóm ảnh thông thường có thể được miêu tả với 2 thông số: N, là số ảnh trong nhóm, và M, là số ảnh loại P trong nhóm. Nhóm ảnh ở đây được mô tả với N = 12 và M = 3. Chuân H262 không nhất thiết là đúng với một nhóm ảnh thông thường, vi du 1 ảnh loại P theo sau bởi 1 sự thay đổi có thể được dự đoán không chinh xác vì ảnh tham khảo để dự đoán khác hoàn toàn so với ảnh đang được dự đoán. Vì vậy, có thể tốt hơn nếu mã hóa nó như là ảnh loại I.

Với chất lượng của 1 ảnh mã hóa, việc mã hóa sử dung môi loại ảnh để sinh ra số bit khác nhau. Trong một thứ tự tiêu biểu, một ảnh loại I được mã hóa thì lớn gấp 3 lân 1 ảnh loại P mã hóa, và ảnh loại P này lại lớn gấp đôi ảnh loại B.

2.3. Kiểm soát bộ đệmBằng cách bỏ đi rất nhiêu sự dư thừa từ ảnh gốc, bộ mã hóa có thể cho ra rất

nhiêu tốc độ. Tốc độ phu thuộc vào độ phức tạp và khả năng dự đoán của ảnh gốc và sự hiệu quả của việc dự đoán bù chuyển động.

Với rất nhiêu ứng dung, dòng bit cân được xử lý ở một kênh tốc độ cố định. Với những trường hợp này, một bộ đệm được đặt giữa bộ mã hóa và kênh. Bộ đệm được đặt ở tốc độ nào đó bởi bộ giải mã và được làm rông ở một tốc độ không đổi

47


bởi kênh. Để đê phòng việc bộ đệm bị tràn, một cơ chế thông báo hoạt động để điêu chỉnh tốc độ trung bình được mã hóa như là 1 chức năng của bộ đệm. Vi du, tốc độ trung bình được mã hóa có thể được hạ thấp bằng cách tăng độ lượng tử hóa áp dung cho các hệ số DCT. Cái này làm giảm bớt số bit được sinh ra bởi VLC, nhưng làm tăng sự méo mó của ảnh được mã hóa. Bộ giải mã cũng phải có 1 bộ đệm giữa kênh và nhiêu tốc độ đâu vào cho quá trình giải mã. Kich thước của bộ đệm ở bộ mã hóa và bộ giải mã phải giống nhau.

Chuân H262 định nghĩa một bộ đệm mã hóa và giải mã với kich thước tối đa, mặc du bộ mã hóa có thể chỉ cân sử dung 1 phân của bộ đệm này. Độ trễ qua bộ đệm mã hóa và giải mã bằng kich thước của bộ đệm chia cho tốc độ kênh. Vi du, 1 bộ mã hóa H262 hoạt động ở tốc đố 6Mbit/s với kich thước bộ đệmlaf 1,8Mbits se có tổng độ trể qua bộ đệm mã hóa và giải mã vào khoảng 300ms. Giảm kich thước bộ đệm se giảm độ trễ, nhưng se ảnh hưởng đến chất lượng ảnh nếu bộ đệm trở nên quá nhỏ để thich ứng với sự thay đổi tốc độ từ khối mã hóa VLC.

2.4. Các profiles và các bậc

2.4.1. ProfilesCó 2 profile không theo nấc được định nghĩa trong tài liệu chuân H262. Profile

đơn giản hơn không sử dung frame loại B, do đó se không có dự đoán lùi hoặc dự đoán nội suy. Vì vậy, không cân săp xếp lại thứ tự ảnh (việc săp xếp lại ảnh có thể khiến cho việc mã hóa trể mất 120ms). Với một bộ đệm mã hóa nhỏ, profile này phù hợp cho những ứng dung có độ trễ thấp nhưng hội nghị qua video, cái mà độ trễ toàn cuc chỉ khoảng 100ms. Việc mã hóa được tiến hành với tin hiệu video 4:2:0.

Profile chinh hô trợ thêm ảnh loại B và là profile được sử dung nhiêu nhất. Sử dung ảnh loại B se tăng chất lượng của ảnh, nhưng thêm 120 ms vào độ trễ khi mã hóa để săp xếp lại thứ tự ảnh. Bộ giải mã của profile chinh cũng giải mã được video nén theo chuân H261. Hiện nay, hâu hết bộ giải mã chuân H262 đêu hô trợ profile chinh ở nấc chinh.

Các profile từng nấc: SNR profile hô trợ thêm việc nâng cao các lớp của việc là tinh chế các hệ số DCT, sử dung công cu hệ số tin hiệu trên độ nhiễu (SNR). Hình 39 cho thấy 1 vi du vê bộ mã hóa và giải mã sử dung SNR.

48


Hình 39 (a)Bộ mã hóa video SNR

(b)SNR-scalable video decoder.

Bộ mã hóa hoạt động gân giống như bộ mã hóa được nhìn thấy ở hình 2 với sự khác biệt là thêm 1 bước lượng tử hóa nữa. Bộ mã hóa lượng tử hóa hệ số DCT tới 1 độ chinh xác nào đó, mã hóa độ dài của chúng rồi truyên chúng như là nấc thấp hay dòng bit ở tâng dưới. Lôi lượng tử hóa gặp phải ở lân lượng tử hóa đâu tiên tự nó se lại lượng tử hóa, được mã hóa và được truyên đi như là tâng trên hay chuôi bit ở tâng tăng cường. Thông tin phu cân có cho bộ giải mã như vectơ chuyển động , được truyên ở tâng dưới.

49


Dòng bit ở tâng dưới có thể được mã hóa giống như trong hình 2. Để giải mã sự kết hợp giữa tâng dưới và tâng nâng cao, cả 2 tâng cân phải được nhận, như trong hình 4b. Việc tinh chế hệ số ở tâng nâng cao được đưa vào hệ số của tâng dưới theo hệ số lượng tử hóa nghịch đảo. Hệ số cuối cùng sau đó được giải mã theo cách giống như với trường hợp non-scalable. Profile SNR được khuyến cáo dùng cho vô tuyến mặt đất.

Profile không gian hô trợ cho các tâng nâng cao xử lý ảnh mã hóa ở những độ phân giải khác nhau, sử dung công cu đánh giá không gian. Hình 40 là vi du vê bộ mã hóa và giải mã sử dung profile không gian.

Hình 40 (a) Bộ mã hóa video sử dụng profile đánh giá không gian

50


(b) Bộ giải mã video sử dụng profile đánh giá không gian

Đánh giá không gian được miêu tả bằng việc sử dung những ảnh được giải mã từ tâng dưới như là dự đoán ở tâng cao hơn. Nếu tâng cao hơn đang xử lý ảnh ở độ phân giải lớn hơn thì ảnh được giải mã từ tâng thấp hơn phải được chuyển thành độ phân giải lớn hơn.

Trong bộ giải mã trên hình 5(a), hai vòng lặp mã hóa hoạt động với những độ phân giải khác nhau để tạo ra những lớp cơ sở và lớp nâng cao. Bộ mã hóa lớp cơ sở tạo ra 1 dòng bit có thể được giải mã giống như trường hợp non-scalable. Bộ mã hóa tâng nâng cao được cung cấp những ảnh đã được giải mã từ tâng cơ cở, như là sự dự đoán cho các tâng trên. Sự dự đoán này bổ sung thêm vào sự dự đoán bù chuyển động từ các tâng trên. Chức năng đánh giá W ở trong hình 5(a), lựa chọn trong các dự đoán từ tâng trên và tâng dưới.

Profile không gian được khuyến nghị như là 1 cách để phát những dịch vu TV có độ phân giải cáo cùng với 1 profile chinh tương thich với những dịch vu chuân.

Profile cao hô trợ thêm cho việc mã hóa tin hiệu video 4:2:2 và bao gồm những công cu đánh đánh giá của SNR và profile không gian.

2.4.2. Các levels

H262 định nghĩa 4 level mã hóa tham số. Bảng 2 cho ta thấy giới hạn của kich thước ảnh, tốc độ frame, tốc độ bit và kich thước của bộ đệm cho môi level cu thể. Chú ý rằng các giới hạn là giới hạn trên và các bộ giải mã có thể hoạt động dưới các giới hạn này (vi du bộ giải mã 1440 có thể giải mã ảnh 720 pixel , 576 dòng).

Level Max. frame,width, pixels

Max. frame,height, lines

Max. frame,rate, Hz

Max. bit rate,Mbit/s

Buffer size,bits

Low 352 288 30 4 475136Main 720 576 30 15 1835008High-1440 1440 1152 60 60 7340032High 1920 1152 60 80 9781248

Hình 41 H262 levels: Giới hạn kích thước ảnh, tốc độ frame, tốc độ bit, kích thước bộ đệm.

2.5. Kết luận.

H262 rất thành công trong việc định ra các chuân để đáp ứng rất nhiêu các ứng dung, tốc độ, chất lượng và dịch vu. Các tiêu chuân này chỉ định nghĩa cấu trúc của dòng bit và quá trình giải mã. Nói chung, điêu này có nghĩa là bất kỳ bộ giải nào đáp ứng các tiêu chuân này có thể tạo ra những bức ảnh gân giống nhau. Tuy nhiên, bộ

51


giải mã có thể khác nhau ở cách chung xử lý các lôi trong quá trình truyên. Vi du, một bộ giải mã tiên tiến cố găng che giấu lôi trong ảnh mã hóa nếu nó phát hiện lôi trong dòng bit. Để đáp ứng những tiêu chuân này, một bộ mã hóa chỉ cân phải tạo ra 1 chuôi bit hợp chuân. Điêu kiện này một mình nó không ảnh hưởng đến chất lượng ảnh trong quá trình nén và có sự khác nhau trong việc mã hóa giữa những hệ thống mã hóa được thiết kế khác nhau. Vi du, hiệu quả của việc mã hóa có thể phu thuộc vào chất lượng của việc đánh giá vectơ chuyển động, kỹ thuật kiểm soát tốc độ bit, phương thức được sử dung để lựa chọn giữa những chế độ dự đoán khác nhau, mức độ ảnh được tiên xử lý và cách mà bộ lượng tử hóa được đáp ứng dựa trên nội dung của ảnh. Chất lượng ảnh qua bộ điêu chế theo chuân H262 dựa trên độ phức tạp và khả năng dự đoán được của ảnh gốc. Bộ mã hóa và giải mã thời gian thực làm việc tốt với ảnh chất lượng cao ở tốc độ khoảng 6 Mbit/s.

3. So sánh H261 và H262Tất cả bộ giải mã theo chuân H262 đêu đáp ứng tiêu chuân để giải mã chuân

H261. Trong hâu hết các trường hợp, chuân H262 được xem như là một chuân cao hơn chuân H261. Vi du, thứ tự scan zigzag các hệ số của chuân H261 là 1 trong 2 chế độ scan hệ số của chuân H262. Tuy nhiên, trong một vài trường hợp, có những yếu tố ở chuân H261 mà không tìm được một khái niệm tương ứng ở chuân H262. Sau đây là những đặc điểm như vậy.

IDCT mismatch: H261 – Khối kiểm soát lôi IDCT bao gồm việc thêm hoặc bớt 1 vào cho môi hệ số khác 0 sau nghịch đảo của hệ số lượng tử. H262 – Khối kiểm soát lôi IDCT bao gồm việc thêm hoặc bớt 1 vào hệ số [7] [7] nếu tổng của tất cả hệ số là chẵn sau khi nghịch đảo hệ số lượng tử hóa.

Macroblock: H261 – Mã VLC ‘0000 0001 111’ có thể được ấn vào bao nhiêu lân tùy ý trước môi địa chỉ của Macroblock. Mã này se phải được bỏ đi bởi bộ giải mã.H262 – Mã VLC này được giữ lại và không được sử dung trong chuân H262. Trong chuân H262, việc này được làm bằng cách chỉ cân nhét những byte 0 vào trước đoạn mã băt đâu.

Cú pháp mã thoát: H261 – Giá trị mà không thể mã hóa với VLC được mã hóa bởi mã giải thoát ‘0000 01’ theo sau bởi 1 FLC 14 bit (–127 <= level <= 127), hoặc 1 FLC 22 bit (–255 <= level <= 255). H262 – Giá trị mà không thể mã hóa với VLC được mã hóa bởi mã giải thoát theo sau bởi 1 FLC 18 bit (–2047 <= level <= 2047).

Vị trí độ sáng của mẫu dọc: H261 – Vị tri dọc của mẫu sáng nằm ở giữa những mẫu chói.H262 – Vị tri dọc của mẫu sáng nằm cùng chô với những mẫu chói.

52


Lát cắt: H261 – Lát căt không cân phải băt đâu và kết thúc ở cùng dòng của các macroblock. Do đó có thể cho tất cả các macroblock của cùng 1 ảnh vào cùng 1 lát căt duy nahats.H262 – Lát căt luôn băt đâu và kết thúc ở cùng 1 dòng của macroblock.

6 - Ảnh: H261 – Một cú pháp đặc biệt được định nghĩa cho ảnh loại D (Mã loại ảnh = 4). Ảnh loại D giống ảnh loại I với duy nhất 1 hệ số Intra-DC, không có kết thúc Block, và 1 mã kết thúc macroblock đặc biệt = 1.H262 - Ảnh loại D (Mã loại ảnh = 4) không được cho phép.

Vectơ chuyển động: H261 – Các yếu tố full_pel_forward_vector và full_pel_backward_vector có thể cho bằng 1. Và khi điêu này xảy ra, vectơ chuyển động có thể được mã hóa đây đủ thay vì một nửa. Vectơ chuyển động phải được nhân 2 trước khi được dùng để dự đoán.H262 – Các yếu tố full_pel_forward_vector và full_pel_backward_vector phải bằng 0. Vectơ chuyển động thì luôn được mã hóa một nửa.

Thông tin tỷ số: H261 – Giá trị 4 bit pel_aspect_ratio được mã hóa trong tiêu đê thứ tự.H262 - Giá trị 4 bit aspect_ratio_information được mã hóa trong tiêu đê thứ tự.9 - forward_f_code và backward_f_code:H261 – Giá trị f_code được sử dung để giải mã vectơ chuyển động là forward_f_code và backward_f_code nằm ở picture_header().H262 - Giá trị f_code được sử dung để giải mã vectơ chuyển động là f_code[s][t], nằm ở picture_coding_extension().10 - constrained_parameter_flag và maximum horizontal_sizeH261 – Khi constrained_parameter_flag được cho bằng 1, điêu này cho thấy một vài giới hạn đã được xác nhận. Một trong những giới hạn đó là horizontal_size <= 768. Cân lưu ý rằng một dòng bit theo chuân H262 có thể có các bức ảnh với kich thước ngang lên tới 768 pels.H262 – Cơ chế constrained_parameter_flag được thay thế bằng cơ chế profile và cơ chế nấc. Tuy nhiên, cân lưu ý rằng các chuôi bit MP @ ML không thể có kich thước ngang lớn hơn 720 pels.

Bit_rate và vbv_delay: H261 – Bit_rate và vbv_delay được gán bằng 3FFF và FFFF (hex) tương ứng. Các giá trị khác để cho các tốc độ cố định.H262 – Khái niệm bit_rate thay đổi. Trong nhiêu tốc độ, vbv_delay có thể được gán tới FFFF (hex), nhưng một giá trị khác không có nghĩa là tốc độ không đổi. Tốc độ bit không đổi chỉ là trường hợp đặc biệt của tốc độ bit thay đổi.

VBV: H261 – VBV chỉ được định nghĩa cho việc xử lý tốc độ không đổi. H262 – VBV chỉ được định nghĩa cho việc xử lý tốc độ thay đổi.

53


Temporal_reference: H261 - Temporal_reference được tăng lên 1 và chia lấy dư cho 1024 cho môi bức ảnh được mã hóa và trở vê ở môi tiêu đê của ảnh.H262 – Nếu không có ảnh lớn, temporal_reference được tăng lên 1 và chia lấy dư cho 1024 cho môi bức ảnh được mã hóa, và được trả vê 0 ở môi tiêu đê nhóm. Nếu có ảnh lớn (ở dòng bit trễ thấp), thì temporal_reference tuân theo một quy luật khác.

Cú pháp:

Có thể khiến cho dòng bit theo chuân H262 có cùng cú pháp như chuân H261, bằng cách sử dung một vài giá trị cu thể cho những tham số của chuân H262 không xuất hiện trong chuân H261. Nói cách khác, quá trình giải mã chuân H261 giống với chuân H262 khi:progressive_sequence = ‘1’ (thứ tự tiếp diễn).chroma_format = ‘01’ (4:2:0)frame_rate_extension_n = 0 và frame_rate_extension_d = 0 (tốc độ frame của chuân H261)intra_dc_precision = ‘00’ (Độ chinh xác 8-bit Intra-DC)picture_structure = ‘11’ (frame-picture bởi vì progressive_sequence = ‘1’)frame_pred_frame_dct = 1 (chỉ dự đoán dựa trên frame và frame DCT)concealment_motion_vectors = ‘0’ (Không có concealment motion vectors).q_scale_type = ‘0’ (linear quantiser_scale)intra_vlc_format = ‘0’ (Bảng VLC Intra MBs).alternate_scan = ‘0’ (Thứ tự săp xếp scan chuân H261)repeat_first_field = ‘0’ (Bởi vì progressive_sequence = ‘1’)chroma_420_type = ‘1’ (Độ chói dựa trên frame)progressive_frame = ‘1’ (Bởi vì progressive_sequence = ‘1’)

4. So sánh giữa MPEG và H26X

Chúng ta hãy cùng tham khảo bảng so sánh giữa MPEG và H261 dưới đây:

MPEG H261Sử dung CIF và SIF hoặc loại ảnh có độ phân giải cao hơn

Sử dung QCIF và CIF

Tỷ lệ ảnh đa dạng Cố định tỷ lệ 4:3Sử dung GOPs Không sử dung GOPsCó các MB : I, B, P Không sử dung MB B

54


Tỷ lệ bit rate đặc trưng khoảng 1,1 Mbit/s

Bit rate khoảng 384 kbit/s tối đa là 2Mbit/s

Không hạn chế số lượng Frame bỏ qua Chỉ bỏ qua tối đa 3 frameĐộ chinh xác của vector chuyển động nhỏ hơn 1pixel: Mpeg 2: half-pel Mpeg 4 quarter-pel

Độ chinh xác của vector chuyển động là 1 pixel

Giới hạn của vector chuyển động +/-15 pixel

Giới hạn vector chuyển động +/- 7 pixel

Thông qua việc so sánh các thông số kĩ thuật trên ta thấy rằng MPEG se cho ra chất lượng hình ảnh tốt hơn so với H261. Nhưng bù lại H261 cũng như các dòng H26X có thể cho tùy chỉnh được số bit rate cho video.

Cái gốc của sự khác nhau giữa MPEG và H26X là chủ yếu nằm ở khâu tiên đoán các frame mới và cách thức tinh toán sai lệch giữa các frame hiện tại và frame phỏng đoán. Điêu này se dẫn tới các khác nhau vê chất lượng hình ảnh cũng như bit rates.

Chuân nén H.26x (gồm các thế hệ H.261, H.262 và H.263...), thường có tốc độ mã hoá tin hiệu thấp hơn MPEGx (khoảng 1.5 Mbit/s với độ phân giải hình 352 x 288) do dùng chủ yếu trong viễn thông, truyên tải video giữa các thiết bị di động.

Trong khi đó, chuân MPEG2 dùng cho thị trường giải tri hay truyên hình chất lượng cao thì có độ phân giải hình cao hơn, và mang lại chất lượng hình ảnh tốt (cao hơn 1,5Mb/s với độ phân giải 352x288 hoặc 6Mb/s cho phân giải hoàn chỉnh).

55


III. MPEG 4

1. Giới thiệu chung

MPEG-4 là chuân ISO/IEC được phát triển bởi nhóm MPEG (Moving Picture Expert Group), nhóm này cũng đã xây dựng các chuân MPEG-1 và MPEG-2. Các chuân này mô tả phương pháp tương tác hình ảnh trên CD-ROM, DVD và truyên hình số. MPEG-4 với tên gọi chinh thức do ISO/IEC đặt tên là "ISO/IEC 14496" hoàn thành 10/1998 và trở thành tiêu chuân quốc tế 1/1999. Các mở rộng để tương thich hoàn toàn với các chuân trước đó được hoàn thành vào cuối năm 1999, phiên bản này được gọi là MPEG-4 Version 2, được công nhận là chuân quốc tế đâu năm 2000. Một số mở rộng được các nhóm làm việc trong MPEG tiếp tuc đưa vào kể từ đó đến nay.

MPEG-4 dựa vào sự thành công của ba lĩnh vực: Truyên hình số Các ứng dung tương tác đồ hoạ Tương tác đa phương tiện

Tiêu chuân MPEG-4 vê hình ảnh bao gồm một số các công cu dùng để mã hoá các hình ảnh tự nhiên như chuôi các ảnh liên tuc (Video) cũng như các ảnh tĩnh (Visual Texture - cấu trúc nghe nhìn). Ở đây, việc mã hoá video được dựa trên cơ sở của sơ đồ mã hoá DCT lai có bù chuyển động, còn mã hoá cấu trúc nghe nhìn (Visual texture) - VTC thì dựa trên cơ sở chuyển đổi Wavelet và mã hoá cây Zero. Mã hoá MPEG-4 ngoài việc quan tâm đến các hiệu quả mã hoá giống như các tiêu chuân mã hoá trước đây còn bổ xung thêm một số công cu cho các chức năng khác như: Mã hoá các đối tượng có hình dạng bất kỳ; nén hiệu quả của các tin hiệu video liên tuc và hình ảnh tĩnh trên một phạm vi rộng của tỷ lệ bit; phân cấp vê không gian thời gian và chất lượng; khả năng truyên dẫn tốt trong môi trường truyên dẫn khăc nhiệt.

2. Phạm vi và tính năng của chuẩn MPEG-4

Các tiêu chuân MPEG-4 cung cấp một bộ công nghệ để đáp ứng nhu câu của các tác giả, nhà cung cấp, người sử dung như nhau

Đối với tác giả, MPEG-4 cho phép sản xuất các nội dung xa hơn là có thể tái sử dung, linh hoạt hơn, tiện dung hơn với công nghệ cá nhân như truyên hình kỹ thuật số, độ họa hoạt hình, World Wide Web và các ứng dung mở rộng. Ngoài ra nó hoàn toàn có thể quản lý tốt hơn và bảo vệ bản quyên.

Đối với các nhà cung cấp dịch vu. MPEG-4 cung cấp thông tin minh bạch, có thể được hiểu và dịch ra các tin hiệu thich hợp tùy thuộc vào môi mạng cùng với sự trợ giúp của bản thân các chuân có liên quan. Như đã nói ở trên, tuy nhiên, không bao gồm chất lượng của dịch vu được xem xét, mà MPEG-4

56


cung cấp một mô tả chung cho QoS khác nhau cho các phương tiên truyên thông. Chất lượng của dịch vu mạng là ngoài phạm vi của MPEG-4 và là vấn đê của nhà cung cấp mạng, còn MPEG-4 cho phép tối ưu hoa vận chuyển trong mạng không đồng nhất.

Đối với người dùng cuối, MPEG-4 mang lại cấp độ cao hơn của sự tương tác các nội dung. Nó cũng mang đến truyên thông đa phương tiện cho các mạng mới, bao gồm những người có mức sử dung thấp, những người di chuyển nhiêu.

MPEG-4 tìm cách tránh sự đôc quyên, và đê các đinh danh không làm anh hưởng lẫn nhau và ảnh hưởng đến người sử dung. MPEG-4 đã đat được các muc tiêu này bằng cách cung cấp các chuân đê:

Đại diện cho các thành phân nội dung hình ảnh âm thanh nghe nhìn, đc gọi là các đối tượng của truyên thông đa phương tiện. Các đối tượng này có thể đc tổng hợp hoặc có nguồn gốc tự nhiên, có thể đc ghi với một máy ảnh, micro hoặc tạo ra từ máy tinh.

Mô tả các thành phân này để tạo ra phương tiện truyên thông hợp nhất các đối tượng nghe nhìn.

Ghép kênh và đồng bộ hóa dữ liệu với các đối tượng truyên thông, để có thẻ vận chuyển qua các kênh mạng lưới cung cấp QoS phù hợp.

Tương tác và tạo các cảnh nghe nhìn với người sử dung cuối.

3. Kĩ thuật mã hóa Video của chuẩn MPEG4

3.1. Sự tổ hợp khung hình trong MPEG 4

Trên hình thể hiện một trường hợp điển hình của tổ hợp khuôn hình MPEG-4, cho thấy nhiêu đối tượng (bàn, quả câu, bảng đen, người hướng dẫn và audio) được đặt vào một hệ thống toạ độ không gian 3 chiêu (3-D) đối với vị tri người xem giả định. Các thiết bị mã hoá và giải mã video đêu áp dung sơ đồ mã hoá như nhau cho môi đối tượng video VO (Video Object) riêng biệt (hình 2), nhờ vậy người sử dung có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi tỷ lệ, di chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị tri giải mã hay mã hoá.

57


Hình 42 Sự tổ hợp khung hình trong MPEG-4

Các bộ phận chức năng chinh trong các thiết bị MPEG-4 bao gồm: Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp

xác định khu vực và đường viên bao quanh đối tượng trong khung hình scene;

Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian. Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và

các dữ liệu còn lại sau khi đã bù chuyển động.Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dung một ngôn ngữ

mô tả khung hình riêng, được gọi là Định dạng nhị phân cho các khung hình BiFS (Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tượng xuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làm cho một đối tượng xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điêu kiện hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác. Trong MPEG-4, tất cả các đối tượng có thể được mã hoá với sơ đồ mã hoá tối ưu riêng của nó – video được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạ được mã

58


hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phân tử ảnh pixels như là mã hoá video ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho từng loại dữ liệu thich hợp, nên chuân MPEG-4 se cho phép mã hoá với hiệu quả cao tin hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt hình.

3.2. Cấu trúc bộ mã hóa và giải mã của MPEG 4

Hình 43 Cấu trúc của bộ mã hoá và giải mã video MPEG-4

Hình 44 Sơ đồ cấu trúc giải mã video MPEG-4

Nhiêu đối tượng như người, bản đồ, bản tin, được tách ra khỏi video đâu vào. Môi đối tượng video sau đó được mã hóa bởi bộ mã hoá đối tượng video VO (Video Object) và sau đó được truyên đi trên mạng. Tại vị tri thu, những đối tượng này

59


được giải mã riêng re nhờ bộ giải mã riêng VO và gửi tới bộ compositor. Người sử dung có thể tương tác với thiết bị để cấu trúc lại khung hình gốc, hay để xử lý các đối tượng tạo ra một khung hình khác. Ngoài ra, người sử dung có thể download các đối tượng khác từ các thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua mạng LAN, WAN hay Internet) để chèn thêm vào hay thay thế các đối tượng có trong khuôn hình gốc.

3.3. Các Profiles và Levels trong chuần MPEG-4

Chuân MPEG-4 bao gồm nhiêu tinh năng ưu việt khác nhau, và không phải bất kỳ ứng dung nào cũng đòi hỏi tất cả các tinh năng của MPEG-4. Để sử dung công cu MPEG-4 một cách hiệu quả nhất, môi thiết bị chuân MPEG-4 se chỉ được trang bị một số tinh năng phù hợp với một phạm vi ứng dung nhất định, và để tạo điêu kiện cho người sử dung lựa chọn công cu MPEG-4, các thiết bị MPEG-4 chia thành các nhóm công cu gọi là các Profiles, môi nhóm (Profiles) chỉ chứa một vài tinh năng cân thiết của chuân mã hoá thich hợp cho một phạm vi ứng dung nào đó. Điêu này cho phép người sử dung dễ dàng lựa chọn bộ công cu hô trợ các tinh năng mà họ cân từ vô số các bộ công cu MPEG-4 khác nhau. Môi Profiles lại có một số các mức Levels khác nhau, thể hiện mức độ phức tạp xử lý tinh toán dữ liệu của công cu đó (thông qua việc định rõ tốc độ bit, con số tối đa của các đối tượng trong khung hình, độ phức tạp của quá trình giải mã audio…).

4. MPEG 4 video

Các công cu để đại diện cho video tự nhiên trong tiêu chuân hình ảnh MPEG-4 cung cấp công nghệ cốt lõi tiêu chuân cho phép hiệu quả lưu trữ, truyên tải và xử lý các kết cấu, hình ảnh và dữ liệu video cho các môi trường đa phương tiện. Những công cu này cho phép giải mã và đại diện các đơn vị nguyên tử của hình ảnh và nội dung video, được gọi là "đối tượng video" (VOS). Một vi du vê một VOS có thể là một người nói (không có nên), sau đó có thể được sáng tác với AVO khác (âm thanh, hình ảnh các đối tượng) để tạo ra một cảnh. Hình chữ nhật hình ảnh thông thường được xử lý như một trường hợp đặc biệt của các đối tượng như vậy.

Để đạt được muc tiêu rộng lớn hơn là một giải pháp cho một phạm vi hẹp của các ứng dung, chức năng phổ biến cho nhiêu ứng dung được nhóm. Do đó, phân hình ảnh của tiêu chuân MPEG-4 cung cấp giải pháp theo hình thức các công cu và các thuật toán cho:

Hiệu quả nén hình ảnh và video. Hiệu quả nén của kết cấu để lập bản đồ kết cấu trên 2-D và măt lưới 3-D Hiệu quả nén của vật ngâm 2-D Hiệu quả nén của thời gian hình học khác nhau suối động măt lưới

60


Hiệu quả ngẫu nhiên truy cập vào tất cả các loại của các đối tượng trực quan Thao tác mở rộng chức năng cho hình ảnh và chuôi video Nội dung dựa trên mã hóa hình ảnh và video Nội dung dựa trên khả năng mở rộng của kết cấu, hình ảnh và video Không gian, thời gian và chất lượng khả năng mở rộng Lôi vững mạnh và khả năng phuc hồi trong môi trường dễ bị lôi

Như đã đê cập trước, MPEG-4 Video hô trợ hình ảnh thông thường hình chữ nhật và video cũng như hình ảnh và video của các hình dạng tùy ý. Khái niệm này được minh họa trong hình 45 dưới đây.

Hình 45 The VLBV Core and the Generic MPEG-4 Coder

Các mã hóa hình ảnh thông thường và video cũng tương tự như mã hóa thông thường MPEG-1 / 2. Nó liên quan đến chuyển động dự báo / bồi thường theo sau bởi kết cấu mã hóa. Đối với các chức năng dựa trên nội dung, nơi mà các đâu vào trình chiếu hình ảnh có thể có hình dạng bất kỳ và địa điểm, phương pháp này là kéo dài cũng có mã hóa hình dạng và tinh minh bạch thông tin. Hình dạng có thể là đại diện bởi một thành phân trong suốt 8 bit - cho phép các mô tả vê tinh minh bạch, nếu VÓ là một trong những sáng tác với các đối tượng khác - hoặc bởi một mặt nạ nhị phân.

Việc mở rộng MPEG-4 phương pháp tiếp cận dựa trên nội dung có thể được xem như là một phân mở rộng hợp lý của MPEG-4 thông thường VLBV Core hoặc tốc độ bit cao đối với các công cu đâu vào của hình dạng bất kỳ.

61

http://mpeg.chiariglione.org/standards/mpeg-4/mpeg-419.gif


4.1. Khả năng mở rộng mã hóa các đối tượng Video

MPEG-4 hô trợ việc mã hóa các hình ảnh và video với khả năng mở rộng không gian và thời, cả hai hình chữ nhật với thông thường cũng như với các hình dạng tùy ý. Khả năng mở rộng đê cập đến khả năng giải mã chỉ là một phân của một bitstream và tái tạo lại hình ảnh hoặc các chuôi hình ảnh với:

giảm độ phức tạp giải mã và do đó làm giảm chất lượng giảm độ phân giải không gian giảm độ phân giải thời với độ phân giải thời gian và không gian ngang nhau, nhưng với chất lượng

giảm.Chức năng này là mong muốn cho tiến bộ mã hóa hình ảnh và video gửi qua

mạng không đồng nhất, cũng như cho các ứng dung mà người nhận không có khả năng hiển thị độ phân giải đây đủ hoặc chất lượng hình ảnh đây đủ hoặc chuôi video. Điêu này chẳng hạn có thể xảy ra khi chế biến điện hoặc độ phân giải màn hình hiển thị có giới hạn.

Có một số phương án có thể mở rộng mã hóa trong MPEG-4 Visual: khả năng mở rộng không gian, khả năng mở rộng thời gian, khả năng mở rộng độ chi tiết tốt và đối tượng dựa trên khả năng mở rộng không gian.

4.2. Khả năng khắc phục lỗi mạnh mẽ.MPEG-4 cung cấp khả năng phuc hồi mạnh me lôi và cho phép truy cập hoặc

các thông tin hình ảnh video qua một loạt các phương tiện lưu trữ và truyên tải điện. Đặc biệt, do sự tăng trưởng nhanh chóng của truyên thông di động, nó là vô cùng quan trọng là truy cập có sẵn để thông tin âm thanh và video qua mạng không dây. Điêu này có nghĩa là cân thiết cho hoạt động hữu ich của các thuật toán nén âm thanh và video trong môi trường dễ bị lôi ở mức bit thấp (tức là it hơn 64 kbit / s). Các khả năng phuc hồi lôi công cu phát triển cho MPEG-4 có thể được chia thành ba khu vực chinh: resynchronization, phuc hồi dữ liệu, và che giấu lôi.

4.2.1. Resynchronization Công cu Resynchronization cố găng để kich hoạt resynchronization giữa các

bộ giải mã và bitstream sau khi một lôi còn sót lại hoặc lôi đã được phát hiện. Nói chung, các dữ liệu giữa các điểm đồng bộ hóa trước khi thông báo lôi và điểm đâu tiên mà đồng bộ hóa được tái lập, là bỏ đi.

Cách tiếp cận resynchronization được thông qua bởi MPEG-4, được gọi là một cách tiếp cận gói. Nhóm các khối sử dung bởi các tiêu chuân ITU-T H.261 và H.263. Trong các tiêu chuân này một gob được định nghĩa là một hoặc nhiêu hàng macroblocks (MBs). Vào lúc băt đâu của một gob mới, thông tin gọi là tiêu đê gob được đặt trong luồng bit này. Thông tin này có tiêu đê chứa mã băt đâu gob, đó là khác nhau từ một mã số băt đâu hình ảnh, và cho phép các bộ giải mã để xác định vị

62


tri này gob. Hơn nữa, tiêu đê gob chứa thông tin đó cho phép quá trình giải mã được khởi động lại (tức là, đồng bộ hoá lại các bộ giải mã cho các bitstream và đặt lại tất cả dữ liệu predictively mã hóa).

Các gói dữ liệu video tiếp cận được thông qua bởi MPEG-4 là dựa vào việc cung cấp dấu resynchronization định kỳ trong suốt bitstream này. Nói cách khác, độ dài của các gói dữ liệu video không dựa trên số lượng macroblocks, nhưng thay vào đó số bit có trong gói đó. Nếu số bit chứa trong các gói dữ liệu video hiện tại vượt quá một ngưỡng định trước, sau đó một gói tin video mới được tạo ra ở đâu của các macroblock tiếp theo.

Một điểm đánh dấu resynchronization được sử dung để phân biệt sự băt đâu của một gói tin video mới. điểm đánh dấu này là phân biệt được tất cả các từ mã VLC có thể cũng như các mã băt đâu VOP. Tiêu đê thông tin cũng được cung cấp vào lúc băt đâu của một gói tin video. Có trong tiêu đê này là các thông tin cân thiết để khởi động lại quá trình giải mã và bao gồm: số macroblock của macroblock đâu tiên có trong gói tin này và tham số lượng tử hóa cân thiết để giải mã mà macroblock đâu tiên. Số macroblock cung cấp các resynchronization cân thiết không gian trong khi các tham số lượng tử cho phép các quá trình phân giải mã được resynchronized.

Cũng bao gồm trong tiêu đê gói tin video là phân mở rộng tiêu đê mã. HEC là một chút rằng, khi kich hoạt, cho thấy sự hiện diện của resynchronization thông tin bổ sung, bao gồm cả cơ sở thời gian đun, VOP tăng thời gian, loại dự đoán VOP, và mã F VOP. Thông tin này bổ sung được làm sẵn có trong trường hợp tiêu đê VOP đã bị hỏng.

Cân lưu ý rằng khi sử dung các công cu khả năng phuc hồi lôi trong vòng MPEG-4, một số công cu hiệu quả nén được sửa đổi. Vi du, tất cả các thông tin predictively mã hóa phải được giới hạn trong một gói tin video để ngăn chặn sự lan truyên của các lôi.

Kết hợp với cách tiếp cận gói video để resynchronization, một phương pháp thứ hai gọi là cố định đồng bộ hóa khoảng cũng đã được thông qua bởi MPEG-4. Phương pháp này đòi hỏi VOP số băt đâu và đánh dấu resynchronization (tức là khởi đâu của một gói dữ liệu video) chỉ xuất hiện ở vị tri cố định khoảng pháp lý trong bitstream này. Điêu này giúp tránh các vấn đê liên quan băt đâu mô phỏng mã. Đó là, khi lôi được hiện diện trong một bitstream, có thể cho các lôi này để giả lập một mã băt đâu VOP. Trong trường hợp này, khi cố định khoảng cách đồng bộ hóa được sử dung bộ giải mã chỉ cân thiết để tìm kiếm một mã băt đâu VOP vào đâu môi khoảng cách cố định. Các phương pháp cố định đồng bộ mở rộng khoảng cách tiếp cận này là bất kỳ khoảng thời gian định trước.

4.2.2. Phục hồi dữ liệu Sau khi đồng bộ hóa đã được tái lập, công cu phuc hồi dữ liệu cố găng để khôi

phuc dữ liệu nói chung se bị mất. Những công cu này không chỉ đơn giản là các mã lôi sửa chữa, nhưng thay vì kỹ thuật mã hóa dữ liệu một cách kiên cường lôi. Vi du, một công cu đặc biệt đã được xác nhận bởi Tập đoàn Video là nghịch biến dài

63


Codes (RVLC). Trong phương pháp này, các từ mã có độ dài biến được thiết kế sao cho chúng có thể được đọc cả ở phia trước cũng như hướng ngược lại.

Nói chung, trong một tình huống như thế này, nơi một vu nổ của các lôi đã bị hỏng một phân của dữ liệu, tất cả các dữ liệu giữa các điểm đồng bộ hóa hai se bị mất. Tuy nhiên, như trong hình này, RVLC một cho phép một số trong đó dữ liệu được phuc hồi. Cân lưu ý rằng các thông số, QP và HEC thể hiện trong hình sự, đại diện cho các lĩnh vực dành riêng trong tiêu đê gói video cho tham số lượng tử hóa và mở rộng đâu mã, tương ứng.

4.2.3. Che giấu lỗi

Lôi che giấu là một thành phân cực kỳ quan trọng của lôi codec mạnh me bất kỳ video. Tương tự như các công cu khả năng phuc hồi lôi nói ở trên, hiệu quả của một chiến lược che giấu lôi phu thuộc nhiêu vào việc thực hiện các đê án resynchronization. Vê cơ bản, nếu phương pháp hiệu quả resynchronization có thể khoanh vùng các lôi thì vấn đê trở nên che giấu lôi dể làm hơn nhiêu. Đối với các ứng dung bitrate thấp, các ứng dung chậm trễ thấp resynchronization hiện Đê án cung cấp kết quả rất chấp nhận được với một chiến lược che giấu đơn giản, chẳng hạn như sao chép các khối từ các khung hình trước đó.

Trong công nhận sự cân thiết để cung cấp khả năng che giấu nâng cao, các đoàn Video đã phát triển một chế độ đàn hồi lôi bổ sung cải thiện hơn nữa khả năng của bộ giải mã các địa phương hóa một lôi.

Cu thể, phương pháp này sử dung dữ liệu phân vùng bằng cách tách biệt các chuyển động và kết cấu. Cách tiếp cận này yêu câu một dấu resynchronization thứ hai được chèn vào giữa chuyển động và thông tin kết cấu. Nếu thông tin bị mất kết cấu, phương pháp này sử dung các thông tin chuyển động để che giấu các lôi này. Đó là, do sự sai sót thông tin kết cấu được bỏ đi, trong khi chuyển động được sử dung để chuyển động bồi thường cho người được giải mã trước VOP.

4.2.4. Nhanh chóng phục hồi trong thời gian thực mã hóa Một kỹ thuật mới được phát triển trong MPEG, gọi là NEWPRED, cung cấp

một sự phuc hồi lôi nhanh trong thời gian thực các ứng dung mã hóa. Nó sử dung một kênh đâu nguồn từ bộ giải mã để mã hóa các. Bộ mã hóa Các thiết bị chuyển mạch khung tham chiếu adaptively theo các điêu kiện lôi của mạng. NEWPRED không sử dung làm mới trong nội bộ và nó cung cấp hiệu quả mã hóa cao. Kỹ thuật này đã được chứng minh để làm việc trong điêu kiện lôi căng thẳng:

Burst lôi trên các mạng không dây (trung bình tỷ lệ lôi bit là 10e-3, 1ms burst chiêu dài).

Packet Loss trên internet (tỷ lệ mất gói là 5%)

64


4.3. Cải thiện sự ổn định với độ phân giải thời gian trễ thấp Một kỹ thuật đặc biệt sử dung trong các tình huống mã hóa thời gian thực hiện chuyển đổi độ phân giải động (DRC), một cách để ổn định t ông truyên tải chậm đệm bằng cách giảm thiểu các jitter của số lượng các bit đâu ra được mã hóa trên môi VOP. bỏ qua khung hình lớn cũng được ngăn chặn và các bộ mã hóa có thể điêu khiển độ phân giải thời ngay cả trong những cảnh đánh giá cao hoạt động. kỹ thuật này đòi hỏi thông tin backchannel được gửi đến các bộ mã hóa, điêu này giải thich tại sao nó chỉ hữu dung trong các tình huống thời gian thực.

Các MPEG-4 hình ảnh và video mã hóa các thuật toán cho một đại diện hiệu quả của các đối tượng trực quan của hình dạng bất kỳ, cũng hô trợ cái được gọi là chức năng dựa trên nội dung. Họ hô trợ hâu hết các chức năng đã được cung cấp bởi MPEG-1 và MPEG-2, bao gồm nén hiệu quả của các chuôi hình ảnh chuân hình chữ nhật có kich thước ở cấp độ khác nhau của các định dạng đâu vào, tỷ lệ khung hình, độ sâu pixel, tỷ lệ bit, và mức độ khác nhau của không gian, thời gian và chất lượng khả năng mở rộng.

Một phân loại cơ bản của các tỷ lệ bit và chức năng hiện đang được cung cấp bởi các tiêu chuân MPEG-4 Visual cho hình ảnh tự nhiên và video được mô tả trong hình 46 bên dưới, mà các cum tốc độ bit mức so với các bộ chức năng.

Hình 46 Phân loại các hình ảnh MPEG-4 và Video Coding thuật toán và công cụ

Ở cuối một "VLBV Core" (VLBV: Rất thấp tỷ lệ Bit-Video) cung cấp các thuật toán và các công cu cho các ứng dung hoạt động ở mức bit-thường từ 5 ... 64 kbits / s, hô trợ các trình tự không gian hình ảnh với độ phân giải thấp (thường là lên đến độ phân giải CIF) và tỷ lệ khung hình thấp (thường lên đến 15 Hz). Các ứng dung cơ bản các chức năng cu thể được hô trợ bởi Core VLBV bao gồm:

Mã hóa các trình tự thông thường hình chữ nhật kich thước hình ảnh với hiệu quả cao và mã hóa mạnh me lôi cao khả năng phuc hồi /, độ trễ thấp và phức tạp thấp cho thời gian thực các ứng dung đa phương tiện truyên thông.

65


"Truy cập ngẫu nhiên" và "chuyển tiếp" và "nhanh chóng đảo ngược" hoạt động cho VLB, cơ sở lưu trữ dữ liệu đa phương tiện và các ứng dung truy cập.

Các chức năng cơ bản giống nhau nêu trên cũng được hô trợ ở mức bit cao hơn với tâm cao hơn của các thông số đâu vào không gian và thời lên đến ITU-R Rec. 601 nghị quyết và lớn hơn - sử dung các thuật toán giống nhau hoặc tương tự và các công cu như là Core VLBV. Các bit tỷ lệ hình dung phạm vi thông thường từ 64 kbits / s lên tới 10 Mb / s và các ứng dung hình dung bao gồm đa phương tiện phát sóng, thu hồi tương tác của các tin hiệu với một chất lượng tương đương với truyên hình kỹ thuật số. Đối với các ứng dung này tại bit cao hơn tỷ giá, còn xen ke có thể được đại diện bởi MPEG-4 công cu mã hóa.

Nội dung dựa trên các chức năng hô trợ việc mã hóa riêng biệt và giải mã nội dung (tức là các đối tượng vật lý trong một cảnh, VOS). Đây MPEG-4 tinh năng cung cấp cơ chế cơ bản nhất cho tương tác, linh hoạt, đại diện và thao tác với / của Võ nội dung của hình ảnh hoặc video trong lĩnh vực nén, mà không cân phân khúc thêm hoặc chuyển mã ở người nhận.

Đối với hybrid mã hóa của tự nhiên cũng như dữ liệu hình ảnh tổng hợp (vi du cho sự hiện diện ảo hoặc môi trường ảo) là mã hóa nội dung dựa trên chức năng cho phép pha trộn một số Võ từ các nguồn khác nhau với các đối tượng tổng hợp, chẳng hạn như là một nên ảo.

Việc mở rộng MPEG-4 thuật toán và các công cu cho các chức năng dựa trên nội dung có thể được xem như là một tập cha của lõi VLBV và tốc độ bit công cu cao - có nghĩa là những công cu được cung cấp bởi các VLBV và cao hơn lõi bitrate được bổ sung bởi các yếu tố bổ sung.

4.4. Thuật toán nén của MPEG 4

Hình 47 Sơ đồ khối cơ bản của MPEG-4 Video coder

66


Cấu trúc mã hóa cơ bản liên quan đến hình dạng mã hóa bồi thường chuyển động (cho tự ý VOS hình) và cũng như kết cấu dựa trên mã DCT (sử dung tiêu chuân 8x8 DCT hoặc hình dạng thich ứng DCT).

Một lợi thế quan trọng của phương pháp mã hóa nội dung dựa trên MPEG-4 là hiệu suất nén có thể được cải thiện đáng kể đối với một số trình tự video bằng cách sử dung thich hợp và dành riêng cho đối tượng chuyển động dựa trên dự báo "công cu" cho từng đối tượng trong một cảnh. Một số kỹ thuật dự đoán chuyển động có thể được sử dung để mã hóa cho phép trình bày hiệu quả và linh hoạt của các đối tượng:

Tiêu chuân 8x8 hoặc 16x16 pixel dựa trên khối chuyển động và dự toán bồi thường, với độ chinh xác lên đến ¼ PE.

Chuyển động toàn câu bồi thường (GMC) cho các đối tượng video: mã hóa của chuyển động toàn câu cho một đối tượng sử dung một số lượng nhỏ các thông số. GMC được dựa trên ước lượng chuyển động toàn câu, cong hình ảnh, quỹ đạo chuyển động mã hóa, và kết cấu mã hóa cho các lôi dự báo.

Toàn câu bồi thường dựa trên chuyển động cho các tĩnh "sprites". Một nhân vật tĩnh là một hình ảnh vẫn còn có thể lớn, mô tả toàn cảnh nên. Đối với môi hình ảnh liên tiếp trong một chuôi, chỉ có 8 thông số chuyển động trên toàn câu mô tả chuyển động của máy ảnh được mã hoá để tái tạo lại các đối tượng. Những thông số này đại diện cho chuyển đổi thich hợp afin của các nhân vật truyên trong khung đâu tiên.

Quý PEL Motion tăng cường độ chinh xác của đê án đên bù chuyển động, với chi phi chỉ có cú pháp và tinh toán chi phi nhỏ. Một mô tả chuyển động chinh xác dẫn đến một lôi nhỏ hơn và dự báo, do đó, để chất lượng hình ảnh tốt hơn.

Hình dạng, thich ứng DCT: Trong lĩnh vực kết cấu mã hóa, các hình dạng, thich ứng DCT (SA-DCT) cải thiện hiệu suất mã hóa của các đối tượng hình tùy ý. Các thuật toán SA-DCT dựa trên định nghĩa trước bộ cơ sở trực giao của các chức năng một chiêu DCT.

Video theo chuôi bằng cách sử dung một hình ảnh toàn cảnh nhân vật. Người ta cho rằng các đối tượng nên trước (quân vợt, hình ảnh trên cùng bên phải) có thể được phân đoạn từ nên và hình ảnh toàn cảnh nhân vật có thể được chiết xuất từ tự trước khi mã hóa. (Một bức tranh toàn cảnh nhân vật là một hình ảnh vẫn còn mô tả như là một hình ảnh tĩnh nội dung của nên trên tất cả các khung hình theo thứ tự). Các bức tranh toàn cảnh lớn hình ảnh nhân vật được chuyển đến người nhận chỉ một lân như khung đâu tiên của dãy số để mô tả nên - nhân vật này vẫn còn được lưu trữ trong một bộ đệm ma. Trong môi khung hình liên tuc chỉ có các thông số máy ảnh có liên quan cho nên được chuyển đến người nhận. Điêu này cho phép người nhận để tái tạo lại hình ảnh nên cho môi khung hình trong trình tự dựa vào Sprite. Các đối tượng nên trước di chuyển được truyên đi một cách riêng biệt như là một đối tượng video tùy ý, hình dạng. Người nhận soạn cả những hình ảnh nên trước và nên tảng để xây dựng lại một khung hình (dưới hình ảnh trong hình dưới đây). Đối với các

67


ứng dung chậm trễ thấp có thể truyên tải các nhân vật trong nhiêu phân nhỏ hơn khung hình liên tiếp hoặc xây dựng các nhân vật trong bộ giải mã dân dân.

Hình 48 Ví dụ về Sprite mã của chuỗi Video

Mã của Texture và hình ảnh tĩnh:Coding hiệu quả của kết cấu hình ảnh và hình ảnh tĩnh (vi du như để được ánh

xạ vào măt lưới hoạt hình) được hô trợ theo phương thức kết cấu hình ảnh của MPEG4. Hình thức này được dựa trên một thuật toán wavelet zerotree cung cấp rất cao hiệu quả mã hóa trong một phạm vi rất rộng các bitrate. Cùng với hiệu suất nén cao, nó cũng cung cấp scalabilities không gian và chất lượng (lên đến 11 cấp độ của khả năng mở rộng không gian và khả năng mở rộng chất lượng liên tuc) và đối tượng cũng tùy hình mã hóa. Việc xây dựng cung cấp cho bitstream wavelet có thể mở rộng mã hóa trong các hình thức phân giải hình ảnh của một kim tự tháp để truyên tiến bộ và nâng cao thời gian của hình ảnh tĩnh. Các luồng bit mã hóa cũng dành cho tải của hệ thống phân cấp độ phân giải hình ảnh vào thiết bị đâu cuối được định dạng là "kết cấu MIPmap 'như được sử dung trong các hệ thống dựng hình 3-D. Công nghệ này cung cấp khả năng mở rộng độ phân giải để đối phó với một loạt các điêu kiện xem chi tiết điển hình của các ứng dung tương tác và lập bản đồ hình ảnh vào 2-D và 3-D thế giới ảo.

Wavelet ốp lát cho phép hình ảnh được chia thành một số gạch ngói từng được mã hóa độc lập. Điêu này có nghĩa là hình ảnh lớn được mã hóa / giải mã với yêu câu bộ nhớ rất thấp, và truy cập ngẫu nhiên tại giải mã được tăng cường đáng kể.

Khả năng mở rộng hình dạng mã hóa cho phép mã hóa của kết cấu hình tùy ý và vẫn còn hình ảnh trong một thời trang có thể mở rộng. Sử dung công cu này, một

68


bộ giải mã có thể giải mã một hình ảnh bất kỳ hình ở bất kỳ độ phân giải mong muốn. Công cu này cho phép các ứng dung để sử dung scalabilities đối tượng dựa trên, không gian và chất lượng cùng một lúc.

Để giải mã vẫn còn hình ảnh, MPEG-4 tiêu chuân cung cấp khả năng mở rộng không gian với lên đến 11 mức độ chi tiết và cũng có khả năng mở rộng chất lượng đến mức bit.

Tổng hợp các đối tượng hình thành một tập hợp con của lớp lớn hơn của đồ họa máy tinh. MPEG-4 hô trợ các hình ảnh các đối tượng sau đây tổng hợp:

Tham số mô tả o Một tổng hợp các mặt và cơ thể (cơ thể hoạt hình trong phiên bản 2) o Tĩnh và động Mesh mã với bản đồ kết cấu

Kết cấu mã hóa cho các ứng dung phu thuộc.

5. So sánh MPEG 4 với MPEG 2

MPEG2 và MPEG4 là hai phiên bản được sử dung để nén dữ liệu âm thanh và video tập tin, bởi vậy việc truyên tải và sử dung của chúng là đơn giản. Những kỹ thuật mã hóa, những cái là một tập hợp các chương trình nén dữ liệu được cấp bằng sáng chế, nhằm muc đich chuyển đổi dữ liệu âm thanh/hình ảnh, do đó thời gian truyên dữ liệu giảm và nó nằm trong khả năng lưu trữ và xửu lý của các phương tiện truyên thông. Trong khi nén, cân quan tâm đến việc rằng chất lượng âm thanh và video không bị mất mát. Chúng ta băt đâu so sánh của giữa hai định dạng mã hóa.

MPEG2 vs MPEG4 - Chất lượng

MPEG-2 là chuân kinh doanh và các đoạn video mà bạn xem trên DVD và truyên hình kỹ thuật số được mã hóa bởi chuân MPEG-2. Chất lượng MPEG-2 là hoàn hảo, nhưng định dạng này không phải dành cho các ứng dung đa phương tiện mạng. Nó không được làm cho streaming video trên điện thoại hoặc cho các ứng dung broadcast. Vì vậy, chất lượng của một video nén ở định dạng MPEG-2, nếu xem trực tuyến, se bị ảnh hưởng.

Mặt khác, các định dạng MPEG-4 đã được phát triển cho các ứng dung đa phương tiện trực tuyến trên Internet. Vì vậy, một đoạn video được mã hóa theo định dạng MPEG-4 se cung cấp chất lượng hình ảnh và âm thanh tốt hơn hơn khi được xem trực tuyến, bởi nó được thiết kế cho các ứng dung mạng hoặc đa phương tiện. Với định dạng MPEG-4, chúng ta có thể sử dung video conferencing.

MPEG2 vs MPEG4 - Kích thước tập tin

So sánh file MPEG-2, file MPEG-4 chiếm bộ nhớ it hơn. Điêu này là do thuật toán nén MPEG-4 được thiết kế để tạo các file mà có thể được vận chuyển qua Internet, và xem trực tiếp trên các nên tảng mạng khác nhau.

69


MPEG2 vs MPEG4 – nén

Nén hình ảnh hay âm thanh là tất cả các biện pháp nhằm duy trì cùng một chất lượng âm thanh hoặc video, nhưng sử dung kich thước bộ nhớ thấp hơn. MPEG-4 nén là một sự cải tiến so với định dạng MPEG-2.

Nếu một file âm thanh hoặc dữ liệu tại phòng thu của một bộ phim được phát hành mà không nén, nó se mất it nhất 20 DVD! Trong khi đó, nếu nó sử dung định dạng MPEG, Cùng bộ phim đó có thể được chứa trên một đĩa DVD duy nhất! Làm thế nào để định dạng MPEG-2 đạt được điêu này? Nó đạt được điêu này bằng cách loại bỏ một số phân dư thừa từ một khung được lặp lại trong những cái sau này. Đó là, các bộ phận của khung hình mà vẫn tĩnh được lưu trữ chỉ một lân! Chỉ có những sự khác biệt giữa các khung hình kế tiếp nhau se được lưu trữ sau đó. Bit rate cũng kiểm soát phù hợp. Có nhiêu thủ thuật khác cũng tham gia làm giảm kich thước của tập tin trong khi mã hóa. Bằng cách này các file hình ảnh được mã hóa theo định dạng MPEG-2 và kich thước của các tập tin video được giảm thiểu đáng kể. Vì vậy, khi bạn chạy một file đã được mã hóa, thiết bị chạy video của bạn phải có bộ giải mã MPEG-2 để trả lại các khung hình gốc từ các dạng nén.

Nén MPEG-4 là khá phức tạp so với nén MPEG-2 khi nó được thiết kế để đạt được các video chất lượng cao cho các ứng dung đa phương tiện với bit rate tương đối thấp. Để đơn giản, nén MPEG-4 loại bỏ các bit dư thừa bằng cách so sánh nhiêu khung hình hơn so với MPEG-2 tại một thời điểm bằng cách điêu chỉnh bit rate cho phù hợp. So MPEG-2, MPEG-4 là một định dạng mã hóa linh hoạt hơn rất nhiêu.

MPEG2 vs MPEG4 – Bitrate

Các file được mã hóa bằng định dang MPEG-2 có một khoảng bit rate từ 4 đến 9 MB/s, trong khi các file MPEG-4 có bit rate thấp hơn đáng kể (một vài kb/s). Điêu này là do định dạng này được thiết kế cho các ứng dung mạng.MPEG2 vs MPEG4 - Băng thôngNếu bạn so sánh băng thông MPEG-2 với MPEG-4, bạn se tìm thấy một sự khác biệt đáng kể khi chúng được thiết kế định dạng cho các nên tảng khác nhau.Trong khi MPEG-2 có băng thông lên đến 40 MB/s, MPEG-4 có băng thông khoảng 64 kbps.

70


Chúng ta có thể tham khảo thêm bảng dưới đây.

Mpeg 2 MPEG 4 Ứng dung Sử dung để lưu trữ DVD,truyên hình

số vệ tinh, truyên hình số mặt đất Sử dung cho các ứng dung mobile device, video conferencing, internet streaming

Dự đoán trong một một frame

Mã hóa MB, DC predictor Sử dung trong các không gian 4x4, 16x16

Độ chinh xác của vector chuyển động

1 pixel và ½ pixel 1pixel, 1/2pixel và ¼ pixel

P Frame Tham chiếu đơn Tham chiếu đơn và đa tham chiếu

B frame Một tham chiếu cho môi đường 1 tham chiếuĐa tham chiếu

Lọc trong vòng lặp

Không hô trợ De-blocking

DCT 8x8 DCT 4x4 Interger DCT8x8 Integer DCT

Chế độ dự đoán

Dự đoán trong ảnh ảnh(16x16,16x8) Dự đoán liên ảnh (16x16,8x16,16x8,8x8, 4x4)

Kết luận

Cả hai định dạng đang được sử dung ngày nay cho các ứng dung khác nhau. MPEG-2 vẫn được sử dung trong mã hóa DVD và TV broadcast, trong khi các nên tảng Internet và videophone thuộc vê các định dạng MPEG-4.

71


IV. H264

1. Tổng quan về H264

Chuân nén video mới nhất H264, còn được biết với tên gọi MPEG-4 Part 10/AVC (Advanced Video Coding- Mã hóa video nâng cao). H264 được mong đợi se trở thành chuân nén video được sử dung rộng rãi nhất trong thời gian săp tới.

H264 là một chuân mở hô trợ hâu hết các công nghệ nén video hiện nay. Mã hóa H264 có thể giảm kich cỡ của một file video tới 80% so với chuân MPEG và 50% so với chuân MPEG 4 Part 2 mà vẫn giữ lại được chất lượng của hình ảnh. Do đó, sử dung H264 giúp giảm thiểu băng thông truyên tải trong mạng máy tinh và giúp không còn tốn quá nhiêu dung lượng để lưu trữ các file video. Nhìn theo một cách khác, với một số bit rate thấp nhưng chúng ta vẫn có thể có được chất lượng video tốt.

Được đưa ra bởi các tổ chức tiêu chuân quốc tế trong lĩnh vực thông tin truyên thông và công nghệ thông tin, H264 được mong đợi là se được sử dung rộng rãi hơn các chuân nén video trước đó. Một số các thiết bị điện tử gân đây như điện thoại di động, đâu đọc video kĩ thuật số, camera đã có khả năng nén và đọc H264 và đã nhanh chóng được người sử dung ủng hộ. Các nhà cung cấp dịch vu như lưu trữ video trực tuyến và các công ty truyên thông đang băt đâu sử dung H264.

Trong ngành công nghiệp video dân dung, H264 đã nhanh chóng tìm được chô đứng trong các khu vực mà ở đó yêu câu video với độ phân giải lớn và frame rate cao như đường cao tốc, sân bay hay các sòng bạc, nơi mà video phải đạt 30/25 khung hình trên giây. Đó là những nơi mà việc giảm lưu lượng mạng và dung lượng lưu trữ mang lại sự giảm thiểu chi phi rất lớn. H264 được dự đoán cũng se nhanh chóng được sử dung rộng rãi trong các camera kĩ thuật số với lợi thế mang lại từ công nghệ nén video chất lượng cao giúp giảm kich cỡ và bit rate của các video số mà vẫn giữ lại được chất lượng hình ảnh. Tuy vậy, để đổi lại cho những lợi ich mà H264 mang lại, se phải đâu tư một hệ thống network camera hiện đại và một hệ thống xử lý mạnh hơn.

2. Sự phát triển của H264

H264 là kết quả của một dự án hợp tác giữa tổ chức ITU-T’s Video Coding Experts Group và ISO/IEC Moving Picture Experts Group (MPEG). ITU-T là một bộ phận của Liên minh viễn thông quốc tế ITU có chức năng đưa ra các chuân viễn thông. Còn ISO và IEC là 2 tổ chức quốc tế đưa ra các tiêu chuân cho tất cả lĩnh vực điện, điện tử và các ngành công nghệ liên quan. H264 là tên gọi do ITU-T đặt, trong khi ISO/IEC gọi nó là MPEG-4 Part 10/AVC bởi vì nó được giới thiệu như là một

72


phân của bộ chuân MPEG-4. Bộ chuân MPEG-4 được sử dung trong các bộ mã hóa video chạy trên nên IP và các network camera.

Được thiết kế nhằm giải quyết các yếu điểm trong các chuân nén video trước đây, H264 được đặt ra với các muc tiêu sau:

Giảm được số bit rates trung bình tới 50% và vẫn đưa ra được một chất lượng video cố định so sánh với bất kì chuân video nào khác.

Giảm thiểu lôi khi truyên video qua nhiêu mạng khác nhau. Mang lại khả năng truyên video với độ trễ thấp (phù hợp trong video

conferencing), độ trễ cao hơn đi kèm với chất lượng tốt hơn. Cấu trúc rõ ràng giúp đơn giản hóa quá trình hoạt động. Có quá trình giải mã toán chinh xác, đưa ra chinh xác cân bao nhiêu phép tinh

số học cân được bộ mã hóa và bộ giải mã thực hiện, do đó tránh được lôi trong quá trình tich lũy.

H264 còn có thể linh hoạt hô trợ một số lượng lớn các ứng dung với nhiêu yêu câu bit rate khác nhau. Vi du như trong các ứng dung video giải tri bao gồm truyên hình cáp, vệ tinh và DVD, H264 có thể truyên video có bit rate từ 1-10 Mbit/s với độ trễ cao, trong khi đó với các dịch vu viễn thông, H264 có thể truyên với bit rate dưới 1 Mbit/s với độ trễ thấp.

3. Sơ đồ mã hóa khối của H264

73


Hình 49 Sơ đồ mã hóa khối của H264

Hình 50 Sơ đồ mã hóa H264

74


Hình 51 Sơ đồ giải mã H264

4. Các phương pháp nén của H264

Với chuân nén H264, môi hình ảnh được phân chia thành nhiêu Block, môi block tương ứng với một số lượng nhất định các MacroBlock. Vi du một hình ảnh có độ phân giải QCIF (tương đương với số lượng điểm ảnh 176x144) se được chia thành 99 MacroBlock với kich cỡ 16x16. Một sự phân đoạn các MacroBlock tương tự được sử dung các kich cỡ ảnh khác. Thành phân chói của ảnh được lấy mẫu tương ứng với độ phân giải của ảnh đó, trong khi đó thành phân màu CR và CB được lấy mẫu với tân số thấp hơn theo 2 chiêu ngang và dọc. Thêm vào đó môi hình ảnh có thể được phân thành số nguyên lân các lát mỏng (slice), việc này rất có giá trị cho việc tái đồng bộ trong trường hợp lôi dữ liệu.

Môi hình ảnh thu được được xem như một ảnh I. Ảnh I là ảnh được mã hoá bởi việc áp dung trực tiếp các phép biến đổi lên các MacroBlock khác nhau trong ảnh. Các ảnh I được mã hoá se có kich cỡ lớn bởi nó được xây dựng từ một khối lượng lớn thông tin của bản thân ảnh hiện tại mà không sử dung bất cứ thông tin nào từ miên thời gian trong quá trình xử lý mã hoá để tăng hiệu quả xử lý mã hoá bên trong trong H264.

4.1. Giảm bớt độ dư thừa

Cũng giống như các bộ lập giải mã khác, H264 nén video bằng cách giảm bớt độ dư thừa cả vê không gian và thời gian trong hình ảnh. Những dư thừa vê mặt thời gian là những hình ảnh giống nhau lặp đi lặp lại từ khung (frame) này sang khung khác, vi du như phân phông nên không chuyển động của một chương trình đối thoại

75


trên truyên hình. Dư thừa vê không gian là những chi tiết giống nhau xuất hiện trong cùng một khung, vi du như nhiêu điểm ảnh giống nhau tạo thành một bâu trời xanh.

Ngoài ra H264 còn có khả năng so sánh nhiêu khung hình ảnh với nhau để có thể giảm bớt độ dư thừa tốt nhất, kĩ thuật này còn được gọi là Multiple Reference Frames.

Hình 52 Multiple Reference Frames

4.2. Chọn chế độ, phân chia và chế ngự

Bộ lập giải mã băt đâu bằng việc quyết định loại khung cân nén tại một thời điểm nhất định và chọn chế độ mã hoá phù hợp. Chế độ "trong khối" tạo ra ảnh "I", trong khi chế độ "giữa khối" tạo ra khung "P" hoặc "B". Sau đó, bộ mã hoá se chia ảnh thành hàng trăm hàng và cột các điểm ảnh của ảnh video số chưa nén thành các khối nhỏ hơn, môi khối có chứa một vài hàng và cột điểm ảnh.

H264 có 4 profiles ứng với các chế độ mã hóa khung hình khác nhau, dẫn tới muc đich sử dung khác nhau: Baseline, Main, Extended và High

76


Hình 53 Profiles của H264

Như chúng ta thấy qua hình trên, ứng với môi profiles H264 lại cho ra hình ảnh phù hợp với các muc đich sử dung khác nhau như: hội nghị truyên hình, gọi điện thoại hình, lưu trữ hay dùng trong cái studio, …

4.3. Nén theo miền thời gian

Khi bộ mã hoá đang hoạt động ở chế độ "giữa khối" (inter), khối này se phải qua công đoạn hiệu chỉnh chuyển động. Quá trình này se phát hiện ra bất kỳ chuyển động nào diễn ra giữa khối đó và một khối tương ứng ở một hoặc hơn một ảnh tham chiếu đã được lưu trữ từ trước, sau đó tạo ra một khối "chênh lệch" hoặc "lôi". Thao tác này se giảm bớt dữ liệu trong môi block một cách hiệu quả do chỉ phải trình bày chuyển động của nó mà thôi. Tiếp đến là công đoạn biến đổi côsin rời rạc (DCT) để băt đâu nén theo miên không gian. Khi bộ mã hoá hoạt động ở chế độ "trong khối" (intra), khối này se bỏ qua công đoạn hiệu chỉnh chuyển động và tới thẳng công đoạn DCT.

77


Hình 54 Sơ đồ khối mã hoá MPEG, đường đứt nét đặc trưng cho phần bổ sung của H264

trong việc nén theo miền không gian.

4.4. Nén theo miền không gian

Các khối thường có chứa các điểm ảnh tương tự hoặc thậm chi giống hệt nhau. Trong nhiêu trường hợp, các điểm ảnh thường không thay đổi mấy (nếu có). Như vậy có nghĩa là tân số thay đổi giá trị điểm ảnh trong khối này là rất thấp. Những khối như thế được gọi là khối có tân số không gian thấp. Bộ lập mã lợi dung đặc điểm này bằng cách chuyển đổi các giá trị điểm ảnh của khối thành các thông tin tân số trong công đoạn biến đổi côsin rời rạc.

Biến đổi cosin rời rạc:

Công đoạn DCT biến đổi các giá trị điểm ảnh của khối thành một ma trận gồm

các hệ số tân số ngang, dọc đặt trong không gian tân số. Khi khối ban đâu có tân số không gian thấp, DCT se tập hợp phân lớn năng lượng tân số vào góc tân số thấp của mạng. Nhờ vậy, những hệ số tân số thấp ở góc đó se có giá trị cao hơn.

Một số lượng lớn các hệ số khác còn lại trên ma trận đêu là các hệ số có tân số

cao, năng lượng thấp và có giá trị thấp. Hệ số DC và một vài hệ số tân số thấp se hàm chứa phân lớn thông tin được mô tả trong khối ban đâu. Điêu này có nghĩa là bộ lập mã có thể loại bỏ phân lớn hệ số tân số cao còn lại mà không làm giảm đáng kể chất lượng hình ảnh của khối.

Bộ lập mã chuân bị các hệ số cho công đoạn này bằng cách quét chéo mạng

lưới theo đường zig-zag, băt đâu từ hệ số DC và qua vị tri của các hệ số ngang dọc tăng dân. Do vậy nó tạo ra được một chuôi hệ số được săp xếp theo tân số.

Lượng tử hoá và mã hoá entropy:

78


Tại đây thao tác nén không gian mới thực sự diễn ra. Dựa trên một hệ số tỷ lệ (có thể điêu chỉnh bởi bộ mã hoá), bộ lượng tử hoá se cân đối tất cả các giá trị hệ số. Do phân lớn hệ số đi ra từ DCT đêu mang năng lượng cao nhưng giá trị thấp nên bộ lượng tử hoá se làm tròn chúng thành 0. Kết quả là một chuôi các giá trị hệ số đã được lượng tử hoá băt đâu bằng một số giá trị cao ở đâu chuôi, theo sau là một hàng dài các hệ số đã được lượng tử hoá vê 0. Bộ lập mã entropy có thể theo dõi số lượng các giá trị 0 liên tiếp trong một chuôi mà không cân mã hoá chúng, nhờ vậy giảm bớt được khối lượng dữ liệu trong môi chuôi.

5. Các ưu điểm nổi bật của chuân nén H264

Chúng ta hãy xét các ưu điểm nổi bật của chuân H264 để thấy được sự ưu việt của chuân nén mới này.

5.1. Ưu điểm của nén không gianChuân nén H264có hai cải tiến mới trong lĩnh vực nén không gian. Trước hết,

bộ lập mã này có thể tiến hành nén không gian tại các macroblock 16x16 điểm ảnh thay vì các block 8x8 như trước đây. Điêu này giúp tăng cường đáng kể khả năng nén không gian đối với các hình ảnh có chứa nhiêu khoảng lớn các điểm ảnh giống nhau.

Thứ hai là thao tác nén được tiến hành trong miên không gian trước khi công đoạn DCT diễn ra. Chuân nén H264so sánh macroblock hiện thời với các macroblock kế bên trong cùng một khung, tinh toán độ chênh lệch, và sau đó se chỉ gửi đoạn chênh lệch tới DCT. Hoặc là nó có thể chia nhỏ macroblock 16x16 điểm ảnh thành các khối 4x4 nhỏ hơn và so sánh từng khối này với các khối kế bên trong cùng một macroblock. Điêu này giúp cải thiện khả năng nén ảnh chi tiết.

5.2. Ưu điểm của nén thời gian

Điểm cải tiến lớn nhất ở H264là chế độ mã hoá giữa. Những phương pháp tiên tiến ở chế độ này khiến cho nén thời gian đạt đến một cấp độ cao hơn nhiêu, cùng với chất lượng chuyển động tốt hơn so với các chuân MPEG trước đây.

5.3. Kich cỡ khối

Ở chế độ giữa khối, MPEG-2 chỉ hô trợ các macroblock 16x16 điểm ảnh, không đủ độ phân giải để mã hoá chinh xác các chuyển động phức tạp hoặc phi tuyến tinh, vi du như phóng to thu nhỏ. Ngược lại, H264lại tăng cường hiệu chỉnh chuyển động bằng cách cho phép bộ lập mã biến đổi kich cỡ thành phân chói của môi macroblock. (Bộ lập mã sử dung thành phân chói như vậy là do măt người nhạy cảm với chuyển động chói hơn nhiêu so với chuyển động màu.) Như có thể thấy

79


trong Hình 2, H264có thể chia thành phân chói của từng macroblock thành 4 cỡ: 16x16, 16x8, 8x16 hoặc 8x8. Khi sử dung khối 8x8, nó còn có thể chia tiếp 4 khối 8x8 này thành 4 cỡ nữa là 8x8, 8x4, 4x8 hoặc 4x4.

Hình 55 H264 có thể phân chia thành phần chói của từng MacroBlock

theo nhiều cách để tối ưu hoá việc bù chuyển động

Việc phân chia các macroblock cho phép bộ lập mã xử lý được một vài loại chuyển động tuỳ theo độ phức tạp của chuyển động đó cũng như nguồn lực vê tốc độ bit. Nhìn chung, kich cỡ phân chia lớn phù hợp với việc xử lý chuyển động tại các khu vực giống nhau trong ảnh, trong khi đó kich cỡ phân chia nhỏ lại rất có ich khi xử lý chuyển động tại các chô có nhiêu chi tiết hơn. Kết quả là chất lượng hình ảnh cao hơn, it bị vỡ khối hơn.

Các cuộc thử nghiệm đã chỉ ra rằng việc săp xếp hợp lý các khung có thể tăng tỷ lệ nén thêm 15%. H264lấy phân chói của ảnh gốc và sử dung các macroblock đã được chia nhỏ tại các khu vực có nhiêu chi tiết nhằm tăng cường khả năng hiệu chỉnh chuyển động.

Độ chính xác trong hiệu chỉnh chuyển động:Trong đa số trường hợp, chuyển động tại rìa môi macroblock hay khối thường

diễn ra với độ phân giải nhỏ hơn một điểm ảnh. Do vậy, chuân nén H264có thể đảm bảo độ chinh xác trong hiệu chỉnh chuyển động lên tới 1/4 hoặc 1/8 điểm ảnh, trong khi các chuân MPEG trước đây chỉ dừng lại ở mức 1/2 điểm ảnh. Khả năng đạt mức chinh xác 1/8 ảnh điểm của H264giúp tăng hiệu suất mã hoá tại tốc độ bit cao và độ phân giải video cao. Các thử nghiệm cho thấy độ chinh xác đến 1/4 điểm ảnh có thể làm giảm tốc độ bit xuống hơn 15% so với độ chinh xác 1 điểm ảnh. Chọn nhiều hình tham chiếu:

Chuân nén MPEG-2 chỉ dựa trên 2 khung tham chiếu để dự đoán các chuyển động mang tinh chu kỳ, giống như trong trò kéo quân. Tuy nhiên, khi camera thay đổi góc quay hay chuyển qua chuyển lại giữa các cảnh, việc chỉ sử dung 2 khung tham chiếu không còn phù hợp để dự đoán chinh xác chuyển động. Tương tự như vậy, để đoán trước các chuyển động phức tạp như sóng biển hay một vu nổ, ta cân phải có nhiêu hơn 2 khung tham chiếu. Vì thế, chuân H264cho phép có tới 5 khung tham chiếu phuc vu cho việc mã hoá giữa khung. Kết quả là chất lượng video tốt hơn và hiệu suất nén cao hơn.

80


Giải khối tích hợp:Video số sau khi nén thường tạo ra một hiệu ứng gọi là "kết khối", có thể thấy

rõ tại điểm giao nhau giữa các khối, đặc biệt là khi có tốc độ bit thấp. Hiệu ứng này là do công đoạn xử lý sử dung nhiêu loại chuyển động và bộ lượng tử khác nhau. Đối với MPEG-2, cách duy nhất để ngăn chặn hiệu ứng này là sử dung các cơ chế hậu xử lý phù hợp, tuy nhiên các cơ chế này lại không tương thich được với tất cả các máy thu. Chuân nén H264đưa vào sử dung một bộ lọc giải khối hoạt động ở hai cấp độ: macroblock 16x16 và khối 4x4. Việc giải khối thường tạo ra một tỉ số tin hiệu trên nhiễu (PSNR) cực điểm thấp hơn, tuy nhiên nhìn một cách chủ quan thì nó tạo ra hình ảnh chất lượng tốt hơn.

5.4. Ưu điểm vê lượng tử hoá và biến đổi

Chấm di động 8x8 DCT cùng với dung sai của lôi làm tròn chinh là phân cốt lõi của các chuân MPEG trước đây. H264độc đáo hơn ở chô nó sử dung biến đổi không gian nguyên (gân giống như DCT) đối với các khối 4x4 điểm ảnh. Kich cỡ nhỏ giúp giảm bớt hiện tượng "kết khối", trong khi thông số nguyên tuyệt đối giúp loại bỏ nguy cơ không thich ứng giữa bộ lập mã và giải mã trong phép biến đổi ngược. Thêm vào đó, dãy hệ số xich lượng tử lớn hơn khiến cho cơ chế kiểm soát tốc độ dữ liệu ở bộ lập mã hoạt động một cách linh hoạt hơn dựa trên một tỉ lệ phức hợp vào khoảng 12,5% thay cho một mức tăng lượng gia không đổi.

5.5. Ưu điểm đối với mã hoá entropy

Sau khi tiến hành hiệu chỉnh, biến đổi và lượng tử hoá chuyển động, các bộ lập mã MPEG trước đây se vạch ra các symbol biểu diễn véctơ chuyển động và hệ số đã lượng tử hoá thành các bit thực sự. Vi du như chuân nén MPEG-2 sử dung phương pháp mã có chiêu dài biến thiên tĩnh (VLC) không thể tối ưu hoá trong môi trường video thời gian thực (trong đó nội dung và các cảnh biến đổi theo thời gian).

H264sử dung mã hoá thuật toán nhị phân theo tình huống CABAC (Context-Adaptive Binary Arithmetic Coding). Hiệu suất mã hoá của CABAC cao hơn hẳn nhờ khả năng thich nghi với các thay đổi có thể xảy ra trong phân bổ symbol. Vi du, nó có thể khai thác sự tương quan giữa các symbol và từ đó sử dung sự tương quan bit và thuật toán mã hoá. Cơ chế này có thể giúp tiết kiệm thêm một lượng bit vào khoảng hơn 5%.

81


6. So sánh H264 với các chuẩn nén khác

82


7. Kết luận về H264

H264 là một bước tiến lớn trong công nghệ nén video. Nhờ có những khả năng dự đoán chinh xác cũng như khả năng phuc hồi tốt khi bị lôi, H264 cung cấp những bi quyết mạng lại hiệu quả nén cao hơn.

H264 đem đến những cơ hội mới trong việc mã hóa video một cách tốt hơn, từ đó thực hiện được những dòng video có chất lượng cao hơn, frame rate cao hơn và độ phân giải cao hơn với những bit rate ổn định (so với những tiêu chuân trước đó), hay ngược lại, H264 tạo ra những video có cùng chất lượng nhưng ở bit rate thấp hơn. Lân đâu tiên 3 tổ chức tiêu chuân hóa quốc tế ITU, ISO và IEC cùng đi đến kết luận H264 là chuân nén video quốc tế. Nhờ tinh năng linh hoạt, H264 đã được ứng dung trong đa dạng ở những lĩnh vực như: HD DVD (vi du như Blu-ray), truyên hình kĩ thuật số bao gồm có HD TV, lưu trữ video trực tuyến (vi du như YouTube), điện thoại di động thế hệ thứ 3, trong một số phân mêm như QuickTime, hệ điêu hành Mac OS X của máy tinh Flash và Apple, và các máy chơi game gia đình như Play Station.

Được áp dung trong nhiêu ngành công nghiệp và ứng dung, đáp ứng nhu câu chuyên nghiệp cũng như nhu câu bình dân, H264 được kì vọng se thay thế những tiêu chuân và cách thức nén khác đang được sử dung hiện nay. Định dạng H264 ngày càng được ứng dung rộng rãi trong network camera, mã hóa video và phân mêm quản lý video, do đó những nhà thiết kế và tich hợp hệ thống se cân phải đảm bảo chọn được sản phâm và nhà cung cấp phù hợp với chuân mở mới này. Hiện tại, những sản phâm video trong mạng máy tinh hô trợ cả H264 và hình ảnh JPEG là những sản phâm lý tưởng, đem đến khả năng linh hoạt và sự tich hợp cao nhất.

83


KẾT LUẬN

Các chuân nén video đang ngày càng được nghiên cứu và đạt nhiêu thành tựu lớn hơn. Các chuân nén vê sau ra đời càng ngày càng có chất lượng cao hơn và thich hợp với nhiêu muc đich sử dung của con người. Trong khuôn khổ của một bài tiểu luận, việc trình bày và đi sâu vào tìm hiểu các chuân nén là rất khó và còn nhiêu thiếu sót. Chúng em se bổ sung và tiếp tuc nghiên cứu tiếp khi có cơ hội.

Một lân nữa chúng em chân thành cảm ơn cô Nguyễn Thị Hoàng Lan vê những gợi ý và giúp đỡ của cô trong quá trình làm tiểu luận này.

84


TAI LIÊU THAM KHẢO

1. Tài liệu từ itu.int/itu-t: ITU-T. H261 ITU-T. H262 ITU-T. H264

2. Axis Communication. H264

3. Tài liệu từ iso.org: Information technology -- Multimedia application format MPEG 1 Information technology -- Multimedia application format MPEG 2 Information technology -- Multimedia application format MPEG 4

4. MPEG digital video-coding standard - IEEE signal processing magazine5. Tập bài giảng Truyên Thông Đa Phương Tiện của cô Nguyễn Thị Hoàng

Lan

85

Documents

BAO CAO