LTTT Slide v1

Embed Size (px)

Citation preview

  • 8/18/2019 LTTT Slide v1

    1/311

    BÀI GIẢNG MÔN HỌCLÝ THUYẾT THÔNG TIN

    Giảng Viên: Hồ Văn Quân

    E-mail: [email protected] site: http://www.dit.hcmut.edu.vn/~hcquan/student.htm

    Trườ ng Đại học Bách khoaKhoa Công Nghệ Thông Tin

  • 8/18/2019 LTTT Slide v1

    2/311

    Trang 2Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    NỘI DUNG MÔN HỌC Bài 1 Giớ i thiệu

    Bài 2 Một số khái niệm cơ  bản Bài 3 Chuẩn bị toán học

    Bài 4 Lượ ng tin

    Bài 5 Entropy Bài 6 Mã hiệu

    Bài 7 Mã hóa tối ưu nguồn r ờ i r ạc không nhớ 

    Bài 8 Mã hóa nguồn phổ quát

    Bài 9 Kênh r ờ i r ạc không nhớ , lượ ng tin tươ ng hỗ

  • 8/18/2019 LTTT Slide v1

    3/311

    Trang 3Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    NỘI DUNG MÔN HỌC (tt) Bài 10 Mã hóa chống nhiễu, định lý kênh

    Bài 11 Mã khối tuyến tính Bài 12 Cơ  sở toán học của mã hóa chống nhiễu

    Bài 13 Mã vòng

    Bài 14 Giớ i thiệu về mật mã hóa Bài 15 Một số vấn đề nâng cao

  • 8/18/2019 LTTT Slide v1

    4/311

    Trang 4Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    TÀI LIỆU THAM KHẢO1. Information Theory - Robert B.Ash, Nhà xuất bản Dover, Inc,

    1990.

    2. Introduction to Information Theory - Masud Mansuripur, Nhàxuất bản Prentice–Hall, Inc, 1987.

    3. A Mathematical Theory of Communication - C. E. Shannon,

    Tạ p chí Bell System Technical, số 27, trang 379–423 và 623– 656, tháng 7 và tháng 10, 1948.

    4. Cơ  sở Lý thuyết truyền tin (tậ p một và hai) - Đặng VănChuyết, Nguyễn Tuấn Anh, Nhà xuất bản Giáo dục, 1998.

  • 8/18/2019 LTTT Slide v1

    5/311

    Trang 5Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    HÌNH THỨ C ĐÁNH GIÁ Sẽ có thông báo cụ thể cho từng khóa học. Tuy nhiên,

    thườ ng là có hình thức như bên dướ i. Thi tr ắc nghiệm

    Giữa k ỳ: 30 câu / 45 phút

    Cuối k ỳ: 45 câu / 90 phút   Đượ c phép xem tài liệu trong 2 tờ giấy A4

    Làm bài tậ p lớ n cộng điểm (không bắt buộc)

     Nộ p bài tậ p lớ n và báo cáo vào cuối học k ỳ Cộng tối đa 2 điểm

  • 8/18/2019 LTTT Slide v1

    6/311

    Trang 6Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    CÁC MÔN LIÊN QUAN Lý thuyết xác suất

    K ỹ thuật truyền số liệu Xử lý tín hiệu số

  • 8/18/2019 LTTT Slide v1

    7/311

    Trang 7Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bài 1 Giớ i thiệu1.1 Thông tin là gì?

    1.2 Vai trò của thông tin1.3 Lý thuyết thông tin nghiên cứu những gì?

    1.4 Những ứng dụng của lý thuyết thông tin

    1.5 Lý thuyết thông tin – Lịch sử hình thành và quan điểmkhoa học hiện đại

  • 8/18/2019 LTTT Slide v1

    8/311

    Trang 8Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Thông tin là gì? Một vài ví dụ

    Hai ngườ i nói chuyện vớ i nhau. Cái mà trao đổi giữa họ gọi làthông tin.

    Một ngườ i đang xem tivi/nghe đài/đọc báo, ngườ i đó đang nhậnthông tin từ đài phát/báo.

    Quá trình giảng dạy trong lớ  p. Các máy tính nối mạng và trao đổi dữ liệu vớ i nhau.

    Máy tính nạ p chươ ng trình, dữ liệu từ đĩ a cứng vào RAM để

    thực thi.

  • 8/18/2019 LTTT Slide v1

    9/311

    Trang 9Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Thông tin là gì? (tt)  Nhận xét

    Thông tin là cái đượ c truyền từ đối tượ ng này đến đối tượ ngkhác để báo một “đ iề u” gì đó. Thông tin chỉ có ý ngh ĩ a khi“điều” đó bên nhận chưa biết.

    Thông tin xuất hiện dướ i nhiều dạng âm thanh, hình ảnh, ... Những dạng này chỉ là “vỏ bọc” vật chất chứa thông tin. “Vỏ bọc” là phần “xác”, thông tin là phần “hồn”.

     Ng ữ  nghĩ a của thông tin chỉ có thể hiểu đượ c khi bên nhận hiểuđượ c cách biểu diễn ngữ ngh ĩ a của bên phát.

    Một trong những phươ ng tiện để diễn đạt thông tin là ngôn ng ữ . Có hai tr ạng thái của thông tin: truyề n và l ư u tr ữ . Môi tr ườ ng

    truyền/lưu tr ữ đượ c gọi chung là môi tr ườ ng chứa tin hay kênhtin.

  • 8/18/2019 LTTT Slide v1

    10/311

    Trang 10Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Vai trò của thông tin Các đối tượ ng sống luôn luôn có nhu cầu hiểu về thế giớ i xung

    quanh, để thích nghi và tồn tại. Đây là một quá trình quan sát,

    tiế p nhận, trao đổi và xử lý thông tin từ môi tr ườ ng xung quanh. Thông tin tr ở thành một nhu cầu cơ  bản, một điều kiện cần cho

    sự tồn tại và phát triển.

    Khi KHKT, XH ngày càng phát triển, thông tin càng thể hiệnđượ c vai trò quan tr ọng của nó đối vớ i chúng ta.

    Ví dụ, hành động xuất phát từ suy ngh ĩ , nếu suy ngh ĩ  đúng, thìhành động mớ i đúng. Suy ngh ĩ lại chịu ảnh hưở ng từ các nguồnthông tin đượ c tiế p nhận. Vì vậy thông tin có thể chi phối đếnsuy ngh ĩ và k ết quả là hành động của con ngườ i.

  • 8/18/2019 LTTT Slide v1

    11/311

    Trang 11Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    LTTT nghiên cứ u nhữ ng vấn đề gì?   Ở góc độ khoa học k ỹ thuật, LTTT nghiên cứu nhằm tạo ra một

    “cơ  sở hạ tầng” tốt cho việc truyền thông tin chính xác, nhanh

    chóng và an toàn; lưu tr ữ thông tin một cách hiệu quả.   Ở các góc độ nghiên cứu khác LTTT nghiên cứu các vấn đề về

    cách tổ chức, biểu diễn và truyền đạt thông tin, và tổng quát làcác vấn đề về xử lý thông tin.

    Ba l ĩ nh vực nghiên cứu cơ  bản của môn học Mã hoá chống nhiễu Mã hoá tối ư u (hay nén dữ liệu) Mật mã hoá

  • 8/18/2019 LTTT Slide v1

    12/311

    Trang 12Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Nhữ ng ứ ng dụng của LT thông tin Cuộc cách mạng thông tin đang xảy ra, sự phát triển mạnh mẽ

    của các phươ ng tiện mớ i về truyền thông, lưu tr ữ thông tin làm

    thay đổi ngày càng sâu sắc xã hội chúng ta. LTTT đóng một vai trò quyết định trong sự phát triển này bằng

    cách cung cấ p cơ  sở lý thuyết và một cái nhìn triết học sâu sắc

    đối vớ i những bài toán mớ i và thách thức mà chúng ta chạmtrán – hôm nay và mai sau.

     Những ứng dụng phổ biến của LTTT là truyền thông và xử lýthông tin bao gồm: truyề n thông , nén, bảo mật , l ư u tr ữ , ...

    Các ý tưở ng của LTTT đã đượ c áp dụng trong nhiều l ĩ nh vựcnhư vật lý, ngôn ng ữ  học, sinh vật học, khoa học máy tính, tâmlý học, hóa học

  • 8/18/2019 LTTT Slide v1

    13/311

    Trang 13Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Nhữ ng ứ ng dụng của LT thông tin (tt) Mối quan hệ giữa LTTT và thố ng kê đã đượ c tìm thấy, các

     phươ ng pháp mớ i về phân tích thống kê dựa trên LTTT đã đượ c

    đề nghị.   Ứ ng dụng vào quản lý kinh t ế . Ví dụ, lý thuyết đầu tư tối ưu

    xuất hiện đồng thờ i vớ i lý thuyết mã hóa nguồn tối ưu.

      Ứ ng dụng vào ngôn ng ữ  học.   Ứ ng dụng đến tâm lý thự c nghiệm và đặc biệt là l ĩ nh vực dạy và

    học.

  • 8/18/2019 LTTT Slide v1

    14/311

    Trang 14Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lịch sử hình thành Cuộc cách mạng lớ n nhất về cách nhìn thế giớ i khoa học là

    chuyển hướ ng từ thuyế t quyế t định Laplacian đến bứ c tranh

     xác suấ t của t ự  nhiên. Thế giớ i chúng ta đang sống trong đó chủ yếu là xác suấ t . Kiến

    thức của chúng ta cũng là một dạng xác suất. LTTT nổi lên sau khi cơ  học thống kê và lượ ng tử đã phát triển,

    và nó chia xẻ vớ i vật lý thống kê các khái niệm cơ  bản vềentropy.

    Theo lịch sử, các khái niệm cơ  bản của LTTT như entropy,thông tin tươ ng hỗ đượ c hình thành từ việc nghiên cứu các hệthố ng mật mã hơ n là từ việc nghiên cứu các kênh truyề n thông .

    Về mặt toán học, LTTT là một nhánh của lý thuyế t xác suấ t vàcác quá trình ng ẫ u nhiên (stochastical process).

  • 8/18/2019 LTTT Slide v1

    15/311

    Trang 15Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lịch sử hình thành (tt) Quan tr ọng và có ý ngh ĩ a nhất là quan hệ liên k ết giữa LTTT và

    vật lý thố ng kê.

    Trong một thờ i gian dài tr ướ c khi LTTT đượ c hình thành, L.Boltzman và sau đó là L.Szilard đã đánh đồng ý ngh ĩ a củathông tin vớ i khái niệm nhiệt động học của entropy. Một mặt

    khác, D. Gabor chỉ ra r ằng “lý thuyết truyền thông phải đượ cxem như một nhánh của vật lý”.

     C. E. Shannon là cha đẻ của LTTT.

  • 8/18/2019 LTTT Slide v1

    16/311

    Trang 16Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bài 2 Một số khái niệm cơ  bản2.1 Thông tin (Information)

    2.2 Mô hình của các quá trình truyền tin2.3 Các loại hệ thống truyền tin – Liên tục và r ờ i r ạc

    2.4 R ờ i r ạc hoá

  • 8/18/2019 LTTT Slide v1

    17/311

    Trang 17Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Thông tin Thông tin là một khái niệm tr ừu tượ ng, phi vật chất và r ất khó

    đượ c định ngh ĩ a chính xác. Hai định ngh ĩ a về thông tin.

     Thông tin là sự  cảm hiể u của con ng ườ i về  thế  giớ i xung quanhthông qua sự  tiế  p xúc vớ i nó.

     Thông tin là một hệ thố ng nhữ ng tin báo và mệnh l ệnh giúp loại

    tr ừ  sự  không chắ c chắ n (uncertainty) trong tr ạng thái của nơ inhận tin. Nói ng ắ n g ọn, thông tin là cái mà loại tr ừ  sự  khôngchắ c chắ n.

      Định ngh ĩ a đầu chưa nói lên đượ c bản chất của thông tin. Địnhngh ĩ a thứ hai nói rõ hơ n về bản chất của thông tin và đượ c dùngđể định lượ ng thông tin trong k ỹ thuật.

  • 8/18/2019 LTTT Slide v1

    18/311

    Trang 18Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Thông tin (tt) Thông tin là một hiện tượ ng vật lý, nó thườ ng tồn tại và đượ c

    truyền đi dướ i một dạng vật chất nào đó.

     Những dạng vật chất dùng để mang thông tin đượ c gọi là tínhiệu.

     Lý thuyế t tín hiệu nghiên cứu các dạng tín hiệu và cách truyền

    thông tin đi xa vớ i chi phí thấ p, một ngành mà có quan hệ gầngũi vớ i LTTT.

    Thông tin là một quá trình ng ẫ u nhiên.

    Tín hiệu mang tin tức cũng là tín hiệu ngẫu nhiên và mô hìnhtoán học của nó là các quá trình ngẫu nhiên thực hay phức.

    Và LTTT là lý thuyế t ng ẫ u nhiên của tin t ứ c, có ngh ĩ a là nó xétđến tính bấ t ng ờ của tin tức đối vớ i nơ i nhận tin.

  • 8/18/2019 LTTT Slide v1

    19/311

    Trang 19Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Mô hình của các quá trình truyền tin Khái niệm thông tin thườ ng đi kèm vớ i một hệ thống truyền tin.

    Sự truyền tin (transmission) Là sự dịch chuyển thông tin từ điểm này đến điểm khác trong

    một môi tr ườ ng xác định.  Nguồn tin (information source)

    Là một tậ p hợ  p các tin mà hệ thống truyền tin dùng để lậ p các bảng tin hay thông báo (message) để truyền tin.

    Bảng tin chính là dãy tin đượ c bên phát truyền đi. Thông tin có thể thuộc nhiều loại như

    (1) một dãy kí tự như trong điện tín (telegraph) của các hệ thống gở i điệntín (teletype system);

     Nguồn phát Kênh truyền Nguồn nhận

     Nhiễu

  • 8/18/2019 LTTT Slide v1

    20/311

    Trang 20Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Mô hình của các quá trình truyền tin (tt)(2) một hàm theo chỉ một biến thờ i gian f (t) như trong radio và điện thoại;(3) một hàm của thờ i gian và các biến khác như trong tivi tr ắng đen –  ở  

    đây thông tin có thể đượ c ngh ĩ  như là một hàm f ( x, y, t ) của toạ độ haichiều và thờ i gian biểu diễn cườ ng độ ánh sáng tại điểm ( x, y) trên mànhình và thờ i gian t ;

    (4) một vài hàm của một vài biến như trong tr ườ ng hợ  p tivi màu –  ở  đâythông tin bao gồm ba hàm f ( x, y, t ),  g ( x, y, t ), h( x, y, t ) biểu diễn cườ ngđộ ánh sáng của các ba thành phần màu cơ  bản (xanh lá cây, đỏ, xanh

    dươ ng) Thông tin tr ướ c khi đượ c truyền đi, tuỳ theo yêu cầu có thể 

    đượ c mã hoá để nén, chống nhiễu, bảo mật, ... Kênh tin (channel)

    Là nơ i hình thành và truyền (hoặc lưu tr ữ) tín hiệu mang tinđồng thờ i ở  đấy xảy ra các tạ p nhiễu (noise) phá hủy tin tức. Trong LTTT kênh là một khái niệm tr ừu tượ ng đại biểu cho

    hỗn hợ  p tín hiệu và tạ p nhiễu.

  • 8/18/2019 LTTT Slide v1

    21/311

    Trang 21Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Một số khái niệm (tt) Môi tr ườ ng truyền tin thườ ng r ất đa dạng

    môi tr ườ ng không khí, tin đượ c truyền dướ i dạng âm thanh và tiếng nói,ngoài ra cũng có thể bằng lửa hay bằng ánh sáng;

    môi tr ườ ng tầng điện ly trong khí quyển nơ i mà thườ ng xuyên xảy ra sựtruyền tin giữa các vệ tinh nhân tạo vớ i các tr ạm rada ở  dướ i mặt đất;

     đườ ng truyền điện thoại nơ i xảy ra sự truyền tín hiệu mang tin là dòngđiện hay đườ ng truyền cáp quang qua biển trong đó tín hiệu mang tin làsóng ánh sáng v.v…

     Nhiễu (noise) Cho dù môi tr ườ ng nào cũng có nhiễu. Nhiễu r ất phong phú và

    đa dạng và thườ ng đi kèm vớ i môi tr ườ ng truyền tin tươ ng ứng. Chẳng hạn nếu truyền dướ i dạng sóng điện từ mà có đi qua các vùng của

    trái đất có từ tr ườ ng mạnh thì tín hiệu mang tin thườ ng bị ảnh hưở ng ítnhiều bở i từ tr ườ ng này. Nên có thể coi từ tr ườ ng này là một loại nhiễu.

     Nếu truyền dướ i dạng âm thanh trong không khí thì tiếng ồn xung quanhcó thể coi là một loại nhiễu.

  • 8/18/2019 LTTT Slide v1

    22/311

    Trang 22Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Một số khái niệm (tt)  Nhiễu có nhiều loại chẳng hạn nhiễu cộng, nhiễu nhân.  Nhiễu cộng là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu

    “cộng” thêm vào.  Nhiễu nhân là loại nhiễu mà tín hiệu mang tin bị tín hiệu nhiễu

    “nhân” lên.

     Nơ i nhận tin (sink) Là nơ i tiế p nhận thông tin từ kênh truyền và cố gắng khôi phụclại thành thông tin ban đầu như bên phát đã phát đi. Tin đến đượ c nơ i nhận thườ ng không giống như tin ban đầu vì

    có sự tác động của nhiễu. Vì vậy nơ i nhận phải thực hiện việc

     phát hiện sai và sử a sai.  Nơ i nhận còn có thể phải thực hiện việc giải nén hay giải mã

    thông tin đã đượ c mã hoá bảo mật nếu như bên phát đã thựchiện việc nén hay bảo mật thông tin tr ướ c khi truyền

  • 8/18/2019 LTTT Slide v1

    23/311

    Trang 23Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Các loại hệ thống truyền tin Các nguồn tin thườ ng thấy trong tự nhiên đượ c gọi là các nguồn

    tin nguyên thu ỷ. Đây là các nguồn tin chưa qua bất k ỳ một phép

     biến đổi nhân tạo nào. Các tín hiệu âm thanh, hình ảnh đượ c phát ra từ các nguồn tinnguyên thuỷ này thườ ng là các hàm liên t ục theo thờ i gian vàtheo mứ c, ngh ĩ a là có thể biểu diễn một thông tin nào đó dướ idạng một hàm s(t ) tồn tại trong một quãng thờ i gian T và lấy

    các tr ị bất k ỳ trong một phạm vi ( smin, smax) nào đó. s(t )

     smax

     smin

  • 8/18/2019 LTTT Slide v1

    24/311

    Trang 24Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Các loại hệ thống truyền tin (tt) Các nguồn như vậy đượ c gọi là các nguồn liên t ục (continuous

    source), các tin đượ c gọi là tin liên t ục (continuous information)

    và kênh tin đượ c gọi là kênh liên t ục (continuous channel). Tuy nhiên vẫn có những nguồn nguyên thuỷ là r ờ i r ạc Bảng chữ cái của một ngôn ngữ. Các tin trong hệ thống điện tín, các lệnh điều khiển trong một hệ thống

    điều khiển, ...

    Trong tr ườ ng hợ  p này các nguồn đượ c gọi là nguồn r ờ i r ạc(discrete source), các tin đượ c gọi là tin r ờ i r ạc (discreteinformation) và kênh tin đượ c gọi là kênh r ờ i r ạc (discretechannel).

    Sự phân biệt về bản chất của tính r ờ i r ạc và tính liên tục là số lượ ng tin của nguồn trong tr ườ ng hợ  p r ờ i r ạc là hữ u hạn còntrong tr ườ ng hợ  p liên tục là không đế m đượ c.

  • 8/18/2019 LTTT Slide v1

    25/311

    Trang 25Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    R ờ i rạc hóa Các hệ thống liên tục có nhiều nhượ c điểm của như cồng k ềnh,

    không hiệu quả, và chi phí cao.

    Các hệ thống truyền tin r ờ i r ạc có nhiều ưu điểm hơ n, khắc phục đượ c những nhượ c điểm trên của các hệ thống liên tục vàđặc biệt đang ngày càng đượ c phát triển và hoàn thiện dầnnhững sức mạnh và ưu điểm của nó.

    R ờ i r ạc hoá thườ ng bao gồm hai loại: R ờ i r ạc hoá theo tr ục thờ igian, còn đượ c gọi là l ấ  y mẫ u (sampling) và r ờ i r ạc hoá theo biên độ, còn đượ c gọi là l ượ ng t ử  hoá (quantize).

    Lấy mẫu (Sampling) Lấy mẫu một hàm là trích ra từ hàm ban đầu các mẫu đượ c lấy

    tại những thờ i điểm xác định. Vấn đề là làm thế nào để sự thay thế hàm ban đầu bằng các mẫu

    này là một sự thay thế tươ ng đươ ng, điều này đã đượ c giảiquyết bằng định lý lấy mẫu nổi tiếng của Shannon.

  • 8/18/2019 LTTT Slide v1

    26/311

    Trang 26Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    R ờ i rạc hóa (tt)   Định lý lấy mẫu của Shannon

    Một hàm s(t ) có phổ hữu hạn, không có thành phần tần số lớ n

    hơ n ω max (= 2π  f max) có thể đượ c thay thế bằng các mẫu của nóđượ c lấy tại những thờ i điểm cách nhau một khoảng ∆t  ≤π /ω max, hay nói cách khác tần số lấy mẫu F  ≥ 2 f max.

     s(t ) smax

     smin

  • 8/18/2019 LTTT Slide v1

    27/311

    Trang 27Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    R ờ i rạc hóa (tt) Lượ ng tử hoá (Quantize)

    Biên độ của các tín hiệu thườ ng là một miền liên tục ( smin, smax).

    Lượ ng tử hoá là phân chia miền này thành một số mức nhấtđịnh, chẳng hạn là smin = s0, s1, ..., sn = smax và qui các giá tr ị  biên độ không trùng vớ i các mức này về mức gần vớ i nó nhất.

    Việc lượ ng tử hoá sẽ biến đổi hàm s(t ) ban đầu thành một hàm

     s’(t ) có dạng hình bậc thang. Sự khác nhau giữa s(t ) và s’(t )đượ c gọi là sai số lượ ng tử. Sai số lượ ng tử càng nhỏ thì s’(t ) biểu diễn càng chính xác s(t ).

     s(t )

     smax

     smin

  • 8/18/2019 LTTT Slide v1

    28/311

    Trang 28Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Nguồn rờ i rạc  Nguồn tin liên tục sau khi đượ c lấy mẫu và lượ ng tử hoá sẽ tr ở 

    thành nguồn r ờ i r ạc.

    Chúng ta học chủ yếu các nguồn r ờ i r ạc.  Nguồn r ờ i r ạc

    Một nguồn r ờ i r ạc là một bảng chữ cái A gồm m kí hiệu, A ={a1, a2, ..., am}, vớ i những xác suất xuất hiện p(ai), i = 1, .., m.

      Định ngh ĩ a không diễn tả mối quan hệ giữa tin tr ướ c và sautrong một bản tin, nên đây đượ c gọi là một nguồn r ờ i r ạc khôngnhớ (discrete memoryless source).

    Bảng tin của một nguồn tin r ờ i r ạc không nhớ  Là một dãy (có thể vô hạn) các kí hiệu liên tiế p từ bảng chữ cáicủa nguồn tin, x = (... a –2a –1a0a1a2...) Trong thực tế bảng tin có bắt đầu và k ết thúc cho nên bảng tin

    là một dãy hữu hạn các kí hiệu, x* = (a1a2 …an)

  • 8/18/2019 LTTT Slide v1

    29/311

    Trang 29Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bài 3 Chuẩn bị toán học3.1 Xác suất (Probability)

    3.2 Bất đẳng thức Chebyshev và luật yếu của số lớ n3.3 Tậ p lồi (Convex sets) và hàm lồi (convex functions), bấtđẳng thức Jensen

    3.4 Công thức Stirling

  • 8/18/2019 LTTT Slide v1

    30/311

    Trang 30Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Xác suất Không gian mẫu (Sample space)

    Là tậ p (hay không gian) tất cả các k ết quả có thể có của một thí

    nghiệm. Thườ ng đượ c kí hiệu là E hay S . Nếu không gian mẫulà r ờ i r ạc thì E có thể đượ c biểu diễn bằng E = {e1, e2, ..., en} Sự kiện (Event), sự kiện cơ  bản (elementary event)

    Mỗi tậ p con của E (không gian mẫu) đượ c gọi là một sự kiện,

    đặc biệt mỗi phần tử của E  đượ c gọi là một sự kiện cơ  bản. Ví dụ

    Trong một thí nghiệm tung đồng xu thì E = {U (úp), N (ngửa)}. Nếu đồng tiền là đồng nhất thì xác suất P (U) = P (N) = 1/2.

    Trong một thí nghiệm tung con xúc xắc thì E = {1, 2, 3, 4, 5,6}. Nếu con xúc xắc là đồng nhất thì xác suất P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6, P (2, 5) = 1/3, P (1, 3, 5) = 1/2.

  • 8/18/2019 LTTT Slide v1

    31/311

    Trang 31Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Xác suất (tt) Lấy một văn bản tiếng Anh điển hình và nhặt một kí tự bất k ỳ

    thì E = {a, b, c, ..., x, y, z } và xác suất của các kí tự đượ c phân bố như sau P (a) = 0,0642 , ..., P (e) = 0,103 , ..., P ( z ) = 0,0005.

    Biến ngẫu nhiên r ờ i r ạc (Discrete random variable) Một biến ngẫu nhiên r ờ i r ạc x đượ c định ngh ĩ a bằng cách gán

    một số thực xi tớ i mỗi sự kiện cơ  bản ei của không gian mẫu r ờ i

    r ạc E . Xác suất của xi đượ c định ngh ĩ a là xác suất của sự kiệncơ  bản tươ ng ứng và đượ c kí hiệu là p( xi). Tr ị trung bình (k ỳ vọng) (average, expected value),

     phươ ng sai (variance)

    Tr ị trung bình và phươ ng sai của biến ngẫu nhiên r ờ i r ạc x lầnlượ t đượ c kí hiệu và định ngh ĩ a như sau  E (x) =   ( )∑=

    i

    ii p xxx

  • 8/18/2019 LTTT Slide v1

    32/311

    Trang 32Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Xác suất (tt) Var(x) =

    =trong đó E (x2) là tr ị k ỳ vọng của x2. Tổng quát, tr ị k ỳ vọng của một hàm của x, chẳng hạn f (x), đượ c

    định ngh ĩ a bằng

    Xác suất đồng thờ i (joint probability), xác suất có điềukiện (conditional probability) Một cặ p biến ngẫu nhiên (x, y) liên k ết vớ i một thí nghiệm tạo

    thành một biến ngẫu nhiên nối (joint random variable). Nếu x, ylà r ờ i r ạc, sự phân bố xác suất nối hay xác suất đồng thờ i đượ cđịnh ngh ĩ a là

     pij = P(x = xi, y = y j)

    ( ) ( )   ( )∑   −=−i

    ii   p E  xxxxx22

    ( )

    22

    xx   − E 

    ( )( ) ( ) ( )∑

    =i ii

      p f  f  E  xxx

  • 8/18/2019 LTTT Slide v1

    33/311

    Trang 33Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Xác suất (tt) Xác suất của y trong điều kiện đã biết x đượ c gọi là xác suất có

    điều kiện và đượ c định ngh ĩ a là

    trong đó xác suất lề (marginal probability) p( xi) đượ c giả thiết

    là khác không. Các xác suất lề đượ c định ngh ĩ a như sau:

     p( xi) =

     p( y j) =

    ( ) ( )i ji

    i j x p

     y x p x y p ,=

     

     j

     ji   y x p ,

    ∑i

     ji   y x p ,

  • 8/18/2019 LTTT Slide v1

    34/311

    Trang 34Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Ví dụ Thí nghiệm tung đồng thờ i

    một đồng xu và con xúc xắc.

    Từ k ết quả trên ta thấyP(U, 5) = 1/18

    P(Đồng xu = U) = 5/9

    P(Đồng xu = N) = 4/9P(Xúc xắc = 5) = 7/72

    P(Xúc xắc = 5 đã biết Đồng xu = U)

    1/12 1/181/9 1/18

    1/9 1/6

    1/9 1/241/18 1/24

    1/12 1/12

    U N

    6

    54

    3

    21

    Xúc xắc

    Đồng xu

  • 8/18/2019 LTTT Slide v1

    35/311

    Trang 35Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Xác suất (tt) Sự độc lậ p (Independence)

    Hai biến ngẫu nhiên x và y đượ c gọi là độc lậ p nếu p( xi, y j) = p( xi) p( y j) ∀ i, j.

    Chúng ta thấy nếu hai biến x và y độc lậ p thì

    có ngh ĩ a là xác suất y j trong điều kiện có xi xảy ra hay khôngxảy ra đều như nhau, không thay đổi, và ngượ c lại.

    Cũng từ sự độc lậ p chúng ta suy ra một k ết quả mà hay đượ c sử

    dụng sau này E (xy) = E(x) E(y) =

    ( )( )

    ( )

    ( )  ( )

     j

    i

     ji

    i

     ji

    i j   y p

     x p

     y p x p

     x p

     y x p x y p   ===

    ,

    yx

  • 8/18/2019 LTTT Slide v1

    36/311

    Trang 36Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Xác suất (tt) Sự tươ ng quan (correlation)

    Sự tươ ng quan C giữa hai biến x và y đượ c định ngh ĩ a là tr ị k ỳvọng của (x – )(y – ):

    C (x, y) = E ((x – )(y – )) =

    = E (xy) –

    Trong tr ườ ng hợ  p x và y là độc lậ p chúng ta suy ra C (x, y) = 0.Tuy nhiên điều ngượ c lại thì không đúng.

    x yx y

    yx

    ấ ẳ

  • 8/18/2019 LTTT Slide v1

    37/311

    Trang 37Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bất đẳng thứ c Chebyshev

    và luật yếu của số lớ n Bất đẳng thức Chebyshev

    Cho một biến ngẫu nhiên x có tr ị trung bình là và phươ ng sailà , bất đẳng thức Chebyshev đối vớ i một số dươ ng tuỳ ý δ là

    P(|x – | ≥ δ) ≤

    Chứng minh   Định ngh ĩ a một hàm f ( x) như sau

    Thì

    P(|x – | ≥ δ) = Σ f ( xi) p( xi)

    x2xδ  

    x 2

    2x

    δ  

    δ  

    ( )⎩⎨⎧

    <

    ≥=

    δ|- ,|

    δ|- ,| f 

    xx0

    xx1x

    x

  • 8/18/2019 LTTT Slide v1

    38/311

    Trang 38Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bất đẳng thứ c Chebyshev (tt)

    Dựa trên hình chúng ta có

     f (x) ≤ Vì vậy,

    xδ  −x x

    1

    δ  +x

    2xx

    ⎟⎟

     ⎠

     ⎞⎜⎜

    ⎝ 

    ⎛    −δ  

    2xx

    ⎟⎟

     ⎠

     ⎞⎜⎜

    ⎝ 

    ⎛    −

    δ  

    ( )   ( )∑   =⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛    −≤≥−

    i

     p P  i 2

    2xx

    2xx

    xxδ  

    δ  

    δ  δ  

  • 8/18/2019 LTTT Slide v1

    39/311

    Trang 39Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Luật yếu của số lớ n (tt) Xét một thí nghiệm nhị phân trong đó các k ết quả của thí

    nghiệm là 0 và 1 vớ i các xác suất tươ ng ứng là p0 và 1–  p0.

    Thí nghiệm này đượ c lặ p lại N lần một cách độc lậ p, và k ết quảtrung bình đượ c định ngh ĩ a là y N ; tức là, y N  bằng tổng số các số1 trong N lần thí nghiệm chia cho N .

    Rõ ràng, y N là một biến ngẫu nhiên có không gian mẫu là {0,1/ N , 2/ N , ..., 1}.

      Định ngh ĩ a x(n) là biến ngẫu nhiên tươ ng ứng vớ i k ết quả củalần thí nghiệm thứ n, chúng ta có

    ( )∑=

    = N 

    n

    n

     N  N  1

    x1

    y

  • 8/18/2019 LTTT Slide v1

    40/311

    Trang 40Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Luật yếu của số lớ n (tt)( )( ) xx1x1y

    11∑∑

    ==

    === N 

    n

     N 

    n

    n

     N  N 

     E  N 

    ( )(   )   ( )⎟⎟

     ⎠

     ⎞

    ⎜⎜

    ⎝ 

    ⎛ ⎥⎦

    ⎤⎢⎣

    ⎡−=−=   ∑

    =

    2

    1

    22y xx

    1yy

     N 

    n

    n

     N  N  N 

     E  E δ  

    ( )⎟⎟

     ⎠

     ⎞⎜⎜

    ⎝ 

    ⎛ ⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ ⎥⎦

    ⎤⎢⎣

    ⎡ −=   ∑=

    2

    1

    xx1

     N  N 

     E  N 

    n

    n   ( )( )⎟⎟

     ⎠

     ⎞⎜⎜

    ⎝ 

    ⎛ ⎥⎦

    ⎤⎢⎣

    ⎡ −=   ∑=

    2

    12

    xx1   N 

    n

    n E  N 

    ( )( )(   )  N  N  N  E  N  N 

    n

    n 2x2x2

    1

    22

    1xx1   δ  δ    ==−=   ∑=

  • 8/18/2019 LTTT Slide v1

    41/311

    Trang 41Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Luật yếu của số lớ n (tt)   Đối vớ i một số nguyên dươ ng tuỳ ý ε, theo bất đẳng thức

    Chebyshev chúng ta có

    từ đây chúng ta dẫn ra đượ c luật yếu của số lớ n

    Chú ý r ằng vế phải tiến tớ i 0 khi N tiến ra vô cùng.

    Luật yếu của số lớ n vì vậy khẳng đinh r ằng tr ị trung bình mẫucủa x tiế p cận tr ị trung bình thống kê vớ i xác suất cao khi N  →∞.

    ( ) 22y|yy|

    ε 

    δ  ε   ≤≥−

      N  N  P 

    ( )2

    2x

    1

    xx1ε 

    δ  ε  N  N 

     P  N 

    n

    n ≤⎟⎟ ⎠ ⎞⎜⎜

    ⎝ ⎛  ≥−⎥

    ⎦⎤⎢

    ⎣⎡ ∑

    =

  • 8/18/2019 LTTT Slide v1

    42/311

    Trang 42Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Tập lồi Trong không gian Ơclit, một tậ p S  đượ c gọi là lồi (convex cap

    (∩)) nếu đối vớ i một cặ p điểm P 1, P 2 thuộc S thì mọi điểm

    thuộc đoạn P 1 P 2 cũng thuộc S .

     Nếu P 1 = ( x1, x2, ..., xn) và P 2 = ( y1, y2, ..., yn) là các điểm trongkhông gian Ơclit n chiều, thì đoạn thẳng nối chúng đượ c biểu

    diễn bằng tậ p các điểm P , trong đó P = λ P 1 + (1– λ) P 2

    = (λ x1 + (1– λ) y1, λ x2 + (1– λ) y2, ..., λ xn + (1– λ) yn) và λ ∈ [0, 1].

    (a)

    P1

    P2

    P1

    P2

    (b)

  • 8/18/2019 LTTT Slide v1

    43/311

    Trang 43Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Hàm lồi Một ví dụ quan tr ọng của tậ p lồi là tậ p tất cả các điểm ( p1, p2,

    ..., pn) trong đó ( p1, p2, ..., pn) là một sự phân bố xác suất (tức là

    các pi ∈ [0, 1] và Σ pi = 1). Một hàm thực f ( P ), đượ c định ngh ĩ a trên tậ p lồi S , đượ c gọi là

    lồi nếu ∀cặ p điểm P 1, P 2 ∈ S , và ∀ λ ∈ [0, 1] bất đẳng thức sauđây đúng:

     f (λ P 1 + (1– λ) P 2) ≥ λ f ( P 1) + (1– λ) f ( P 2)

     x x1 (λ x1 + (1-λ) x2   x2

     f ( x1)

     f ( x) f ( x2)

     f ((λ x1 + (1-λ) x2)

    λ f ( x1) + (1-λ) f ( x2)

  • 8/18/2019 LTTT Slide v1

    44/311

    Trang 44Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Định lý, bất đẳng thứ c Jensen  Nếu λ1, ..., λ N là các số không âm có tổng bằng 1 thì đối vớ i

    mọi tậ p điểm P 1, ..., P  N trong miền xác định của hàm lồi f ( P )

     bất đẳng thức sau đây đúng

    Cho biến ngẫu nhiên x lấy các giá tr ị x1, ..., xn vớ i các xác suất p1, ..., pn. Cho f ( x) là một hàm lồi có miền xác định chứa x1, ..., xn. Chúng ta có E (x) = và E ( f (x)) = .

    Áp dụng định lý trên chúng ta có

     f ( E (x)) ≥ E ( f (x))Đây đượ c gọi là bất đẳng thức Jensen.

     

    =

    λ

    λ

     N 

    n

    nn

     N 

    n

    nn   P  f  P  f 

    11

    i

    ii x p  

    iii   x f  p

  • 8/18/2019 LTTT Slide v1

    45/311

    Trang 45Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bài 4 Lượ ng tin4.1 Lượ ng tin

    4.2 Lượ ng tin trung bình

    V ấ n đề  cơ  bản của truyề n thông là việc tái sinh t ại một đ iể m hoặc

    chính xác hoặc g ần đ úng một thông báo đượ c chọn t ại một đ iể mkhác.

    (Claude Shannon 1948)

  • 8/18/2019 LTTT Slide v1

    46/311

    Trang 46Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lượ ng tin Lượ ng tin (measure of information) dùng để so sánh định lượ ng

    các tin tức vớ i nhau.

    Một tin đối vớ i ngườ i nhận đều mang hai nội dung, một làđộ bất ngờ của tin, hai là ý ngh ĩ a của tin.

    Khía cạnh ngữ ngh ĩ a chỉ có ý ngh ĩ a đối vớ i con ngườ i.

    Khía cạnh quan tr ọng nằm ở chỗ tin thật sự là một cái đượ cchọn từ một tập các tin (tậ p các khả năng) có thể.

     Nếu số tin trong tậ p tin càng nhiều thì sẽ mang lại một “lượ ngtin” càng lớ n khi nhận đượ c một tin (giả sử các tin là bình đẳng

    như nhau về khả năng xuất hiện).   Để sự truyền tin đạt hiệu quả cao chúng ta không thể đối đãi

    các tin như nhau nếu chúng xuất hiện ít nhiều khác nhau.

  • 8/18/2019 LTTT Slide v1

    47/311

    Trang 47Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lượ ng tin Xét một tin x có xác suất xuất hiện là p( x), thì chúng ta có thể

    xem tin này như là một tin trong một tậ p có 1/ p( x) tin vớ i các

    tin có xác suất xuất hiện như nhau.  Nếu p( x) càng nhỏ thì 1/ p( x) càng lớ n và vì vậy “lượ ng tin” khi

    nhận đượ c tin này cũng sẽ càng lớ n.

    Vậy “lượ ng tin” của một tin tỉ lệ thuận vớ i số khả năng của mộttin và tỉ lệ nghịch vớ i xác suất xuất hiện của tin đó.

    Xác suất xuất hiện của một tin tỉ lệ nghịch vớ i độ bất ngờ khinhận đượ c một tin.

    “lượ ng tin“ ↑

    số khả năng↑

     độ bất ngờ  ↓

    xác suất Một tin có xác suất xuất hiện càng nhỏ thì có độ bất ngờ càng

    lớ n và vì vậy có lượ ng tin càng lớ n.

  • 8/18/2019 LTTT Slide v1

    48/311

    Trang 48Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lượ ng tin (tt) Xét một nguồn A = {a1, a2,…, am} vớ i các xác suất xuất hiện là

     p(ai) i = 1, ..., m.

    Kí hiệu lượ ng tin trong mỗi tin ai là I (ai). Vậy hàm f dùng để biểu thị lượ ng tin phải thoã mãn những điều kiện gì?

    Phản ánh đượ c các tính chất thống kê của tin tức.

    Ví dụ có hai nguồn K , L vớ i số tin tươ ng ứng là k , l (giả thuyết đều làđẳng xác suất). Nếu k > l , thì độ bất ngờ khi nhận một tin bất k ỳ củanguồn K  phải lớ n hơ n độ bất ngờ khi nhận một tin bất k ỳ của nguồn L,vậy   f (k ) > f (l )

    Hợ  p lý trong tính toán. Giả thiết hai nguồn độc lậ p K và L vớ i số tin tươ ng ứng là k và l . Cho

    việc nhận một cặ p k i và l  j bất k ỳ đồng thờ i là một tin của nguồn hỗn hợ  p KL. Số cặ p k il  j mà nguồn này có là k *l .

  • 8/18/2019 LTTT Slide v1

    49/311

    Trang 49Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lượ ng tin (tt) Độ bất ngờ khi nhận đượ c một cặ p như vậy phải bằng tổng lượ ng tin của

    khi nhận đượ c k i và l  j. Vì vậy chúng ta phải có:

     f (kl ) = f (k ) + f (l ) Khi nguồn chỉ có một tin, lượ ng tin chứa trong tin duy nhất đó

     phải bằng không.

     f (1) = 0

      Định ngh ĩ a Lượ ng đo thông tin của một tin đượ c đo bằng logarit của độ bất

    ngờ của tin hay nghịch đảo xác suất xuất hiện của tin đó.

    ( ) )(log)(1log  x p

     x p x I    −==

  • 8/18/2019 LTTT Slide v1

    50/311

    Trang 50Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lượ ng tin (tt) Lượ ng tin chứa trong một dãy x = a1a2 … an vớ i ai ∈ A là

    Trong tr ườ ng hợ  p m kí hiệu của nguồn đẳng xác suất vớ i nhautức p(ai) = 1/m thì

     Nếu x = a1a2 … an vớ i ai ∈ A

     I ( x) = n logm

    ( )   ∑=−==n

    i

    ia p x p x I  1 )(log)(

    1log

    ( )   ma pa I 

    i

    i log)(1log   ==

  • 8/18/2019 LTTT Slide v1

    51/311

    Trang 51Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Lượ ng tin trung bình   Đơ n vị của lượ ng tin

     Nếu cơ  số là 2 thì đơ n vị là bits (cho các kí số nhị phân); nếu cơ  

    số là e thì đơ n vị là nats (cho đơ n vị tự nhiên), nếu cơ  số là 10thì đơ n vị là Hartley.

      Định ngh ĩ a Lượ ng tin trung bình của một nguồn tin A là lượ ng tin trung

     bình chứa trong một kí hiệu bất k ỳ của nguồn tin. Nó thườ ngđượ c kí hiệu là I ( A) và đượ c tính bằng công thức sau

     

    =

     Aaa pa p

     Aaa I a p A I 

    i

    ii

    i

    ii )(log)()()()(

  • 8/18/2019 LTTT Slide v1

    52/311

  • 8/18/2019 LTTT Slide v1

    53/311

    Trang 53Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Ví dụ (tt) Lượ ng tin trung bình của nguồn là

     I (U ) = (1/4) × 2 + (1/4) × 2 + (1/8) × 3 + (1/8) × 3 + (1/16) × 4

    + (1/16) × 4 + (1/16) × 4 + (1/16) × 4 = 2,75 bits.   Điều này nói lên một ý ngh ĩ a quan tr ọng r ằng, chúng ta có thể

     biểu diễn mỗi tin trong nguồn U  bằng một chuỗi có chiều dài

    trung bình là 2,75 bits. Nó sẽ tốt hơ n so vớ i trong tr ườ ng hợ  pchúng ta không chú ý đến cấu trúc thông kê của nguồn. Lúc đóchúng ta sẽ biểu diễn mỗi tin trong 8 tin của nguồn bằng cácchuỗi có chiều dài là 3 bits.

  • 8/18/2019 LTTT Slide v1

    54/311

  • 8/18/2019 LTTT Slide v1

    55/311

    Trang 55Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Entropy của một biến ngẫu nhiên rờ i rạc   Định ngh ĩ a

    Cho x là một biến ngẫu nhiên vớ i không gian mẫu X = { x1, ... , x N } và độ đo xác suất P ( xn) = pn. Entropy của x đượ c định ngh ĩ alà:

    ( )   ∑=

    −= N 

    n

    nn   p p H 1

    )log(x

     –  p ln( p)e-1

    e-1 = 0,37   p0 1

  • 8/18/2019 LTTT Slide v1

    56/311

  • 8/18/2019 LTTT Slide v1

    57/311

    Trang 57Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Các đặc tính của entropy1. Entropy là một đại lượ ng luôn luôn dươ ng hoặc bằng không.

     H (x) = 0 ⇔ có một xác suất pi = 1, còn tất cả các xác suất còn lại bằng 0.

    Điều này nói lên r ằng độ bất ngờ về một thí nghiệm chỉ có một k ết quảduy nhất là bằng 0.

    2. H (x) ≤ log N và dấu bằng xảy ra ⇔ p1 = p2 = ... = p N = 1/ N .Hay nói cách khác entropy đạt cực đại khi xác suất xuất hiện

    của các kí hiệu bằng nhau. Chứng minh

    ( ) ( )   ∑∑∑===

    ⎟⎟

     ⎠

     ⎞⎜⎜

    ⎝ 

    ⎛ =−−=−

     N 

    n   n

    n

     N 

    n

    n

     N 

    n

    nn

     Np

     p N  p p p N  H 111

    1lnlnln)ln()x(

    0111

    11

    111

    =−=−⎟ ⎠

     ⎞⎜⎝ 

    ⎛ =⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛ −≤   ∑∑∑

    ===

     N 

    n

    n

     N 

    n

     N 

    n   n

    n   p N  Np

     p

  • 8/18/2019 LTTT Slide v1

    58/311

    Trang 58Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Các đặc tính của entropy (tt)3. Cho biến ngẫu nhiên x có không gian mẫu X = { x1, ..., x N } và

     biến ngẫu nhiên y có không gian mẫu Y = { y1, ..., y M }. Thì biến

    ngẫu nhiên nối z = (x, y) có không gian mẫu Z = {( x1, y1), ...,( x1, yM), ( x2, y1), ..., ( x2, yM), ..., ( x N, y1), ..., ( x N, yM)} gồm NM  phần tử. Nếu x, y độc lậ p nhau thì H (z) =  H (x) +  H (y).

    Chứng minh

    ( ) ( ) ( ) ( ) ( ) ( )[ ]∑∑∑∑= == =

    +−=−= N 

    n

     M 

    m

    mnmn

     N 

    n

     M 

    m

    mnmn   y P  x P  y P  x P  y x P  y x P  z  H 1 11 1

    loglog,log,)(

    ( ) ( ) ( ) ( ) ( ) ( ))y()x(

    loglog 1 11 1 H  H 

     y P  x P  x P  y P  x P  x P 

     M 

    m

     N 

    n

    nmm

     N 

    n

     M 

    m

    mnn

    +=

    −−=   ∑ ∑∑ ∑ = == =

  • 8/18/2019 LTTT Slide v1

    59/311

    Trang 59Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Các đặc tính của entropy (tt)4. Xét một biến ngẫu nhiên x có không gian mẫu X = { x1, ..., xn,

     xn+1, ..., x N } và các xác xuất p( xi) = pi. Chúng ta phân X thành

    hai không gian con, Y = { x1, ..., xn} và Z = { xn+1, ..., x N }. Cácxác suất liên k ết vớ i Y và Z  đượ c cho bở i P (Y ) =và P ( Z ) = . Hơ n nữa, chúng ta định ngh ĩ a các biếnngẫu nhiên y và z bằng P ( yi) = P ( xi)/ P (Y ), i = 1, 2, ..., n và P ( z i)

    = P ( xi)/ P ( Z ), i = n+1, n+2, ..., N .  H (x) bây giờ có thể đượ c viếtthành

    =

    ni   i

     p1

     

     N 

    ni   i p

    1

    ∑∑∑+===

    −−=−= N 

    ni

    ii

    n

    i

    ii

     N 

    i

    ii   p p p p p p H 111

    logloglog)x(

    ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )∑∑+==

    +−+−= N 

    ni

    ii

    n

    i

    ii   Z  P  z  P  z  P  Z  P Y  P  y P  y P Y  P 11

    loglogloglog

    )]()()()([)]()log()()log([  z  H  Z  P  y H Y  P  Z  P  Z  P Y  P Y  P    +++−=

  • 8/18/2019 LTTT Slide v1

    60/311

    Trang 60Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Các đặc tính của entropy (tt) Trong biểu thức cuối cặ p ngoặc vuông đầu biểu diễn độ bất ngờ liên k ết

    vớ i thí nghiệm thứ nhất (là chọn một trong hai không gian mẫu Y và Z )còn cặ p ngoặc vuông thứ hai biểu diễn độ bất ngờ trung bình liên k ết vớ i

    thí nghiệm thứ hai (sau khi đã chọn một trong hai không gian mẫu, sẽchọn tiế p sự kiện cơ  bản nào). Công thức này diễn tả một tính chất củaentropy đó là tính chất nhóm.

     Ngườ i ta đã chứng minh đượ c r ằng công thức định ngh ĩ a của

     H (x) là công thức duy nhất phù hợ  p để đo về độ bất ngờ , cái mà phải thoã mãn các tính chất 2,3, 4 và cộng thêm tính liên tục. Mặc dầu hai khái niệm lượ ng tin trung bình và entropy xuất

    hiện một cách độc lậ p và ở trong những l ĩ nh vực khác nhau

    (entropy vốn xuất phát từ việc nghiên cứu các quá trình nhiệtđộng) nhưng chúng có cùng công thức giống nhau. Vì vậychúng ta có thể xem lượ ng tin trung bình của một nguồn chínhlà entropy của nguồn đó.

    Entropy và các dãy của

  • 8/18/2019 LTTT Slide v1

    61/311

    Trang 61Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    một biến ngẫu nhiên Ví dụ

    Xét một biến ngẫu nhiên x có không gian mẫu X = { x1, x2},

     P ( x1) = p1 = 1/3, P ( x2) = 2/3. Thì entropy của x là H (x) = –(1/3) log(1/3) – (2/3) log(2/3) = 0.918295834 bits

    Chúng ta hãy lặ p lại thí nghiệm này N lần để nhận một dãy N  phần tử. Tổng quát có đến 2 N dãy có thể. Nếu trong dãy có n

     phần tử x1 thì xác suất xuất hiện của dãy là p1n(1–  p1) N  – n Có dãy như vậy, nên tổng xác suất của chúng

     bằng

    Bảng bên dướ i trình bày xác suất của các dãy khác nhau đối vớ i N = 15

      !!

    !)(

    n N n

     N  N n

     

     N-nn N 

    n   -p p )1()( 11

    Entropy và các dãy của

  • 8/18/2019 LTTT Slide v1

    62/311

    Trang 62Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    một biến ngẫu nhiên (tt)

    )( N 

    n

    0.0000002 –15x1.5849625011150.1148072 –15x1.051629167643570.0000022

     –15x1.518295834

    15140.1785892 –15x0.984962501

    50056

    0.0000292 –15x1.451629167105130.2143072 –15x0.91829583430035

    0.0002542 –15x1.384962501455120.1948252 –15x0.851629167136540.0015222 –15x1.3182958341365110.1298832 –15x0.7849625014553

    0.0066972 –15x1.2516291673003100.0599462 –15x0.7182958341052

    0.0223242 –15x1.184962501500590.0171272 –15x0.651629167151

    0.0574042 –15x1.118295834643580.0022842 –15x0.58496250110

     P tổng cộng p

    1

    n(1–  p1

    ) N  – n P mỗi dãy

     p1

    n(1–  p1

    ) N  – nSố dãy

    n P tổng cộng

     p1

    n(1–  p1

    ) N  – n P mỗi dãy

     p1

    n(1–  p1

    ) N  – nSố dãy

    n)( N 

    n)( N 

    n)( N 

    n

  • 8/18/2019 LTTT Slide v1

    63/311

    Trang 63Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Nhận xét  Những dãy có xác suất lớ n (dãy có khả năng) là những dãy mà

    có n gần vớ i giá tr ị Np1 = 5, cụ thể là 2 ≤ n ≤ 8. Nói cách khác,

    Xác suất xuất hiện của một dãy mà có n nằm xa giá tr ị Np1 làr ất nhỏ.

    Xsuất riêng của những dãy có khả năng nằm giữa 2 –15×0.718295834

    và 2 –15× 1.118295834, cái mà gần sát vớ i 2 –  N  H (x) = 2 –15×0.918295834. Nói cách khác,

    Tất cả những dãy có khả năng là nhiều hay ít đẳng xác suất vớ ixác suất 2 –  NH (x).

    Số lượ ng tổng cộng các dãy khả năng (2 ≤ n ≤ 8) là 22803 =215× 0.965129067 cái mà không xa so vớ i 2 N  H (x). Nói cách khác,

    Số lượ ng các dãy có khả năng là khoảng 2 NH (x).

  • 8/18/2019 LTTT Slide v1

    64/311

    Trang 64Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Định lý   Định lý 5.1

    Cho các số ε > 0 và δ > 0 nhỏ tuỳ ý, ∃ một số nguyên dươ ng N 0sao cho một dãy có chiều dài bất k ỳ N  ≥ N 0 sẽ r ơ i vào một tronghai lớ  p sau đây:

    (1) Một tậ p các dãy mà có tổng xác suất của chúng nhỏ hơ n

    hoặc bằng ε.(2) Tậ p còn lại bao gồm các dãy có xác suất thoã mãn bất đẳngthức

    vớ i A là một số dươ ng nào đó. Hay nói cách khác,

    δ

     

     H  N 

     p 1log

     N  A NH  N  A NH   p   +−−−

  • 8/18/2019 LTTT Slide v1

    65/311

    Trang 65Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Chứ ng minh định lý Chứng minh cho nguồn r ờ i r ạc không nhớ  A = {a1, a2, ..., a K }.

    Gọi x là biến ngẫu nhiên gắn vớ i nguồn A. Ta có

    Gọi y là biến ngẫu nhiên bằng cách ánh xạ mỗi ai tớ i log p(ai).

    Xét các dãy có chiều dài N . Có tất cả K  N  dãy như vậy. Ta kíhiệu các dãy này bằng các S i và xác suất của dãy là P (S i). Ta có

    trong đó a( j) là kí hiệu thứ j của dãy.

    ∑=−= K 

    k k    a pa p H 1

    )(log)()x(

    ( ) ( ) )x(log1  H a pa p y K 

    i

    ii   =−=   ∑=

    ( )∏== N 

     j

     ji   a pS  P 

    1)()(

  • 8/18/2019 LTTT Slide v1

    66/311

    Trang 66Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Chứ ng minh định lý Gọi z là biến ngẫu nhiên bằng cách ánh xạ mỗi S i tớ i -log P (S i). Chú ý

    Vì vậy z là tổng của N  biến ngẫu nhiên y độc lậ p. Áp dụng luật yếu của số lớ n cho hai số ε > 0 và δ > 0 nhỏ tuỳ ý,

    tồn tại N 0 sao cho vớ i mọi N  ≥ N 0

    hay

    ∑=

    −=− N 

     j

     j

    i   a pS  P 

    1

    )( )(log)(log

     

    ε

    δ

    =

     y y N 

     P  N 

     j

     j

    1

    1

    ( ) εδ)x()(log1

    1

    ≤⎟⎟

     ⎠

     ⎞

    ⎜⎜

    ⎝ 

    ⎛ ≥−⎥

    ⎤⎢⎣

    ⎡−   ∑

    =

     H a p N 

     P  N 

     j

     j

  • 8/18/2019 LTTT Slide v1

    67/311

    Trang 67Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Chứ ng minh định lý (tt) Hay

    Vì vậy chúng ta có thể k ết luận r ằng vớ i xác suất lớ n hơ n 1–  ε

    đối vớ i mọi N  ≥ N 0.

    Từ đây ta suy ra r ằng các dãy đượ c chia thành hai nhóm, mộtnhóm có tổng xác xuất nhỏ hơ n hoặc bằng ε và nhóm thứ hai bao gồm các dãy thoã điều kiện .

    Vì vậy định lý đượ c chứng minh.

     

    ε

    δ

     x H S  P  N 

     P  ilog1

    δ  ≤−− )x()(log1

     H S  P  N 

      i

    δ  ≤− )x()(

    1log1  H S  P  N  i

    Bài 6 Mã hiệu

  • 8/18/2019 LTTT Slide v1

    68/311

    Trang 68Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bài 6 Mã hiệu

    6.1 Giớ i thiệu

    6.2 Mã hiệu và các thông số cơ  bản của mã hiệu

    6.3 Một số phươ ng pháp biểu diễn mã

    6.4 Điều kiện phân tách mã

    Giới thiệu

  • 8/18/2019 LTTT Slide v1

    69/311

    Trang 69Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Giớ i thiệu

    Trong các hệ thống truyền tin, bên nhận thườ ng biết tậ p hợ  p cáctin mà bên phát dùng để lậ p nên các bản tin.

    Các tin thườ ng sẽ đượ c ánh xạ (mã hóa) thành một dạng biểudiễn khác thuận tiện hơ n để phát đi.

    Ví dụ Xét một nguồn tin A = {a, b, c, d }. Chúng ta có thể thiết lậ p

    một song ánh như sau từ A vào tậ p các chuỗi trên bảng chữ cái{0, 1}

    a → 00   c → 10b → 01   d  → 11

    Vậy để phát đi bản tin baba chúng ta phát đi chuỗi 01000100.Khi bên nhận nhận đượ c chuỗi này thì xác định đượ c bản tin bên phát đã phát đi là baba.

    Mã hiệu và những thông số cơ bản

  • 8/18/2019 LTTT Slide v1

    70/311

    Trang 70Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Mã hiệu và nhữ ng thông số cơ  bản

    Mã hiệu (Code), cơ  số mã Mã hiệu là một tậ p hữu hạn các kí hiệu và phép ánh xạ các

    tin/bản tin của nguồn tin thành các dãy kí hiệu tươ ng ứng. Tậ pcác kí hiệu và phép ánh xạ này thườ ng sẽ phải đáp ứng các yêucầu tùy theo hệ thống truyền tin đặt ra.

    Tậ p các kí hiệu mã dùng để biểu diễn đượ c gọi là bảng kí hiệu

    mã, còn số các kí hiệu thì đượ c gọi là cơ  số mã, và thườ ng kíhiệu là m. Nếu mã có cơ  số hai thì gọi là mã nhị phân, còn nếumã có cơ  số ba thì gọi là mã tam phân ...

    Mã hoá (Encoding), giải mã (decoding) Mã hoá là quá trình dùng các kí hiệu mã để biểu diễn các tin

    của nguồn.

    Mã hiệu và những thông số cơ bản (tt)

  • 8/18/2019 LTTT Slide v1

    71/311

    Trang 71Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Mã hiệu và nhữ ng thông số cơ  bản (tt)

     Nói cách khác mã hoá là một phép biến đổi từ nguồn tin thànhmã hiệu, hay mã hoá là phép biến đổi từ một tậ p tin này thànhmột tậ p tin khác có đặc tính thống kê yêu cầu.

    Quá trình ngượ c lại của quá trình mã hoá đượ c gọi là giải mã.

    Từ mã (Code word), bộ mã Từ mã là chuỗi kí hiệu mã biểu diễn cho tin của nguồn. Tậ p tất

    cả các từ mã tươ ng ứng vớ i các tin của nguồn đượ c gọi là bộmã.

    Vì vậy có thể nói mã hoá là một phép biến đổi một–một giữamột tin của nguồn và một từ mã của bộ mã.

    Trong một số tr ườ ng hợ  p ngườ i ta không mã hoá mỗi tin củanguồn mà mã hoá một bản tin hay khối tin. Lúc này chúng ta cókhái niệm mã khối.

  • 8/18/2019 LTTT Slide v1

    72/311

    Mã hiệu và những thông số cơ bản (tt)

  • 8/18/2019 LTTT Slide v1

    73/311

    Trang 73Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Mã hiệu và nhữ ng thông số cơ  bản (tt)

    Một bộ mã đều có cơ  số mã là m, chiều dài từ mã là l và số lượ ng từ mã n bằng vớ i ml thì đượ c gọi là mã đầy, ngượ c lại thìđượ c gọi là mã vơ i.

     Ngoài ra khái niệm mã đầy còn đượ c dùng theo ngh ĩ a r ộng hơ nnhư sau: một bộ mã đượ c gọi là đầy theo một tính chất nào đó(chẳng hạn tính đều hay tính prefix như sau này các bạn sẽthấy) nếu không thể thêm một từ mã nào vào mà vẫn giữ đượ ctính chất đó.

    Ví dụ Cho bảng kí hiệu mã A = {0, 1}. Thì bộ mã X 1 = {0, 10, 11} là

    mã không đều, bộ mã X 2 = {00, 10, 11} là mã đều nhưng vơ icòn bộ mã X 3 = {00, 01, 10, 11} là mã đều và đầy.

    Một số phương pháp biểu diễn mã

  • 8/18/2019 LTTT Slide v1

    74/311

    Trang 74Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Một số phươ ng pháp biểu diễn mã

    Bảng đối chiếu mã Là cách liệt kê các tin của nguồn và từ mã tươ ng ứng trong một

     bảng.

    Mặt toạ độ mã Là cách biểu diễn mỗi từ mã w = a0a1…al -1 bằng một điểm (l ,

    b) trong mặt phẳng toạ độ hai chiều, trong đó l là chiều dài từ

    mã còn b là tr ọng số của từ mã đượ c tính như sau vớ i m là cơ  sốmã

    1111101001101000Từ mã

    a6a5a4a3a2a1Tin

    =

    =

    1

    0

    i

    ii mab

    Một số phương pháp biểu diễn mã (tt)

  • 8/18/2019 LTTT Slide v1

    75/311

    Trang 75Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Một số phươ ng pháp biểu diễn mã (tt)

    Ví dụ

    1111101001101000Từ mãa6a5a4a3a2a1Tin

    1

    2

    3

    4

    5

    67

    b

    1 2 3 4   l 0   a1

    a4

    a2

    a5

    a3

    a6

    731620Tr ọng số b

    332332Chiều dài l 

    1111101001101000Từ mãa6a5a4a3a2a1Tin

    Một số phương pháp biểu diễn mã (tt)

  • 8/18/2019 LTTT Slide v1

    76/311

    Trang 76Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Một số phươ ng pháp biểu diễn mã (tt)

    Cây mã Là cách biểu diễn các từ mã bằng các nút lá của một cây. Mỗi

    nút lá biểu diễn cho từ mã trùng vớ i nhãn của con đườ ng đi từnút gốc đến nút lá này.

    Mã có cơ  số m thì cây mã tươ ng ứng sẽ là cây m phân. Phươ ng pháp cây mã chỉ cho phép biểu diễn những mã prefix,

    tức là không có từ mã nào trùng vớ i phần đi đầu của một từ mãkhác.

    0

    00

    0 1

    0 1

    0 1

    1

    0 110

    010 011 110 111

    Một số phương pháp biểu diễn mã (tt)

  • 8/18/2019 LTTT Slide v1

    77/311

    Trang 77

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Một số phươ ng pháp biểu diễn mã (tt)

      Đồ hình k ết cấu mã Là một dạng đặc biệt của cây mã, trong đó các nút lá trùng vớ i

    nút gốc và ngoài ra mỗi cạnh của đồ hình k ết cấu mã đều làcạnh có hướ ng. Vì vậy một từ mã đượ c biểu diễn bằng một chutrình xuất phát từ nút gốc và quay tr ở về lại nút gốc.

    Hàm cấu trúc mã Là cách biểu diễn sự phân bố các từ mã theo độ dài của chúng.

    Phươ ng pháp này biểu diễn bằng một hàm G(l i) cho biết có baonhiêu từ mã có chiều dài l i.

    00

    10,1

    1

    10,1

    0

    Một số phươ ng pháp biểu diễn mã (tt)

  • 8/18/2019 LTTT Slide v1

    78/311

    Trang 78

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    ộ số p ươ g p p b ểu d ễ ( )

    Ví dụ Bộ mã trong các ví dụ trên đượ c biểu diễn bằng hàm cấu trúc

    mã sau đây G(l i) = 2, khi l i = 24, khi l i = 3

    Điều kiện phân tách mã

  • 8/18/2019 LTTT Slide v1

    79/311

    Trang 79

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    ệ p

    Ví dụ Xét bộ mã X 1 = {0, 10, 11} mã hoá cho nguồn A = {a, b, c}.

    Giả sử bên phát phát đi bảng tin x = abaac, lúc đó chuỗi từ mãtươ ng ứng đượ c phát đi là y = 0100011. Vấn đề là bên nhận sau khi nhận đượ c chuỗi từ mã y làm sao có

    thể nhận biết đượ c bảng tin tươ ng ứng mà bên phát đã phát.   Để làm đượ c điều này, bên nhận phải thực hiện một quá trìnhđượ c gọi là tách mã. Chẳng hạn vớ i chuỗi kí hiệu mã nhận đượ c

    như trên thì bên nhận chỉ có một khả năng để tách mã hợ  p lý là0 | 10 | 0 | 0 | 11 và xác định đượ c bảng tin đã đượ c gở i đi là

    abaac.

  • 8/18/2019 LTTT Slide v1

    80/311

    Điều kiện phân tách mã (tt)

  • 8/18/2019 LTTT Slide v1

    81/311

    Trang 81

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    ệ p ( )

    Xét một bộ mã khác X 3 = {010, 0101, 10100} mã hoá chonguồn A trên. Giả sử bên nhận nhận đượ c chuỗi kí hiệu là01010100101 và thực hiện quá trình tách mã. Ở đây ta thấy chỉcó một cách tách mã duy nhất là 0101 | 010 | 0101 nhưng việctách mã tr ở nên khó khăn hơ n so vớ i bộ mã X 1.

    Chẳng hạn lúc chúng ta gặ p chuỗi 010 chúng ta chưa dám chắcđó l à một từ mã vì nó có thể là phần đi đầu của từ mã 0101,điều này phụ thuộc vào kí hiệu đi ngay sau chuỗi 010.

     Nếu kí hiệu đi ngay sau là 0 thì chúng ta khẳng định đượ c 010là từ mã và 0 là phần đi đầu của một từ mã khác sau đó. Cònnếu kí hiệu đi ngay sau là 1 thì chúng ta không khẳng địnhđượ c, vì có hai khả năng hoặc 010 là một từ mã và 1 là phàn điđầu của một từ mã khác sau đó, hoặc 0101 là một từ mã.

    Điều kiện phân tách mã (tt)

  • 8/18/2019 LTTT Slide v1

    82/311

    Trang 82

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    ệ p ( )

     Nguyên nhân của điều này là do trong bộ mã có một từ mã nàylà tiế p đầu ngữ của một từ mã khác.

    Và đó cũng chính là nguyên nhân và bản chất của việc một dãykí hiệu có thể tách thành hai dãy từ mã khác nhau.

    Thật vậy, nếu không có từ mã nào là tiế p đầu ngữ của từ mãkhác (hay mã là prefix) thì vớ i mỗi dãy từ mã chỉ có duy nhất

    một cách tách thành các từ mã thành phần. Vì vậy như sau nàychúng ta sẽ thấy các mã thườ ng đượ c sử dụng là các mã prefix. Dựa vào tính tiế p đầu ngữ trên, để nhận biết một bộ mã (d ĩ 

    nhiên không phải là mã prefix) có phân tách đượ c hay không

    ngườ i ta thườ ng dùng một công cụ đượ c gọi là bảng thử mã.

    Bảng thử mã

  • 8/18/2019 LTTT Slide v1

    83/311

    Trang 83

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Bản chất của bảng thử mã là phân tích những từ mã dài thànhnhững từ mã ngắn đi đầu.

    Chẳng hạn từ mã dài u1

    có thể đượ c phân tích thànhv11v12...v1k w11 trong đó v11, .., v1k là các từ mã ngắn còn w11 là phần còn lại của u1.

     Nếu w11 cũng là một từ mã thì bộ mã này là không phân tách

    đượ c vì chuỗi v11v12...v1k w11 có ít nhất hai cách phân tách thànhcác từ mã, đó là u1 và v11, v12, ..., v1k , w11. Còn nếu ngượ c lại w11 không là từ mã thì chúng ta dùng nó để

    xét tiế p. Trong lần xét tiế p theo chúng ta xét xem mỗi w11 này

    có là tiế p đầu ngữ của các từ mã hay không, nếu đúng vớ i mộttừ mã nào đó, giả sử là u2, thì từ mã này sẽ có dạngw11v21...v2l w22 trong đó v21, ..., v2l là các từ mã ngắn (l có thể bằng 0) còn w22 là tiế p v ĩ ngữ còn lại.

    Bảng thử mã (tt)

  • 8/18/2019 LTTT Slide v1

    84/311

    Trang 84

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Tươ ng tự nếu w22 cũng là một từ mã thì bộ mã là không phântách đượ c vì chuỗi v11v12...v1k w11v21...v2l w22 có ít nhất hai cách phân tách thành các từ mã, đó là v11v12...v1k w11 | v21 | ... | v2l  |w22, và v11 | v12 | ... | v1k  | w11v21...v2l w22.

     Nếu ngượ c lại w22 không là từ mã thì chúng ta dùng nó để xéttiế p theo khuôn mẫu tươ ng tự như trên. Vì vậy chúng ta k ếtluận r ằng

     Nếu trong một lần phân tích nào đó, có một từ mã dài, chẳnghạn u, đượ c phân tích thành dãy wiiv(i+1)1...v(i+1)n trong đó wii làtiế p v ĩ ngữ của một từ mã nào đó trong lần phân tích ngay tr ướ cđó, còn v

    (i+1)1

    , ..., v(i+1)n

    là các từ mã ngắn thì bộ mã là không phân tách đượ c.

    Bảng thử mã (tt)

  • 8/18/2019 LTTT Slide v1

    85/311

    Trang 85

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Thật vậy, lúc đó sẽ tồn tại một dãy kí hiệu sauv11v12...v1k w11v21...v2l w22 . . .w(i –1)(i –1)vi1...vimwiiv(i+1)1...v(i+1)n

    cái mà có thể phân tách thành hai dãy từ mã khác nhau. Cách 1 là

    v11 | v12 | ... | v1k  | w11v21...v2l w22 | . . . | w(i –1)(i –1)vi1...vimwii | v(i+1)1 |... | v(i+1)n

    Cách 2 làv11v12...v1k w11 | v21 | ... | v2l  | w22 ...w(i –1)(i –1) | vi1 | . . . | vim |wiiv(i+1)1...v(i+1)n

    Cách xây dự ng bảng thử mã

  • 8/18/2019 LTTT Slide v1

    86/311

    Trang 86

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    (1) Đem các từ mã xế p thành một cột, theo thứ tự chiều dài của từmã từ nhỏ đến lớ n, đánh dấu là cột 1.

    (2) Trong cột này, đối chiếu các từ mã ngắn vớ i các từ mã dàihơ n, nếu từ mã ngắn là tiế p đầu ngữ của từ mã dài thì ghi tiế pv ĩ ngữ vào cột tiế p theo và đánh dấu là cột 2.

    (3) Tiế p tục, đối chiếu các chuỗi trong cột 1 và cột 2 vớ i nhau,

    nếu có chuỗi nào trong cột này là tiế p đầu ngữ của chuỗi trongcột kia thì tiế p v ĩ ngữ sẽ đượ c ghi vào cột tiế p theo là cột 3.(4) Tiế p tục theo khuôn mẫu này nếu đang xét cột thứ  j thì đối

    chiếu các chuỗi trong cột này vớ i cột 1. Nếu có chuỗi nào

    trong cột này là tiế p đầu ngữ của chuỗi trong cột kia thì tiế p v ĩ ngữ sẽ đượ c ghi vào cột j + 1. Thực hiện cho đến khi khôngthể điền thêm đượ c nữa hoặc cột mớ i thêm vào trùng vớ i mộtcột tr ướ c đó hoặc có một chuỗi trong cột mớ i trùng vớ i một từmã.

    Bảng thử mã (tt)

  • 8/18/2019 LTTT Slide v1

    87/311

    Trang 87

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Ví dụ Lậ p bảng thử mã cho bộ mã như đã nói ở trên A = {00, 01, 011,

    1100, 00010}

    00010

    1100

    01101

    00

    54321

    010

    1

    0

    100

    0

    111

    0010 0010

    0

    111

    10000

    10

    Mã là không phân tách đượ ctrên chuỗi 000101100 vì có hai

    cách phân tách khác nhau

    00 | 01 | 011 | 00

    00010 | 1100

    Bảng thử mã (tt)

  • 8/18/2019 LTTT Slide v1

    88/311

    Trang 88

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

      Điều kiện cần và đủ để một bộ mã phân tách đượ c là không có phần tử nào trong các cột từ j ≥ 2 trùng vớ i một phần tử trongcột 1.

      Độ chậm giải mã   Độ chậm giải mã, thườ ng kí hiệu là T ch, là số kí hiệu cần phải

    nhận đượ c đủ để có thể phân tách (nhận dạng) đượ c từ mã.

    Trong tr ườ ng hợ  p không có chuỗi nào trong các cột j ≥ 2 trùngvớ i từ mã nhưng có hai cột k , l nào đó (k  ≠ l , k , l  ≥ 2 ) trùngnhau thì mã là phân tách đượ c nhưng có độ chậm giải mã vôhạn.

    Bảng thử mã (tt)

  • 8/18/2019 LTTT Slide v1

    89/311

    Trang 89

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Xét bộ mã {01, 10, 011, 100} có bảng thử mã như sau:

    Bảng thử mã này có các cột 3 và 4 trùng nhau về các chuỗi nên bộ mã có độ chậm giải mã trong tr ườ ng hợ  p xấu nhất là vô hạn.

    Chẳng hạn vớ i chuỗi có dạng sau đây thì trong quá trình nhậnchưa hết chuỗi chúng ta không thể thực hiện đượ c việc tách mã:0110101010...

    0011100

    01011

    110001010101

    4321

    Bài tập

  • 8/18/2019 LTTT Slide v1

    90/311

    Trang 90

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Hãy lậ p bảng thử mã cho những bộ mã sau. Cho biết mã có phân tách đượ c không, nếu đượ c thì độ chậm giải mã (trongtr ườ ng hợ  p xấu nhất) là bao nhiêu.

    X1 = {00, 01, 100, 1010, 1011}

    X2 = {00, 01, 101, 1010}

    X3

    = {00, 01, 110, 111, 1100}

    X4 = {00, 01, 110, 111, 1110}

    X5 = {00, 01, 110, 111, 0111}

    X6 = {00, 01, 110, 111, 1011, 1101}

    Bất đẳng thứ c Kraft

  • 8/18/2019 LTTT Slide v1

    91/311

    Trang 91

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

      Định lý 6.1 Cho l 1, l 2, ..., l  K là các chiều dài của một bộ mã prefix có bảng

    kí hiệu mã kích thướ c m (tức gồm m kí hiệu mã). Thì

     Ngượ c lại, nếu các số nguyên l 1, l 2, ..., l  K thoã bất đẳng thứctrên thì tồn tại một bộ mã prefix vớ i các từ mã có chiều dài là l 1,l 2, ..., l  K .

    Chứng minhChiều thuận

    Gọi T là cây mã tươ ng ứng vớ i bộ mã trên

    11

    =

     

     K 

    i

    il m

    Bất đẳng thứ c Kraft

  • 8/18/2019 LTTT Slide v1

    92/311

    Trang 92

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

     Nút lá ở mức l i sẽ đượ c gán tr ọng số là m-li. Tr ọng số của mỗi nút cha đượ c tính bằng tổng tr ọng số của các

    nút con. Vớ i cách gán này, chúng ta suy ra tr ọng số của nút cha ở mức h

    là ≤ m-h.   Điều này đúng là vì mỗi nút cha mức h có tối đa m nút con mức

    h + 1.

    Mức 0 Gốc

    Mức 1

    Mức 2Mức 3m-3 m-3 m-3 m-3 m-3

    m-2m-2m-2m-2m-2m-2

    Bất đẳng thứ c Kraft (tt)

  • 8/18/2019 LTTT Slide v1

    93/311

    Trang 93

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Từ đây suy ra, tr ọng số của nút gốc là ≤ 1. Mà tr ọng số của nút gốc chính là tổng tr ọng số của các nút lá.

    Vậy suy ra điều cần chứng minh.Chiều đảo

    Chúng ta chứng minh bằng cách xây dựng một cây mã cho nó.

      Điều này là thực hiện đượ c theo như chứng minh của chiềuthuận.

    Ví dụ

    Tìm bộ mã prefix cho các bộ mã nhị phân có các chiều dài từ mã tươ ng ứng như sau.

    {2, 2, 3, 4, 4}, {2, 2, 3, 3, 3, 4, 4}, {2, 2, 3, 4, 4, 4, 5, 5}

    Định lý

  • 8/18/2019 LTTT Slide v1

    94/311

    Trang 94

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

      Định lý 6.2 Một mã phân tách đượ c thì có các chiều dài từ mã thoã mãn bất

    đẳng thức Kraft.

    Chứng minh Gọi l 1 ≤ l 2 ≤ ... ≤ l  K là các chiều dài từ mã vớ i cơ  số là m. Vớ i số nguyên N  bất k ỳ ta có thể viết

    11

    =

     

     K 

    i

    il m

    ( )∑∑∑ =++−

    ==

    − =⎟ ⎠ ⎞⎜

    ⎝ ⎛ 

      K 

    i

    l l 

     K 

    i

     N  K 

    i

     N 

     N iii mm111

    1

    1

    LL

    Định lý 6.2 (tt)

  • 8/18/2019 LTTT Slide v1

    95/311

    Trang 95

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Chú ý là chiều dài của một dãy N từ mã và có thểnhận giá tr ị bất k ỳ giữa Nl 1 và Nl  K . Gọi A j là số dãy N từ mã màcó tổng chiều dài là j. Thì

    Vì bộ mã là phân tách đượ c, nên các dãy N từ mã mà có tổngchiều dài là j phải khác nhau.

    Số các dãy có chiều dài j tối đa là m j. Vì vậy A j ≤ m j và

     N ii  l l    ++ L

    1

    ∑∑=

    =

    − =⎟ ⎠

     ⎞⎜⎝ 

    ⎛    K i

     Nl 

     Nl  j

     j

     j

     N  K 

    i

    l m Am

    11

    ( ) 111 1

    +−=≤⎟ ⎠ ⎞⎜

    ⎝ ⎛  ∑∑

    =

    =

    −l l  N mmm  K 

     Nl 

     Nl  j

     j N  K 

    i

    l  K 

     ji

    Chứ ng minh định lý (tt)

  • 8/18/2019 LTTT Slide v1

    96/311

    Trang 96

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

     Nếu

    Thì vớ i N  đủ lớ n sẽ lớ n hơ n

    Vì vậy chúng ta có đượ c điều cần chứng minh.

    K ết hợ  p hai định lý trên chúng ta rút ra một nhận xét sau.  Nếu một mã phân tách đượ c thì tồn tại một bộ mã tươ ng đươ ng

    về chiều dài các từ mã mà có tính prefix.

     N  K 

    i

    l im   ⎟ ⎠

     ⎞⎜⎝ 

    ⎛ ∑=

    1

    ( ) 11   +− l l  N   K 

    11

    >∑=

    − K 

    i

    l im

    11

    ≤∑=

    − K 

    i

    l im

  • 8/18/2019 LTTT Slide v1

    97/311

    Các định lý về giớ i hạn trên và dướ i củachiều dài trung bình

  • 8/18/2019 LTTT Slide v1

    98/311

    Trang 98

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

      Định lý 7.1 Cho nguồn tin X = {a1, ..., a K } vớ i các xác suất tươ ng ứng p1,

    ..., p K . Một bộ mã phân tách đượ c bất k ỳ cho nguồn này vớ i cơ  số mã m, chiều dài trung bình từ mã sẽ thõa (trong đó H (X) làentropy của nguồn vớ i cơ  số của logarit là m).

    Chứng minh

    ( )m

     H 

    l  log

    X

    ∑∑∑=

    ==

    =−−=− K 

    i   i

    i

     K 

    i

    ii

     K 

    i

    ii p

    m pml  p p pml  X  H 

    i

    111

    lnlnlnln)(

    0111111

    =−≤−⎟ ⎠

     ⎞⎜⎝ 

    ⎛ =⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ −≤   ∑∑

    =

    =

    −   K 

    i

    l  K 

    i   i

    ii

    i

    m p

    m p

    Các định lý về giớ i hạn trên và dướ i củachiều dài trung bình (tt)

    −l m i

  • 8/18/2019 LTTT Slide v1

    99/311

    Trang 99

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Chú ý dấu “=” xảy ra khi và chỉ khi , tức là

      Định lý 7.2 Cho nguồn tin X = {a1, ..., a K } vớ i các xác suất tươ ng ứng p1,

    ..., p K , có thể xây dựng một mã prefix vớ i cơ  số m sao cho

    Chứng minh Chọn chiều dài l i của từ mã cho tin ai theo qui tắc

    Chúng ta có

    ( )1

    log

    X+<

    m

     H l 

    1=i p

    m   iil 

    i   m p  −=

    ⎡ ⎤i pmil  log−=

    111

    =≤⇒   ∑∑==

    − K 

    i

    i

     K 

    i

    l  pm   i

    ⎡ ⎤  i

    l  p

    mi

     p

    mi   pml l   iii

    ≤⇒−≥⇒−=  −

    loglog

    Chứ ng minh định lý (tt)

  • 8/18/2019 LTTT Slide v1

    100/311

    Trang 100

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Vì các chiều dài đượ c chọn này thoã bất đẳng thức Kraft nêntồn tại một mã prefix tươ ng ứng có các chiều dài này.

    Tiế p tục chúng ta có

      Điều này hoàn tất chứng minh của chúng ta.

    ⎡ ⎤ 1loglog   +−

  • 8/18/2019 LTTT Slide v1

    101/311

    Trang 101

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Có thể mã hoá một nguồn mà có chiều dài trung bình tiế p cậnđến

    vớ i sai số nhỏ tuỳ ý. Chúng ta thực hiện điều này bằng cách mã hoá các dãy N tin

    của nguồn X = {a1, ..., a K } theo Định lý 7.2.

    Lúc này chúng ta có nguồn mớ i vớ i kích thướ c là K  N , mỗi phần

    tử là một dãy của N  tin đượ c lấy độc lậ p từ nguồn X. Entropy của nguồn mớ i này là NH ( X ) và chiều dài trung bình

    các từ mã của nó theo định ngh ĩ a sẽ là N lần chiều dài trung

     bình các từ mã của nguồn ban đầu, . Áp dụng Định lý 7.1 và Định lý 7.2 đối vớ i nguồn mớ i chúng ta

    ( )m

     H 

    log

    X

    Hệ quả (tt)

    Á ố ồ

  • 8/18/2019 LTTT Slide v1

    102/311

    Trang 102

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Áp dụng Định lý 7.1 và Định lý 7.2 đối vớ i nguồn mớ i ta có

    Vì N có thể lớ n tuỳ ý, nên tiế p cận đến H ( X ) / log m vớ i tốcđộ tươ ng đươ ng vớ i 1/ N tiến đến 0 khi N tiến ra vô cùng.

      Để đánh giá một phươ ng pháp mã hoá nào đó l à tốt hay khôngngườ i ta đưa ra khái niệm hiệu suất lậ p mã.

    Hiệu suất lậ p mã Hiệu suất lậ p mã h đượ c định ngh ĩ a bằng tỉ số của entropy của

    nguồn vớ i chiều dài trung bình của bộ mã đượ c lậ p

    ( ) ( )1

    log

    X

    log

    X+

  • 8/18/2019 LTTT Slide v1

    103/311

    Trang 103

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Là phép mã hóa mà k ết quả là một bộ mã có chiều dài trung bình là nhỏ nhất trong tất cả các phép mã hóa có thể có chonguồn.

    Bộ mã của phép mã hóa tối ưu cho nguồn đượ c gọi là bộ mã tốiưu.

    Ba phép mã hóa: Shannon, Fano, Huffman.

    Trong mỗi phép mã hóa chúng ta sẽ mã hóa vớ i cơ  số mã m = 2 tr ướ c (mã hóa nhị phân), sau đó sẽ mở r ộng cho tr ườ ng hợ  p m> 2.

    Phươ ng pháp mã hoá Shannon

    ắ ế ấ ầ ấ ổ

  • 8/18/2019 LTTT Slide v1

    104/311

    Trang 104

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    B1. Sắ p xế p các xác suất theo thứ tự giảm dần. Không mất tổngquát giả sử p1 ≥ ... ≥ p K .

    B2. Định ngh ĩ a q1 = 0, qi = , ∀ i = 1, 2, ..., K .

    B3. Đổi qi

     sang cơ  số 2, (biểu diễn qi

     trong cơ  số 2) sẽ đượ c mộtchuỗi nhị phân

    B4. Từ mã đượ c gán cho ai là l i kí hiệu lấy từ vị trí sau dấu phẩy

    của chuỗi nhị phân tươ ng ứng vớ i qi, trong đó l i =

    ∑−=

    1

    1

    i

     j

     j p

    ⎡ 

    i p2log

    Ví dụ

    Hã ã h á ồ S { } ới á á ấ

  • 8/18/2019 LTTT Slide v1

    105/311

    Trang 105

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6} vớ i các xác suấtlần lượ t là 0,3; 0,25; 0,2; 0,12; 0,08; 0,05.

    H = 2.36, = 2,75, h = 2,36/2,75 = 85,82%

    ∑−

    ==

    1

    1

    i

     j

     ji   qq ⎡ ⎤ii   pl  2log−=

    1111050,111100...0,950,05a6

    110140,11011...0,870,08a5

    110040,11000...0,750,12a4

    10030,10001...0,550,2a3

    0120,01001...0,30,25a2

    0020,0000,3a1

    Từ mãwiBiểu diễnnhị phânXác suất piTinai

    Nhận xét - Bài tập

    Ph há Sh h kết ả là ột ã fi

  • 8/18/2019 LTTT Slide v1

    106/311

    Trang 106

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Phươ ng pháp Shannon cho k ết quả là một mã prefix. Phươ ng pháp Shannon có thể mở r ộng cho tr ườ ng hợ  p m > 2

    Bài tậ p Hãy mã hoá các nguồn sau bằng phươ ng pháp Shannon. Tính

    entropy của nguồn, chiều dài trung bình và hiệu suất của phépmã hóa.

      S 1 = {a1, a2, a3, a4, a5, a6} vớ i các xác suất lần lượ t là 0,25;0,21; 0,19; 0,16; 0,14; 0,05.   S 2 = {a1, a2, a3, a4, a5, a6 , a7, a8} vớ i các xác suất lần lượ t là

    0,21; 0,18; 0,15; 0,14; 0,12; 0,01; 0,06 ; 0,04.   S 3 = {a1, a2, a3, a4, a5, a6 , a7, a8 , a9} vớ i các xác suất lần lượ t

    là 0,25; 0,19; 0,15; 0,11; 0,09; 0,07; 0,06; 0,04; 0,04.

  • 8/18/2019 LTTT Slide v1

    107/311

  • 8/18/2019 LTTT Slide v1

    108/311

    Chú ý

    Chú ý trong nhiều trường hợp có nhiều hơn một cách chia

  • 8/18/2019 LTTT Slide v1

    109/311

    Trang 109

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    Chú ý, trong nhiều tr ườ ng hợ  p có nhiều hơ n một cách chiathành các nhóm có tổng xác suất gần bằng nhau, ứng vớ i mỗicách chia có thể sẽ cho ra các bộ mã có chiều dài trung bìnhkhác nhau.

    Ví dụ Hãy mã hoá nguồn S = {a1, a2, a3, a4, a5, a6, a7, a8} vớ i các xác

    suất lần lượ t là 0,23; 0,2; 0,14; 0,12; 0,1; 0,09; 0,06; 0,06.

    Ví dụ

    4321 4321

  • 8/18/2019 LTTT Slide v1

    110/311

    Trang 110

    Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin

    = 2,88, = 2,891l 

    wi4321 piai

    111111110,06a8

    111001110,06a7

    110110110,09a6110000110,1a5

    1011010,12a4

    1000010,14a301100,2a2

    00000,23a1

    wi4321 piai

    111111110,06a8

    111001110,06a7

    1100110,09a61011010,1a5

    1000010,12a4

    0111100,14a30100100,2a2

    00000,23a1

    2l 

  • 8/18/2019 LTTT Slide v1

    111/311

    Phươ ng pháp mã hoá tối ư u Huffman

    Trước hết xét cơ số mã m = 2 Trường hợp m > 2 chún