Báo cáo MẬT MÃ VÀ AN TOÀN DỮ LIỆU NÉN DỮ LIỆU Nén dữ liệu nhằm làm giảm lượng thông tin “dư thừa” trong dữ liệu gốc và do vậy, lượng thông tin thu được sau khi nén thường nhỏ hơn dữ liệu gốc rất nhiều. Tỷ lệ nén là một trong các đặc trưng quan trọng nhất của mọi phương pháp nén.
Trang 1MẬT MÃ VÀ
AN TOÀN DỮ LIỆU
Học viên: Trần Viết Hùng
Giảng viên: Trịnh Nhật Tiến
Chủ đề: Phân loại các Phương pháp Nén tin
số (Nén dữ liệu: Data Compression)
Trang 2NÉN DỮ LIỆU
• Nén dữ liệu nhằm làm giảm lượng
thông tin “dư thừa” trong dữ liệu gốc
và do vậy, lượng thông tin thu được sau khi nén thường nhỏ hơn dữ liệu gốc rất nhiều
• Tỷ lệ nén là một trong các đặc trưng quan trọng nhất của mọi phương pháp nén
Trang 3CÁC LOẠI DƯ THỪA DỮ LIỆU
Có 4 kiểu dư thừa chính
• Sự phân bố ký tự
• Sự lặp lại của các ký tự
• Độ dư thừa vị trí
Trang 4PHÂN LOẠI PHƯƠNG PHÁP NÉN
Có nhiều cách phân loại các phương pháp nén khác nhau.
nén Cách này phân các phương pháp nén thành hai họ lớn:
• Nén chính xác hay nén không mất thông tin
• Nén có mất thông tin
Trang 5PHÂN LOẠI PHƯƠNG PHÁP NÉN
• Cách phân loại thứ hai dựa vào cách thức thực hiện nén Theo cách này, người ta cũng phân thành hai họ:
• Phương pháp không gian (Spatial Data Compression)
• Phương pháp sử dụng biến đổi (Transform Coding)
Trang 6PHÂN LOẠI PHƯƠNG PHÁP NÉN
• Có một cách phân loại khác nữa, cách phân loại thứ ba, dựa vào triết lý của sự mã hóa Cách này cũng phân các phương pháp nén thành hai họ:
• Các phương pháp nén thế hệ thứ nhất:
– Mã hóa loạt dài RLC (Run Length Coding) – Mã hóa Huffman
– Mã hóa LZW (Lempel Ziv-Wench) – Mã hóa khối (Block Coding)
• Các phương pháp nén thế hệ thứ hai, có thể phân thành hai lớp nhỏ:
– Lớp phương pháp sử dụng các phép toán cục
bộ để tổ hợp đầu ra theo cách thức hợp lý và – Lớp phương pháp sử dụng biểu diễn ảnh
Trang 7Mã hóa Huffman
• Phương pháp mã hóa Huffman là phương pháp dựa vào mô hình thông kê Dựa vào
dữ liệu gốc, người ta tính tần suất xuất hiện của các ký tự
• Việc tính tần suất được thực hiện bởi cách duyệt tuần tự tệp gốc từ đầu đến cuối
• Việc xử lý ở đây tính theo bit
• Trong phương pháp này người ta gán cho các ký tự có tần suất cao một từ mã ngắn, các ký tự có tần suất thấp từ mã dài
Trang 8Mã hóa Huffman
• Thuật toán: Thuật toán bao gồm 2 bước
chính
– Giai đoạn thứ nhất: tính tần suất của các ký tự trong dữ liệu gốc.
– Giai đoạn thứ hai: mã hóa: duyệt bảng tần suất
từ cuối lên đầu để thực hiện ghép 2 phần tử có tần suất xuất hiện thấp nhất thành một phần tử duy nhất Phần tử này có tần suất bằng tổng 2 tần suất thành phần Tiến hành cập nhật lại bảng
và đương nhiên loại bỏ 2 phần tử đã xét Quá trình được lặp lại cho đến khi bảng chỉ có một phần tử Quá trình này gọi là quá trình tạo cây
mã Huffman vì việc tập hợp được tiến hành nhờ một cây nhị phân 2 nhánh Phần tử có tần suất thấp ở bên phải, phần tử kia ở bên trái
Trang 9KẾT LUẬN
• Mỗi phương pháp nén đều có những ưu điểm và nhược điểm Tính hiệu quả của phương pháp không chỉ phụ thuộc vào tỉ
số nén mà còn vào nhiều chỉ tiêu khác như: độ phức tạp tính toán, nhạy cảm với nhiễu, chất lượng, kiểu ảnh, v.v…
• Nén là một vấn đề lớn được quan tâm nhiều và có liên quan đến nhiều lĩnh vực khác nhau
Trang 10SO SÁNH CÁC PHƯƠNG PHÁP NÉN