Kỹ thuật mã hóa và nén tín hiệu âm thanh ứng dụng trong truyền hình số Kỹ thuật mã hóa và nén tín hiệu âm thanh ứng dụng trong truyền hình số Kỹ thuật mã hóa và nén tín hiệu âm thanh ứng dụng trong truyền hình số luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN THỊ LIÊN
KỸ THUẬT MÃ HÓA VÀ NÉN TÍN HIỆU ÂM THANH
ỨNG DỤNG TRONG TRUYỀN HÌNH SỐ
LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT VIỄN THÔNG
Hà Nội – Năm 2016
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN THỊ LIÊN
KỸ THUẬT MÃ HÓA VÀ NÉN TÍN HIỆU ÂM THANH
ỨNG DỤNG TRONG TRUYỀN HÌNH SỐ
Chuyên ngành: KỸ THUẬT VIỄN THÔNG
LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT VIỄN THÔNG
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS PHẠM VĂN BÌNH
Hà Nội – Năm 2016
Trang 3LỜI MỞ ĐẦU
1 Lý do chọn đề tài
Sự phát triển trong ngành khoa học kỹ thuật từ sản xuất các thiết bị âm thanh chuyên dụng và dân dụng đều dựa trên công nghệ số Khi dung lượng lưu trữ và độ rộng kênh truyền số liệu được quan tâm đúng mức, tốc độ dòng dữ liệu của các tín hiệu âm thanh này sẽ có đủ độ lớn để giữ lại mức âm thanh trung thực Tuy nhiên, một khó khăn gặp phải đó là thời gian lưu trữ và giá thành của thiết bị sẽ tăng cao
Do đó, để giảm giá thành và tốc độ lưu trữ số liệu, một phương pháp đưa ra là nén dòng số liệu âm thanh số
Nguyên tắc chính của các kỹ thuật nén hiện nay là giảm thông tin dư thừa và không cần thiết trong các tín hiệu âm thanh Trong thực tế, tùy theo mục đích khác nhau ta phải giải quyết mâu thuẫn giữa tỷ lệ nén và chất lượng âm thanh sao cho vẫn đảm bảo về tiêu chuẩn Chính vì vậy, các vấn đề về nén và mã hóa tín hiệu âm thanh trong các thiết bị xử lý, lưu trữ truyền dẫn là vấn đề đặc biệt được quan tâm đối với ngành truyền thông nói chung và ngành truyền hình nói riêng Xuất phát từ
lý do đó, tôi chọn đề tài: “ Kỹ thuật mã hóa và nén tín hiệu âm thanh ứng dụng
trong truyền hình số” cho luận văn của mình
2 Mục đích nghiên cứu của luận văn
- Hiểu rõ lý thuyết về âm thanh
- Hiểu rõ cơ sở lý thuyết về số hóa tín hiệu
- Các kỹ thuật mã hóa và nén tín hiệu âm thanh
- Các kỹ thuật nén âm thanh MP3 và AAC
3 Phương pháp nghiên cứu
- Nghiên cứu các kỹ thuật nén dữ liệu như: kỹ thuật mã hóa Huffman, kỹ thuật nén LZW (Lempel - Zip và Welch)…
- Nghiên cứu các phương pháp nén dữ liệu như nén bảo toàn dữ liệu (lossless data compression) và nén mất mát dữ liệu (lossy data compression)
- Nghiên cứu kỹ về kỹ thuật nén MP3 và ACC
Trang 4- Đánh giá hiệu quả các kỹ thuật nén âm thanh MP3 và AAC trong truyền hình số
4 Nội dung của luận văn gồm 4 chương, trình bày lần lượt các vấn đề sau:
- Chương I: Trình bày kiến thức cơ sở về âm thanh: đặc điểm của sóng âm
thanh, việc chuyển tín hiệu âm thanh tương tự sang tín hiệu âm thanh số
- Chương II: Các kỹ thuật mã hóa và nén âm thanh
- Chương III: Kỹ thuật mã hóa âm thanh MP3 và AAC
- Chương IV: Thực nghiệm và đánh giá kết quả kỹ thuật mã hóa MP3 và
AAC
Để hoàn thành được luận văn này, em đã được học hỏi những kiến thức vô cùng quý báu từ các thầy, cô giáo trong trường Đại học Bách Khoa Hà Nội trong suốt năm năm học đại học và hơn một năm học cao học vừa qua Em vô cùng biết
ơn sự dạy dỗ, chỉ bảo tận tình của các thầy, các cô trong thời gian học tập và nghiên cứu tại trường
Em đặc biệt bày tỏ lòng biết ơn tới thầy PGS.TS Phạm Văn Bình – Viện
Điện Tử Viễn Thông – Trường Đại Học Bách Khoa Hà Nội đã chỉ bảo và định hướng cho em nghiên cứu đề tài này Thầy đã cho em những lời khuyên bổ ích và quý báu trong suốt quá trình hoàn thành luận văn
Do hạn chế về thời gian, tài liệu và trình độ bản thân, bài luận văn của em không thể tránh khỏi những thiếu sót, rất mong các thầy cô góp ý và củng cố đề bài luận văn được hoàn thiện hơn
Em xin chân thành cảm ơn!
Trang 5MỤC LỤC
LỜI MỞ ĐẦU i
MỤC LỤC iii
DANH SÁCH CÁC TỪ VIẾT TẮT v
DANH SÁCH CÁC HÌNH VẼ, BẢNG vi
CHƯƠNG I- KIẾN THỨC CƠ SỞ 1
1 Âm thanh 1
1.1 Định nghĩa 1
1.2 Quá trình truyền lan của sóng âm 1
1.3 Các đặc trưng vật lý của âm thanh 1
1.4 Sự cảm thụ của tai người đối với âm thanh 3
1.5 Phân tích thực nghiệm tín hiệu tiếng nói và nốt nhạc 3
1.6 Các yếu tố ảnh hưởng tới âm thanh 9
2 Tín hiệu âm thanh tương tự 10
2.1 Định nghĩa 10
2.2 Sự chuyển đổi của sóng âm sang tín hiệu điện và ngược lại 10
2.3 Các thông số của tín hiệu tương tự 14
3 Tín hiệu âm thanh số 15
3.1 Định nghĩa 15
3.2 Chuyển đổi tín hiệu âm thanh tương tự sang tín hiệu âm thanh số 15
4 Xu hướng số hóa các chương trình truyền hình trên thế giới 21
CHƯƠNG II - KỸ THUẬT MÃ HÓA VÀ NÉN ÂM THANH 24
1 Nền tảng lý thuyết thông tin 24
2 Các giải thuật nén âm thanh 25
2.1 Giới thiệu 25
2.2 Giải thuật nén bảo toàn dữ liệu 25
2.3 Giải thuật nén có mất dữ liệu 29
3 Các định dạng âm thanh thực tế 45
3.1 Các định dạng âm thanh không nén: WAVE, AIFF 45
Trang 63.2 Các định dạng âm thanh nén không mất dữ liệu: FLAC, ALAC, APE 45
3.3 Các định dạng âm thanh nén bị mất dữ liệu: WMA, MP3, AAC 46
4 Tìm hiểu về các chuẩn âm thanh trong truyền hình HD 46
4.1 Dolby 46
4.2 DTS (Digital Theater Systems) : 47
CHƯƠNG III - KỸ THUẬT MÃ HÓA ÂM THANH MP3 VÀ AAC 48
3 Kỹ thuật mã hóa âm thanh MP3 48
3.1 Lịch sử phát triển tiêu chuẩn MP3 48
3.2 Thuật toán mã hóa MP3 50
3.3 Sơ đồ khối tổng quát của bộ mã hóa MP3 52
4 Kỹ thuật mã hóa âm thanh AAC 53
4.1 Lịch sử phát triển 53
4.2 Sơ đồ khối mã hóa theo tiêu chuẩn AAC 54
CHƯƠNG IV – ĐÁNH GIÁ KẾT QUẢ KỸ THUẬT MÃ HÓA MP3 VÀ ACC 56 4 Chất lượng mã hóa 56
5 Tốc độ bít 56
6 Kết quả so sánh MP3 và AAC bằng thực nghiệm 56
7 Nhận xét 57
KẾT LUẬN 59
TÀI LIỆU THAM KHẢO 60
PHỤ LỤC 1
Trang 7DANH SÁCH CÁC TỪ VIẾT TẮT
Trang 8DANH SÁCH CÁC HÌNH VẼ, BẢNG
Hình 1.1 - Tín hiệu ghi được của nguyên âm A 4
Hình 1.2 - Phổ của nguyên âm A trong dải tần số 0 - 10kHz 4
Hình 1.3 - Phổ của nguyên âm A trong dải tần số 0 - 5kHz 5
Hình 1.4 - Tín hiệu của một nốt nhạc violon 5
Hình 1.5 - Phổ của một nốt nhạc violon 5
Hình 1.6 - Phổ của tiếng sáo 6
Hình 1.7 - Tín hiệu của tiếng trống cơm 7
Hình 1.8 - Phổ của tiếng trống cơm 7
Hình 1.9 - Sơ đồ nguyên lý chuyển đổi tín hiệu của Microphone điện dung 11
Hình 1.10- Sơ đồ nguyên lý chuyển đổi tín hiệu của Microphone tụ điện 12
Hình 1.11- Sơ đồ cấu tạo của loa 13
Hình 1.12- Quá trình chuyển đối tín hiệu tương tự sang tín hiệu số 15
Hình 1.13- Hàm lượng tử với bước lượng tử q = 1 18
Hình 1.14- Lỗi lượng tử hóa 19
Hình 1.15- Sơ dồ mã hóa và giải mã DPCM 21
Hình 2.1 - Hình tổng hợp tiếng nói 30
Hình 2.2 - Bộ mã hóa và giải mã theo chuẩn G.279 31
Hình 2.3 - Phân tích LP 33
Hình 2.4 - phân tích sự diễn đạt (tính chất của âm thanh) 34
Hình 2.1 - Hiệu ứng che nhất thời 40
Hình 2.6 – Sơ đồ mã hóa và giải mã MPEG 43
Hình 3.1 - Sơ dồ khối tổng quát của bô mã hóa MP3 52
Hình 3.2 - Sơ đồ khối mã hóa chuẩn AAC 55
Bảng 4.1 - Kết quả so sánh của các file MP3 57
Bảng 4.2 - Kết quả so sánh của các file AAC 58
Trang 9CHƯƠNG I- KIẾN THỨC CƠ SỞ
1 Âm thanh
1.1 Định nghĩa
Âm thanh là các dao động cơ học của các phân tử, nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các sóng Con người chỉ có thể cảm nhận được âm thanh trong dải tần từ 20 Hz đến 20kHz
1.2 Quá trình truyền lan của sóng âm
Sóng âm thanh từ một vật thể rung động phát ra, được lan truyền trong không khí, tới tai ta làm rung màng nhĩ theo đúng nhịp rung của vật thể đã phát ra tiếng, nhờ đó mà tai nghe được âm thanh
Trong không khí, âm thanh lan truyền ở dạng sóng dọc Trong chất rắn, ngoài dạng sóng dọc, âm thanh còn lan truyền ở dạng sóng ngang
Trong không khí, sóng âm lan truyền từ nguồn âm ra tất cả các hướng Nếu nguồn âm có kích thước nhỏ so với bước sóng thì ta có thể coi nó như là một nguồn
âm điểm và sóng âm sẽ lan tỏa từ một điểm đó ra không gian như những hình cầu lớn dần Dạng sóng âm ấy gọi là sóng cầu Năng lượng của sóng âm sẽ giảm tỷ lệ với bình phương khoảng cách
1.3 Các đặc trưng vật lý của âm thanh
1.3.1 Tốc độ âm thanh
Trong bất kỳ vật chất nhất định nào, âm thanh không thay đổi tốc độ khi rời khỏi nơi nó xuất phát Ví dụ trong nước, âm thanh di chuyển nhanh hơn 4 lần so với khi nó ở trong không khí Trong sắt hay thép, tốc độ của âm thanh nhanh khoảng 15 lần so với ở trong không khí Như vậy, tốc độ âm thanh phụ thuộc vào môi trường truyền âm Môi trường vật chất nào mà khoảng cách giữa các phần tử càng ngắn thì tốc độ của âm thanh càng cao Trong không khí, tốc độ của âm thanh khoảng 340m/s Tốc độ của âm thanh thay đổi rất ít theo nhiệt độ, độ ẩm và áp suất khí quyển, trừ khi các yếu tố này ảnh hưởng tới tính chất vật lý của không khí
Trang 101.3.2 Áp suất âm thanh
Độ dao động của áp suất của khí quyển khi bị sóng âm thanh tác động được gọi là áp suất âm thanh Áp suất âm thanh hay còn gọi là thanh áp là một đại lượng cực nhỏ, thí dụ ở khoảng cách 1m một người nói bình thường chỉ tạo ra một phần triệu áp suất khí quyển Thanh áp tác động lên mọi hướng không gian như nhau Độ lớn của thanh áp được biểu thị bằng đơn vị Pascal [ Pa ]
Trong trường gần, thanh áp biến đổi theo tỷ lệ nghịch với khoảng cách và không phụ thuộc vào tần số
Trong thực tế, người ta biểu thị thanh áp ở dạng mức: mức thanh áp với đơn
1.3.4 Công suất âm thanh
Công suất âm thanh là năng lượng âm thanh đi qua đơn vị diện tích S trong khoảng thời gian 1s
1.3.5 Cường độ âm thanh
Cường độ âm thanh là công suất âm thanh đi qua một đơn vị diện tích đặt vuông góc với phương truyền âm trong một đơn vị thời gian
Trang 111.3.6 Tần số
Tần số là số lần dao động trong một giây Đơn vị đo tần số là Hz Tần số của một âm đơn là số lần dao động của không khí truyền dẫn âm trong một giây
1.4 Sự cảm thụ của tai người đối với âm thanh
Tai người có thể nghe được âm thanh trong dải tần số từ 20 Hz đến 20kHz Siêu âm là âm dao động ngoài 20kHz Hạ âm là các âm dao động dưới 20 Hz Tai người không nghe được siêu âm và hạ âm Tai người có thể phân biệt được 130 mức thanh áp khác nhau, mỗi mức cách nhau 1 dB Tai người nghe nhạy với các âm thanh có tần số nằm trong khoảng 500 Hz đến 5000 Hz
Tiếng nói (voice, speech) là âm thanh phát ra từ miệng người, được truyền
đi trong không khí đến tai người nghe Dải tần số của tiếng nói đủ nghe rõ là từ 300
Hz đến 3500 Hz, là dải tần tiêu chuẩn áp dụng cho điện thoại Còn dải tần tiếng nói
có chất lượng cao có thể là từ 200 Hz-7000 Hz, áp dụng cho các ampli hội trường
Âm nhạc (music) là âm thanh phát ra từ các nhạc cụ Dải tần số của âm nhạc là từ 20 Hz đến 15000 Hz
Tiếng kêu là âm thanh phát ra từ mồm động vật Tiếng của Cá Heo (dolphins) là một loại âm thanh trong dảy tần số 1-164 kHz, của Con Dơi (bats) 20 -
115 kHz, của Cá Voi (whale) 30-8000 Hz (Cần xác minh lại số liệu)
Tiếng động là âm thanh phát ra từ sự va chạm giữa các vật Thí dụ tiếng
va chạm của 2 cái cốc, tiếng va chạm của cánh cửa, tiếng sách rơi
Tiếng ồn (noise) là những âm không mong muốn
Nhìn chung lại, xét về phương diện tín hiệu và sự cảm thụ của tai người, có hai loại âm:
Tuần hoàn bao gồm tiếng nói, âm nhạc
Không tuần hoàn như tín hiệu tạp nhiễu, một số phụ âm tắc xát như sh, s
1.5 Phân tích thực nghiệm tín hiệu tiếng nói và nốt nhạc
Sau đây là hình tín hiệu thu được qua microphone vào máy tính của nguyên
âm A
Trang 12Hình 1.1 - Tín hiệu ghi được của nguyên âm A
và phổ của tín hiệu này (trục hoành là trục tần số) Trục đo tần số là 10.000Hz
Hình 1.2 - Phổ của nguyên âm A trong dải tần số 0 - 10kHz
Nhìn vào hình vẽ tín hiệu, ta thấy rõ nguyên âm A là một hàm tuần hoàn, chu
kì To xấp xỉ = 10ms, Fo=100 Hz Song bên trong một chu kì To, ta vẫn nhìn thấy dao động ở tần số cao hơn Nhìn vào đồ thị phổ tín hiệu, ta thấy phổ vạch, khoảng cách giữa hai vạch bằng Fo=1/To Bên cạnh đó bạn có thể nhìn thấy các đỉnh cộng hưởng, các formants
Qua đồ thị phổ tín hiệu nguyên âm A, ta cũng còn thấy rõ dải phổ tín hiệu không vượt quá 4000 Hz, tức là ngoài 4000 Hz, năng lượng được coi bằng 0
Nếu đo phổ với trục đo tần số tập trung vào khoảng 0-5.000Hz, ta sẽ thấy rõ hơn các vạch phổ rời rạc, cách nhau Fo
Trang 13Hình 1.3 - Phổ của nguyên âm A trong dải tần số 0 - 5kHz
Tín hiệu của một nốt nhạc violon:
Hình 1.4 - Tín hiệu của một nốt nhạc violon
và phổ của tín hiệu này
Hình 1.5 - Phổ của một nốt nhạc violon
Trang 14Phân tích và nhận xét: Tín hiệu nhạc cũng có dạng tuần hoàn, chu kỳ
To=1,65 ms, Fo=609 Hz Đồ thị phổ thể hiện rất rõ phổ vạch, với vạch cơ bản và
các hoạ âm (các tần số hài) Phổ vạch nói lên tín hiệu nốt nhạc này được tổ hợp từ nhiều tín hiệu điều hoà có tần số là Fo, 2Fo, 3Fo Mỗi vạch tương ứng với một dao động điều hoà nhất định
Tiếng sáo và phổ của nó Ta thấy tần số dao động cơ bản rất rõ và nổi trội hơn các hoạ âm, hay các tần số hài, nghĩa là âm này mang tính đơn âm khá rõ Một nhận xét nữa là các hài bậc chẵn khá nhỏ
Hình 1.6 - Phổ của tiếng sáo
Tiếng trống cơm và phổ của nó Ta thấy tần số dao động cơ bản rất rõ Nghĩa
là khá đơn âm Fo cỡ khoảng 200 Hz, To cỡ khoảng 5 ms
Trang 15Hình 1.7 - Tín hiệu của tiếng trống cơm
Hình 1.8 - Phổ của tiếng trống cơm
Tiếng nói
Tiếng nói là âm thanh phát ra từ miệng (người) Để nghiên cứu tiếng nói, ta cần chú ý tới các yếu tố sau:
Bộ máy phát âm của con người gồm:
- Phổi đóng vai trò là cái bơm không khí, tạo năng lượng hình thành âm
- Đôi dây thanh (vocal fold, vocal cord)là hai cơ thịt ở trong cuống họng,
có hai đầu dính nhau, còn hai đầu dao động với tần số cơ bản là Fo, tiếng Anh gọi là pitch, fundamental frequency Fo của nam giới nằm trong khoảng 100-200 Hz, của
nữ giới là 300-400 Hz, của trẻ em là 500-600 Hz
Hình ảnh đôi dây thanh ở vị trí đóng lại và vị trí mở ra:
Trang 16Thanh quản và vòm miệng: đóng vai như là hốc cộng hưởng, tạo ra sự phân biệt tần số khi tín hiệu dao động từ đôi dây thanh phát ra Đáp ứng tần số của hốc công hưởng này có nhiều đỉnh cộng hưởng khác nhau được gọi là các formant
- Miệng đóng vai trò phát tán âm thanh ra ngoài
- Lưỡi thay đổi để tạo ra tần số formant khác nhau
Các âm khác nhau là do vị trí tương đối của formants
Phân loại tiếng nói theo thanh:
- Âm hữu thanh (voiced, tiếng Pháp là voisé) là âm khi phát ra có sự dao
động của đôi dây thanh, nên nó tuần hoàn với tần số Fo Vì vậy phổ của nguyên âm
là phổ vạch, khoảng cách giữa các vạch bằng chính Fo
- Âm vô thanh (unvoiced, tiếng Pháp là non voisé) phát ra khi đôi dây
thanh không dao động Thí dụ phần cuối của phát âm English, chữ sh cho ra âm xát Phổ tín hiệu có dạng là nhiễu trắng, phổ phân bổ đều
Phân loại tiếng nói theo âm:
- Nguyên âm (vowel) là âm phát ra có thể kéo dài Tất cả nguyên âm đều là
âm hữu thanh, nghĩa là tuần hoàn và khá ổn định trong một đoạn thời gian vài chục
ms
- Phụ âm (consonant) là âm chỉ phát ra một nhát, không kéo dài được Có
phụ âm hữu thanh và phụ âm vô thanh
Trang 17Thanh điệu của tiếng Việt tương ứng với các dấu: không dấu, huyền, hỏi, ngã, sắc, nặng khi viết Phân tích máy móc cho thấy thanh điệu là sự thay đổi Fo, tần số cơ bản pitch, trong quá trình phát âm các nguyên âm và tai người cảm nhận được Tiếng Việt có 6 thanh thể hiện sự phong phú và độc đáo, trong khi tiếng Trung quốc có 4 thanh Tuy nhiên cư dân một số vùng ở Việt Nam có thể không phân biệt dấu ? và dấu ~ nên hay viết sai chính tả
Giọng bổng (high voiced pitch, hay high pitched) hay giọng trầm (low
voiced pitch) là Fo cao hay thấp Như vậy Fo đóng vai trò rất quan trọng trong cảm nhận, trong thụ cảm âm thanh của con người
Tiếng bổng hay tiếng trầm tương ứng với dải tần số cao hay thấp Trong
thợc tế người ta dùng loa trầm là loa loa bass hay loa sub woofer, loa tép hay loa bổng tương ứng với loa thích ứng phát các âm trong vùng tần số cao, treble
1.6 Các yếu tố ảnh hưởng tới âm thanh
1.6.1 Suy giảm năng lượng trên đường truyền lan
Khi các nguồn âm có kích thước nhỏ hơn nhiều so với bước sóng thì đều có thể coi là những nguồn âm điểm Với nguồn âm điểm: khi khoảng cách tăng gấp đôi thì thanh áp giảm đi một nửa hoặc mức thanh áp giảm đi 6 dB
Khi có nhiều nguồn âm điểm nối tiếp nhau thành một tuyến đường sẽ tạo thành nguồn âm tuyến, khi khoảng cách tăng gấp đôi thì mức thanh áp giảm 3 dB
Các nguồn âm có dạng như một mặt phẳng thì gọi là nguồn âm diện Trong trường gần của các nguồn âm diện có mặt bức xạ mức âm hầu như không suy giảm theo khoảng cách
1.6.2 Ảnh hưởng của khí hậu, thời tiết
Trên đường lan truyền, ngoài sự suy giảm năng lượng do phải phân bố năng lượng theo không gian mở rộng, sóng âm còn bị hấp thụ mất năng lượng bởi môi trường không khí, tần số càng cao độ suy giảm càng lớn Nhiệt độ và độ ẩm cũng ảnh hưởng tới sự truyền tải năng lượng âm: độ ẩm và nhiệt độ tăng thì sự suy giảm năng lượng âm lại bớt đi
Trang 181.6.3 Ảnh hưởng của hiện tượng nhiễu xạ
Trên đường lan truyền trực tiếp từ nguồn âm đến người nghe, sóng âm thường gặp phải các vật cản Như vậy, tương tự như ánh sáng, sẽ tạo nên những bóng âm Bóng âm chỉ hình thành khi các thành phần âm thanh với tần số có bước sóng nhỏ hơn kích thước của vật chắn Các thành phần âm thanh với tần số có bước sóng lớn hơn kích thước vật chắn, ta gọi là hiện tượng nhiễu xạ sóng âm Như vậy, vùng phía sau một vật cản, âm sắc bị biến đổi vì chỉ nghe được thành phần tần số thấp Vật cản càng lớn thì âm sắc bị biến đổi càng nhiều
1.6.4 Ảnh hưởng hiện tượng hấp thụ âm và phản xạ âm
Trên đường lan truyền của sóng âm, khi gặp các vật cản, một phần năng lượng bị hấp thụ vào vật cản (gọi là hiện tượng hấp thụ âm hay tiêu âm), một phần phản xạ trở lại môi trường truyền âm Trong một không gian khép kín, sóng âm sẽ phản xạ nhiều lần và tạo thành trường âm phản xạ Trường âm phản xạ xó ý nghĩa đặc biệt đối với sự cảm thụ âm thanh khi nghe trong trường âm tự nhiên cũng như trong trường âm nhân tạo, nó tạo thành âm thanh quang cảnh, làm cho âm thanh trở nên sống động Chỉ khi nào âm phản xạ đến sau trực âm khoảng 50 ms trở lên thì tai
ta mới nghe tách biệt được chúng khỏi trực âm
2 Tín hiệu âm thanh tương tự
2.1 Định nghĩa
Tín hiệu tương tự (analog) là tín hiệu liên tục,đồ thị biểu diễn tín hiệu analog là một đường liên tục(ví dụ sin,cos,hoặc đường cong lên xuống bất kỳ), analog có nghĩa
là tương tự, tương tự có nghĩa là tín hiệu lúc sau cũng có dạng tương tự như lúc trước
đó, nói tương tự ko có nghĩa y chang mà có nghĩa tương tự về bản chất tín hiệu, nhưng
sẽ khác về cường độ tín hiệu lúc sau so với lúc trước Trong thiết bị điện tín hiệu analog là dòng điện,trong cuộc sống analog có thể là tín hiệu âm thanh ta nghe,hình ảnh ta thấy,trong viễn thông là sóng điện từ (tức ánh sáng không nhìn thấy)
2.2 Sự chuyển đổi của sóng âm sang tín hiệu điện và ngược lại
Sự chuyển đổi của sóng âm sang tín hiệu điện
Để thực hiện chuyển đổi tín hiệu âm thanh (dạng sóng) sang tín hiệu âm thanh dạng điện thì ta sử dụng thiết bị chuyển đổi là Microphone Có nhiều tiêu chí
Trang 19dùng để phân loại micro: tính chất âm học, búp hướng của micro, cách sử dụng micro, Xét trên góc độ kỹ thuật, ta sẽ tìm hiểu việc micro dựa vào phương thức chuyển đổi tín hiệu sóng âm thành tín hiệu điện thanh Theo đó, người ta chia ra làm 2 loại:
Micro điện động
Hình 1.9 - Sơ đồ nguyên lý chuyển đổi tín hiệu của Microphone điện dung
- Cấu tạo: gồm một màng rung cực mỏng được gắn với một cuộn dây đồng
rất mảnh, cuộn dây đồng được đặt vào một khe từ trường của một khối nam châm Khi nhận sóng âm thanh từ bên ngoài màng rung sẽ rung động theo đáp tần của âm thanh và cuộn dây đồng cũng rung động theo, sự rung động cuộn dây đồng khi nằm trong một khe từ trường sẽ tạo ra một dòng điện xoay chiều đưa ra hai đầu dây dẫn
và được khuếch đại lên bởi Mixer và power ampli
- Ưu điểm: có cường độ rộng, độ bền rất tốt và dễ thích nghi với sự thay đổi
của nhiệt độ, không cần cung cấp nguồn điện để hoạt động, nhỏ gọn
- Nhược điểm: có đáp tần không tốt khi tần số vượt ngưỡng 10 kHz
Micro điện dung
- Hoạt động như một cái mảng tụ điện và khi các âm thanh tác động lên
màng thu sẽ tạo nên các rung động, màng rung sẽ chuyển hóa các rung động âm thanh đấy thành các tín hiệu âm thanh
Trang 20Hình 1.10- Sơ đồ nguyên lý chuyển đổi tín hiệu của Microphone tụ điện
- Micro tụ điện: màng của chúng hoạt động như một cái mảng tụ điện và
khi các âm thanh tác động lên màng thu sẽ tạo nên các rung động, màng rung sẽ chuyển hóa các rung động âm thanh đấy thành các tín hiệu âm thanh Loại micro này có độ nhạy rất cao và bắt âm thanh chính xác, thích hợp cho thu các dạng tín hiệu mềm như giọng hát, guitar thùng nên dòng micro này được các phòng thu âm
sử dụng
- Các loại micro tụ điện thường cho đặc tuyến âm tần rất rộng và tuyệt hảo
do các thành phần rung động cảm nhận sóng âm thanh rất mỏng và nhẹ nhàng chúng không bị ảnh hưởng bởi khối lượng của cuộn dây voice coil nên được sử dụng rộng rãi trong các phòng thu âm hoạc ca đoàn, tuy nhiên do tính chất khá mong manh và dễ nhạy cảm vởi độ ẩm của môi trường micro tụ điện ít được sử dựng trên sân khấu ca nhạc
- Ưu điểm : có đáp tần rất ấn tượng đối với các tần số cao và cũng có thể có
đáp tần rất tốt đối với các tần số thấp
- Nhược điểm: giá cả từ trung bình đến cao, đòi hỏi phải cung cấp nguồn
điện 48V, có thể có kích thước lớn; hai microphone của cùng một hãng có thể nghe
hoàn toàn khác nhau, môi trường và nhiệt độ ảnh hưởng đến chất lượng âm thanh
Trang 21 Sự chuyển đổi của tín hiệu điện sang sóng âm
- Loa có nhiệm vụ chuyển đổi các dao động điện thành dao động sóng âm giúp tai chúng ta có thể nghe được Nó sẽ đứng ở vị trí cuối cùng trong chuỗi truyền tải tín hiệu âm thanh trong một hệ thống
- Xét về mặt cấu tạo loa bao gồm: driver, mạch phân tần, jack nối
dây, Trong đó, driver được gọi là trái tim của loa Driver của loa chuyển tín hiệu
điện thành sóng âm thanh, thông qua chuyển động màng loa
Hình 1.11- Sơ đồ cấu tạo của loa
- Màng loa (Diaphragm): Các loa con sẽ làm tạo ra âm thanh bằng cách rung màng loa ở tốc độ cao Chất liệu phổ biến sử dụng làm màng loa thường là giấy, nhựa hoặc kim loại, trong có có phần vành rộng sẽ gắn liền với viền treo
- Viền treo, hay vành loa được làm bằng chất liệu có thể có giãn, là một vành tròn cho phép màng nón chuyển động vào ra Viền treo này được gắn với
Trang 22khung kim loại của loa (basket) Phần vành hẹp của màng nón loa sẽ được thiết kế nối với cuộn âm (voice coil)
- Cuộn âm
Gắn với khung kim loại bằng mạng nhện (spider) vốn cũng là một vành tròn bằng vật liệu co giãn với nhiệm vụ giữ cho cuộn âm luôn ở đúng vị trí chính giữa nhưng vẫn cho phép cuộn này chuyển động vào ra Đôi lúc màng loa cũng được làm ở dạng vòm thay cho dạng nón trong một vài trường hợp đặc biệt
Đây là một thành phần rất quan trọng trong bất kì loại loa nào Thực chất cuộn âm của loa là một nam châm điện từ, với cấu tạo bao gồm một cuộn dây dẫn bao quanh lõi kim loại (thường là sắt) Dòng điện chay qua cuộn dây sẽ sinh ra một
từ trường xung quanh, làm cho sắt có từ tính Từ trường này tương tự như từ trường xung quanh nam châm vĩnh cửu, cũng gồm có cực Bắc và cực Nam và cũng hút kim loại Nhưng khác với nam châm vĩnh cửu, ở nam châm điện từ người ta có thể đảo cực Bắc Nam bằng cách đảo chiều dòng điện
- Nam châm điện từ được đặt trong từ trường cố định của nam châm vĩnh củu Hai nam châm này tương tác với nhau: trái dấu hút nhau, cùng dấu đẩy nhau Khi cực của nam châm điện thay đổi, chẳng hạn từ cực dương sang cực âm sẽ tạo nên lực từ hút sang đẩy đối với cực âm của nam châm vĩnh cửu Lực tác động này khiến cho cuộn âm chuyển động vào ra liên tục theo dao động điện tương tự như một chiếc piston
- Cuộn dây khi chuyển động sẽ kéo theo màng loa chuyển động theo, do 2
bộ phận này được gắn vào nhau Khi màng loa chuyển động tác động vào không khí phía trước loa bị rung động, từ đó sóng âm được tạo ra
2.3 Các thông số của tín hiệu tương tự
Biên độ: biểu thị độ mạnh của tín hiệu, đơn vị là dB hay Volt
Tần số: là tốc độ thay đổi của tín hiệu trong 1s
Pha: là tốc độ thay đổi quan hệ của tín hiệu điện với thời gian
Trang 233 Tín hiệu âm thanh số
3.2 Chuyển đổi tín hiệu âm thanh tương tự sang tín hiệu âm thanh số
Các bước chuyển đổi bao gồm quá trình lọc trước để loại bỏ những tần số quá cao không thể số hóa được tại đầu vào, quá trình lấy mẫu dùng để rời rạc hóa tín hiệu theo thời gian, quá trình lượng tử hóa để chuyển biên độ tín hiệu tương tự sang dạng số và cuối cùng là quá trình mã hóa để chỉ rõ cách thức biểu diễn các giá trị số Mỗi quá trình này được đề cập trong các phần dưới đây Ở phần cuối của một
hệ thống số, tín hiệu analog ban đầu sẽ được phục hồi từ chuỗi các mẫu nhờ bộ chuyển đổi số sang tương tự
Hình 1.12- Quá trình chuyển đối tín hiệu tương tự sang tín hiệu số
- Lấy mẫu: rời rạc hóa tín hiệu theo thời gian
- Lượng tử hóa: rời rạc hóa tín hiệu theo biên độ
- Mã hóa; gán giá trị nhị phân cho các mẫu
Trang 243.2.1 Lấy mẫu
Lấy mẫu có thể được thực hiện cho các tín hiệu khác nhau trong hệ tọa độ không thời gian, hoặc với các hệ tọa độ bất kỳ, và kết quả tương tự thu được trong
hệ tọa độ 2 hoặc nhiều chiều
Đối với các tín hiệu khác nhau theo thời gian, ví dụ s(t) là một tín hiệu liên tục được lấy mẫu, và việc lấy mẫu được thực hiện bằng cách đo các giá trị của tín
hiệu liên tục ở thời điểm mỗi giây T , T được gọi là khoảng thời gian lấy mẫu Như
vậy, tín hiệu sau khi được lấy mẫu được đưa ra bởi:
, với n = 0, 1, 2, 3,
Lý tưởng
Ở đây, tín hiệu được xác định chính xác tại thời điểm lấy mẫu nT Trong toán học, có thể được biểu diễn bằng phép nhân hàm tín hiệu s(t) với hàm s răng lược Dirac (hệ quả của hàm delta Dirac):
Tín hiệu sau khi lấy mẫu là sa:
Phổ tần của sa là chuỗi Fourier của tín hiệu sa:
Trang 25Tần số lấy mẫu hay tỷ lệ lấy mẫu f s được định nghĩa là số lượng các mẫu thu
được trong một giây, hoặc f s =1/T Tỷ lệ lấy mẫu được đo bằng hertz hoặc số
bản mẫu của nó, nếu tỷ lệ lấy mẫu lớn hơn gấp đôi tần số tối đa (f s >2f max) Tái lập trong trường hợp này có thể đạt được bằng cách sử dụng công thức nội suy Whittaker-Shannon
Thực tế
Do không thể tạo ra một hàm delta Dirac lý tưởng, cho nên tín hiệu có phần nào nhanh hơn so với thời điểm lấy mẫu thực tế, hay nói cách khác, khi đó tín hiệu biến đổi nhanh tương đối so với chuyển đổi của mạch ADC Trong trường hợp này
người ta sử dụng một 'mạch trích mẫu và giữ' (sampling and hold) Hàm răng lược
Dirac được thay thế bằng một xung chữ nhật với độ dài xung t0 Việc lấy mẫu được thực hiện bởi một mạch trích mẫu và giữ để giữ giá trị của một mẫu không đổi trong một độ dài của xung hình chữ nhật Trong toán học, điều đó tương đương với một tích chập với một hàm rect:
Ví dụ về sóng fa(t) (màu đỏ) được thu bằng một mạch trích mẫu và giữ
Trang 26Phổ thu được:
Phổ tần này chứa đựng một yếu tố của hàm sinc Điều này có thể sai lệch tín
hiệu phục hồi và phải được khắc phục bởi một bộ lọc tái thiết (reconstruction filter)
Tần số bằng một nửa tỷ lệ lấy mẫu là một chặn trên của tần số cao nhất tương ứng với các tín hiệu lấy mẫu Tần số này (một nửa tỷ lệ lấy mẫu) được gọi
là tần số Nyquist của hệ thống lấy mẫu Có thể quan sát thấy các tần số lớn hơn tần
số Nyquist f N trong tín hiệu lấy mẫu, nhưng những tần số này không rõ ràng Một
phần tín hiệu có tần số f không thể được phân biệt với các thành phần khác có tần
số Nf N +f và Nf N –f vớiN là số nguyên dương khác 0, sự không rõ ràng này được gọi
là hiện tượng chồng phổ hay răng cưa Để xử lý vấn đề này một cách càng mịn càng tốt, hầu hết các tín hiệu tương tự (analog) được lọc với một bộ lọc chống răng cưa (thường là một bộ lọc thông thấp với tần số cắt tại tần số Nyquist) trước khi chuyển đổi để lấy mẫu
3.2.2 Lượng tử hóa
Lượng tử hoá Lượng tử hoá là quá trình xấp xỉ các giá trị của tín hiệu lấy mẫu s(nT) bằng bội số của một giá trị q (q gọi là bước lượng tử) Nếu q không thay đổi thì quá trình lượng tử gọi là đồng nhất Quá trình này thực hiện bằng hàm bậc thang mô tả như sau:
Hình 1.13- Hàm lượng tử với bước lượng tử q = 1
Trang 27Quá trình lượng tử có thể thực hiện bằng cách định nghĩa giá trị trung tâm của hàm lượng tử Ví dụ như trong hình trên, các giá trị trong khoảng từ (n – ½)q đến (n + ½)q sẽ được làm tròn là n Phương pháp này sẽ cực tiểu hóa công suất của tín hiệu lỗi Một phương pháp khác có thể sử dụng là dùng hàm cắt, nghĩa là các giá trị trong khoảng [nq,(n+1)q] sẽ làm tròn thành n
Hình 1.14- Lỗi lượng tử hóa
Như vậy quá trình lượng tử hóa sẽ làm biến dạng tín hiệu và xem như tồn tại một tín hiệu nhiễu Sự méo dạng này gọi là méo lượng tử hay còn gọi là nhiễu lượng tử
3.2.3 Mã hóa
Mã hóa là một quá trình dùng để biến thông tin từ dạng này sang dạng khác
và ngăn những người không phận sự tiếp cận vào thông tin đó Bản thân việc mã hóa không làm ngăn chặn việc đánh cắp thông tin, có điều thông tin bị đánh cắp xong thì cũng không sử dụng được, không đọc được hay hiểu được vì nó đã được làm cho biến dạng đi rồi Các phương pháp cơ bản mã hóa tiếng nói
Pulse Code Modulation - PCM = G.711: Là phương pháp mã hóa cơ
bản, mã hóa trực tiếp tín hiệu lấy mẫu tiếng nói, âm thanh với các luật lượng tử hóa µ-law và a-law
a-law: lấy một mẫu âm thanh 13 bit có dấu (sign) và biến đổi thành mộtgiá trị 8 bit
Trong đó s là bit dấu(sign bit)
Dấu… thể hiện các bit có mức ưu tiên thấp không được mã hóa
Trang 28 Differential Pulse Code Modulation - DPCM
Điều chế mã xung vi sai là một thủ tục chuyển đổi một tín hiệu tương tự thành tín hiệu số, trong đó một tín hiệu analog được lấy mẫu và sau đó sự khác biệt giữa giá trị thực tế của mẫu và giá trị dự đoán của mẫu (giá trị dự đoán dựa trên mẫu trước đó hoặc các mẫu) được lượng hóa và sau đó được mã hóa để tạo
Trang 29thành một giá trị số Từ mã vi sai DPCM biểu diễn cho sự khác biệt giữa các mẫu, không giống như PCM, nơi từ mã đại diện cho một giá trị mẫu
Hình 1.15- Sơ dồ mã hóa và giải mã DPCM
Adaptive DPCM G.721
Điều chế mã sung vi sai thích ứng: Là một biến thể của DPCM cho phép thay đổi kích thước của các bước lượng tử, cho phép giảm thêm nữa trong những băng thông cần thiết với một tye lệ signal-to-noise cho trước Về cơ bản, sự thích nghi với các thống kê về tín hiệu trong ADPCM đơn giảm bao gồm một hệ số mức thích nghi trước khi lượng tử hóa sự sai khác trong bộ mã hóa DPCM ADPCM được phát triển vào đầu những năm 1970 tại phòng thí nghiệm Bell Labs để mã hóa tiếng nói
4 Xu hướng số hóa các chương trình truyền hình trên thế giới
Các hệ thống truyền hình: NTSC, PAL, SeECAM là các hệ thống truyền hình tương tự Tín hiệu là các các hàm liên tục theo thời gian Tín hiệu truyền hình tương tự từ khâu sản xuất, truyền dẫn, phát sóng đến khâu thu tín hiệu đều chịu ảnh
Trang 30hưởng của nhiều yếu tố ( nhiễu và can nhiễu từ nội bộ hệ thống và từ bên ngoài) làm giảm chất lượng hình ảnh và âm thanh Để khắc phục những hiện tượng này người ta mã hóa tín hiệu truyền hình ở dạng số để xử lý Truyền hình số có những
ưu điểm sau:
- Có thể tiến hành nhiều quá trình xử lý trong studio mà không làm giảm tín
hiệu SNR Trong khi đó, mỗi khâu xử lý này sẽ gây ra méo tích lũy trong truyền hình tương tự
- Thuận lợi cho quá trình ghi đọc: có thể ghi đọc vô hạn lần mà chất lượng
không hề bị giảm
- Dễ sử dụng thiết bị thiết bị tự động kiểm tra và điều khiển nhờ máy tính
- Có khả năng lưu tín hiệu số trong các bộ nhớ có cấu trúc đơn giản và sau
đó đọc nó với tốc độ tùy ý
- Khả năng truyền với khoảng cách lớn và có tính chống nhiễu cao ( nhờ
việc cài đặt mã chống lỗi, sửa lỗi và bảo vệ, )
- Các thiết bị số làm việc ổn định, vận hành dễ dàng
- Có khả năng thu tốt trong truyền sóng đa đường Hiện tượng bóng ma
thường xảy ra trong hệ thống truyền hình tương tự do tín hiệu truyền đến máy thu theo nhiều đường Việc tránh nhiễu đồng kênh trong hệ thống thông tin số cũng làm giảm đi hiện tượng này trong truyền hình quảng bá
- Tiết kiệm được phổ tần nhờ sử dụng các kỹ thuật nén băng tần, tỷ lệ nén
có thể lên đến 40 lần mà hầu như người xem không nhận biết được sự suy giảm chất lượng Từ đó, có thể truyền được nhiều chương trình trên một kênh sóng Trong khi
đó, truyền hình tương tự mỗi chương trình phải dùng một kênh sóng riêng
Quá trình số hóa truyền hình là tất yếu vì các yếu tố sau đây:
- Quá trình số hóa truyền hình mặt đất đang diễn ra trên quy mô toàn thế
giới vì các lợi ích mà nó mang lại
- Truyền hình số đem lại nhiều lợi ích cho người xem như chất lượng cao về
hình ảnh và âm thanh; nhiều kênh chương trình truyền hình được truyền miễn phí
Trang 31Ngoài ra, truyền hình số còn có thể cung cấp thêm nhiều dịch vụ tiện ích khác như lịch phát sóng điện tử, truyền hình tương tác…
- Nhờ công nghệ truyền hình số, nhiều kênh chương trình, dịch vụ truyền
hình mới, chất lượng cao được phát sóng; công nghiệp nội dung, sản xuất chương trình truyền hình có điều kiện để phát triển; lĩnh vực truyền dẫn, phát sóng được phát triển theo hướng chuyên môn hóa, đạt hiệu quả cao hơn nhiều so với truyền hình tương tự
- Chuyển sang truyền hình số mặt đất, nguồn tài nguyên tần số vô tuyến
điện được sử dụng rất hiệu quả vì một kênh tần số có thể truyền được nhiều kênh chương trình truyền hình số Sau khi kết thúc quá trình số hóa truyền hình, một phần của băng tần UHF đang sử dụng bởi truyền hình sẽ được giải phóng Đây là nguồn tài nguyên tần số quan trọng để triển khai các dịch vụ thông tin vô tuyến băng rộng mới Góp phần thúc đẩy phát triển kinh tế - xã hội
- Tín hiệu truyền hình số có thể truyền theo 3 phương thức: phát sóng mặt đất (sử dụng anten thông thường), phát sóng qua vệ tinh (sử dụng anten vệ tinh), hoặc cáp (CATV, IPTV) Truyền hình số sử dụng phương thức phát sóng mặt đất được gọi là truyền hình số mặt đất
Trang 32CHƯƠNG II - KỸ THUẬT MÃ HÓA VÀ NÉN ÂM THANH
1 Nền tảng lý thuyết thông tin
Theo Shannon, entropy của một nguồn thông tin S được định nghĩa:
Trong đó:
- pi là xác suất mà ký hiệu Si xuất hiện trong S
- log2(1/pi) chỉ ra số lượng thông tin chứa đựng trong Si, nghĩa là số bit cần thiết để mã hóa Si
Ví dụ: một hình ảnh được tô đều với cùng một cường độ màu xám, tức là pi=1/256, thì số bit cần thiết để mã hóa cho mỗi mức xám là 8 bits
Entropy của hình này là 8
Giải thuật Shannon - Fano:
Ta dùng một ví dụ đơn giản để mô tả giải thuật:
-
Số lần 15 7 6 6 5
Mã hóa cho giải thuật Shannon - Fano:
Dùng cách tiếp cận từ trên xuống
- Sắp thứ tự các ký hiệu theo tần số xuất hiện của nó, nghĩa là: ABCDE
- Chia thành hai phần, mỗi phần tương đương với cùng số lần đếm
Trang 33Ký hiệu Số lần log(1/p) Mã Cộng(số bit)
Nén dữ liệu là một kỹ thuật quan trọng trong rất nhiều lĩnh vực khác nhau
Chính nhờ có kỹ thuật nén dữ liệu mà ngày nay chúng ta có những phương tiện
truyền thông hiện đại phục vụ cho cuộc sống như: truyền hình cáp, truyền hình số,
điện thoại, các hệ thống lưu trữ văn bản,… và rất nhiều các khía cạnh khác Do đó,
kỹ thuật nén dữ liệu ngày càng được quan tâm và phát triển nhiều hơn
Nén dữ liệu là quá trình làm giảm lượng thông tin “dư thừa” trong dữ liệu
gốc và do vậy, lượng thông tin thu được sau nén thường nhỏ hơn so với dữ liệu gốc
rất nhiều
2.2 Giải thuật nén bảo toàn dữ liệu
Mã hóa Huffman
Mã hóa Huffman là một thuật toán mã hóa dùng để nén dữ liệu Nó dựa trên
bảng tần suất xuất hiện các kí tự cần mã hóa để xây dựng một bộ mã nhị phân cho
các kí tự đó sao cho dung lượng (số bít) sau khi mã hóa là nhỏ nhất
Để mã hóa các kí hiệu ( kí tự, chữ số, ) ta thay chúng bằng các sâu nhị phân,
được gọi là từ mã của ký hiệu đó Chẳng hạn bộ mã ASCII, mã hóa cho 256 kí hiệu
là biểu diễn nhị phân của các số từ 0 đến 255, mỗi từ mã gồm 8 bít Trong ASCII từ
mã của kí tự “a” là 1100001, của kí tự “A” là 1000001 Trong cách mã hóa này các
từ mã của tất cả 256 kí hiệu có độ dài bằng nhau (mỗi từ mã 8 bít) Nó được gọi là
mã hóa với độ dài không đổi Khi mã hóa một tài liệu có thể không sử dụng đến tất
cả 256 kí hiệu Hơn nữa trong tài liệu chữ cái “a” chỉ có thể xuất hiện rất nhiều lần
Trang 34còn chữ cái “A” có thể chỉ xuất hiện 2, 3 lần Như vậy ta có thể không cần dùng đủ
8 bít để mã hóa cho một ký hiệu, hơn nữa độ dài (số bít) dành cho mỗi kí hiệu có thể khác nhau, kí hiệu nào xuất hiện nhiều lần thì nên dùng số bít ít, ký hiệu nào xuất hiện ít thì có thể mã hóa bằng từ mã dài hơn Như vậy ta có việc mã hóa với độ dài thay đổi Tuy nhiên, nếu mã hóa với độ dài thay đổi, khi giải mã ta làm thế nào phân biệt được xâu bít nào là mã hóa của ký hiệu nào Một trong các giải pháp là dùng các dấu phẩy (“,”) hoặc một kí hiệu quy ước nào đó để tách từ mã của các kí
tự đứng cạnh nhau Nhưng như thế số các dấu phẩy sẽ chiếm một không gian đáng
kể trong bảng mã Một cách giải quyết khác dẫn đến khái niệm mã tiền tố Mã tiền
tố là bộ các từ mã của một tập hợp các kí hiệu sao cho từ mã của mỗi ký hiệu không
là tiền tố (phần đầu) của từ mã một ký hiệu khác trong bộ mã ấy
Các bước thực hiện mã hóa tối ưu Huffman
- Bước 1: Các nguồn tin được liệt kê trong cột theo thứ tự xác xuất xuất
hiện giảm dần
- Bước 2: Hai tin cuối có xác suất bé nhất được hợp thành một tin phụ mới
có xác xuất bằng tổng xác xuất các tin hợp thành
- Bước 3: Các tin còn lại (N-2) và các tin phụ mới được liệt kê trong cột phụ
thứ nhất theo thứ tự xác xuất giảm dần
- Bước 4 : Quá trình cứ thế tiếp tục cho đến khi hợp thành một tin phụ có xác xuất bằng 1 2 Biểu diễn mã Huffman trên cây nhị phân Nếu có một cây nhị phân n lá ta có thể tạo một bộ mã tiền tố cho n ký hiệu bằng cách đặt mỗi ký hiệu vào một lá Từ mã của mỗi kí hiệu được được tạo ra khi đi từ gốc tới lá chứa ký
hiệu đó, nếu đi qua cạnh trái thì ta thêm số 0, đi qua cạnh phải thì thêm số
Giải thuật tham lam:
Trong giải thuật tham lam giải bài toán xây dựng cây mã tiền tố tối ưu của Huffman, ở mỗi bước ta chọn hai chữ cái có tần số thấp nhất để mã hóa bằng từ mã
dài nhất Giả sử có tập A gồm n ký hiệu và hàm trọng số tương ứng W(i),i = 1 n
- Khởi tạo: Tạo một rừng gồm n cây, mỗi cây chỉ có một nút gốc, mỗi nút
gốc tương ứng với một kí tự và có trọng số là tần số/tần suát của kí tự đó W(i)
Trang 35- Lặp: Mỗi bước sau thực hiện cho đến khi rừng chỉ còn một cây.Chọn hai cây
có trong số ở gốc nhỏ nhất hợp thành một cây bằng cách thêm một gốc mới nối với hai
gốc đã chọn Trọng số của gốc mới bằng tổng trọng số của hai gốc tạo thành nó
Như vậy ở mỗi bước số cây bớt đi một Khi rừng chỉ còn một cây thì cây đó biểu diễn mã tiền tố tối ưu với các ký tự đặt ở các lá tương ứng
Mã hóa số học
Mã hóa Huffman sử dụng một số nguyên k các bít cho mỗi ký hiệu Vì thế, k không bao giờ nhỏ hơn 1 Đôi khi, ví dụ phải truyền một hình ảnh 1 bít, thì không thể nén được
Ý tưởng: giả sử mẫu tự là [X, Y] và P(X) = 2/3, P(Y) = 1/3
Nếu ta chỉ quan tâm tới chiều dài mã hóa là 2 thông điệp, thì ta có thể ánh
xạ tất cả thông điệp có thể có vào những đoạn trong phạm vi [0 1]
Để mã hóa thông điệp, chỉ dùng vừa đủ số bít cần thiết cho mỗi đoạn
Tương tự, ta có thê ánh xạ tất cả chiều dài 3 thông điệp vào các đoạn trong [0 1]
Nói chung, số bít được xác định bằng kích thước của đoạn
Tóm lại, cần log p bít để biểu diễn cho đoạn có kích thước p
Vấn đề đặt ra là làm thế nào để xác định được xác suất
Ý tưởng đơn giản là dùng mô phỏng: bắt đầu bằng việc đoán tần số của một ký hiệu Cập nhật tần số cho mỗi ký hiệu mới
Giải thuật Lempel – Ziv – Welch (LZW)
Là một phương pháp nén được phát minh bởi Lempel - Zip và Welch Nó hoạt động dựa trên một ý tưởng rất đơn giản là người mã hoá và người giải mã cùng xây dựng bảng mã Bảng mã này không cần được lưu kèm với dữ liệu trong quá trình nén, mà khi giải nén, người giải nén sẽ xây dựng lại nó
Nguyên tắc hoạt động của nó như sau:
Một xâu kí tự là một tập hợp từ hai kí tự trở lên
Trang 36Nhớ tất cả các xâu kí tự đã gặp và gán cho nó một dấu hiệu (token) riêng Nếu lần sau gặp lại xâu kí tự đó, xâu kí tự sẽ được thay thế bằng dấu hiệu của nó
Phần quan trọng nhất của phương pháp nén này là phải tạo một mảng rất lớn dùng để lưu giữ các xâu kí tự đã gặp (Mảng này được gọi là "Từ điển") Khi các byte dữ liệu cần nén được đem đến, chúng liền được giữ lại trong một bộ đệm chứa (Accumulator) và đem so sánh với các chuỗi đã có trong "từ điển" Nếu chuỗi dữ liệu trong bộ đệm chứa không có trong "từ điển" thì nó được bổ sung thêm vào "từ điển" và chỉ số của chuỗi ở trong "từ điển" chính là dấu hiệu của chuỗi Nếu chuỗi trong bộ đệm chứa đã có trong "từ điển" thì dấu hiệu của chuỗi được đem ra thay cho chuỗi ở dòng dữ liệu ra Có bốn quy tắc để thực hiện việc nén dữ liệu theo thuật toán LZW là:
- Quy tắc 1: 256 dấu hiệu đầu tiên được dành cho các kí tự đơn (0 - 0ffh)
- Quy tắc 2: Cố gắng so sánh với "từ điển" khi trong bộ đệm chứa đã có nhiều hơn hai kí tự
- Quy tắc 3: Các kí tự ở đầu vào (Nhận từ tập tin sẽ được nén) được bổ sung vào bộ đệm chứa đến khi chuỗi kí tự trong bộ đệm chứa không có trong "từ điển"
- Quy tắc 4: Khi bộ đệm chứa có một chuỗi mà trong "từ điển" không có thì chuỗi trong bộ đệm chứa được đem vào "từ điển" Kí tự cuối cùng của chuỗi kí tự trong bộ đệm chứa phải ở lại trong bộ đệm chứa để tiếp tục tạo thành chuỗi mới
Trong thuật toán nén này, phần lớn thời gian khi bắt đầu nén chủ yếu mất vào việc tạo "từ điển" Khi "từ điển" đủ lớn, xác suất gặp chuỗi ở bộ đệm chứa trong "từ điển" tăng lên và càng nén được nhiều hơn Một điều cần chú ý ở đây là mỗi một dấu hiệu, ta phải lưu một chuỗi trong "từ điển" để so sánh Vì dấu hiệu được biểu diễn bằng một số 12 bits nên "từ điển" sẽ có 4096 lối vào, khi tăng số bit
để biểu diễn dấu hiệu lên thì hiệu quả nén sẽ tốt hơn nhưng lại bị giới hạn bởi bộ nhớ của máy tính Vì dụ, khi dùng 16 bits để biểu diễn một dấu hiệu thì "từ điển" phải có đến 65536 lối vào, nếu mỗi lối vào có khoảng 20 kí tự thì "từ điển" phải lớn khoảng 1,2 MB Với một từ điển có dung lượng như vậy rất khó có thể thực hiện
Trang 37trên các máy tính PC hoạt động dưới hệ điều hành DOS vì giới hạn của một đoạn (Segment) là 64KB
Ưu điểm của phương pháp nén này là bên nhận có thể tự xây dựng bảng mã
mà không cần bên gửi phải gửi kèm theo bản tin nén
2.3 Giải thuật nén có mất dữ liệu
2.3.1 Các phương pháp nén âm thanh đơn giản:
LPC(Linear Predictive Coding)
LPC là một công cụ được sử dụng hầu hết trong xử lý tín hiệu âm thanh và
xử lý tiếng nói để biểu diễn đường bao phổ của tín hiệu số của tiếng nói trong dạng nén sử dụng thông tin của một mô hình dự đoán tuyến tính
LPC là một trong các kỹ thuật phân tích tiếng nói mạnh mẽ và là một công
cụ hiệu quả cho việc mã hóa tiếng nói chất lượng cao với tốc độ bít thấp
Mô hình LPC dựa trên việc xấp xỉ toán học về giọng nói của con người Tại thời điểm t mẫu tiếng nói s(t) được biểu diễn như là một tổng của p mẫu trước
đó Trong LPC bộ lọc dự báo tuyến tính cho phép giá trị của mẫu tiếp theo sẽ được xác định bằng sự kết hợp của các mẫu trước đó Trong điều kiện bình thường các mẫu được lấy với tần số 8000 mẫu, mỗi một mẫu được biểu diễn bằng 8 bit: tốc
độ sẽ là 64000bit (64 Kbit) LPC sẽ giảm tốc độ này xuống còn 24000 bit/s -> sẽ dẫn đến hiện tượng mất thông tin, tuy nhiên chúng ta vẫn có thể nghe và hiểu được
LPC là một phương pháp mới và khác hoàn toàn với các phương pháp PCM, DPCM và ADPCM để tái hiện bằng số các tín hiệu tương tự Phương pháp này dùng bộ lọc ngang (hay các mạch số tương đương) cộng các thành phần phụ dể tổng hợp dạng sóng theo yêu cầu Các tham số của dạng sóng tổng hợp được số hóa để truyền đi thay vì tín hiệu thực sự Xét hiệu quả của các kết quả nếu quá trình tổng hợp chính xác hoàn toàn với tiến trình tương tự Vì đã có các thông số về tiếng nói, LPC đặc biệt thích hợp với tổng hợp tiếng nói và tạo tiếng nói