Sự phát triển ồ ạt này đã dẫn tới ngành công nghệ phần cứng đã không thể đáp ứng được những đòi hỏi về lưu trữ, đồng hành với sự phát triển này là mạng máy tính đó chính là Internet ngày
NHỮNG KHÁI NIỆM CƠ BẢN - SÓNG CƠ
Sự hình thành sóng trong môi trường đàn hồi
Các môi trường chất khí, chất lỏng, chất rắn là môi trường đàn hồi
Môi trường đàn hồi có thể coi là những môi trường liên tục gồm những phân tử liên kết chặt chẽ với nhau, lúc bình thường mỗi phân tử có một vị trí cân bằng bền b Sự hình thành sóng trong môi trường đàn hồi,
Do tính chất của môi trường đàn hồi, cho nên nếu tác dụng lên phân tử nào đó của môi trường thì phân tử này rời khỏi vị trí cân bằng bền
Do tương tác, các phân tử lân cận một mặt kéo phân tử A về vị trí cân bằng, mặt khác nhận một phần năng lượng do phân tử A truyền sang, do đó cũng dao động theo, hiện tượng này xảy ra liên tiếp tạo thành sóng Sóng đàn hồi (sóng cơ) là sự lan truyền dao động trong môi trường đàn hồi Sóng cơ không thể truyền được trong chân không, vì chân không không phải là môi trường đàn hồi
Cần lưu ý trong khi truyền dao động, các phân tử của môi trường không di chuyển theo các dao động được lan truyền mà chỉ dao động quanh vị trí cân bằng của nó c Một số khái niệm về sóng
Nguồn sóng : là ngoại vật gây ra kích động sóng
Tia sóng : là phương truyền sóng
Môi trường sóng : là không gian mà sóng truyền qua
Mặt sóng : là mặt chứa những điểm (phân tử) có cùng trạng thái dao động tại một thời điểm nào đó Tia sóng luôn vuông góc với mặt sóng
Sóng cầu : mặt sóng là những mặt cầu phân bố đều trong không gian, tâm là nguồn sóng Trong môi trường đồng chất và đẳng hướng sẽ có sóng cầu Đối với sóng cầu tia sóng trùng với bán kính của mặt cầu
Sóng phẳng : mặt sóng là những mặt phẳng song song nhau, tia sóng vuông góc với mặt sóng Nếu nguồn sóng ở rất xa môi trường đang xét thì mặt sóng có thể coi là những mặt phẳng song song
Sóng dọc : là sóng trong đó các phân tử của môi trường dao động quanh vị trí cân bằng trên phương trùng với tia sóng Khi có sóng dọc, trên phương của tia sóng các phân tử của môi trường khi thì bị nén chặt, khi thì giãn ra làm cho các phân tử của môi trường có chỗ dày chỗ thưa
Sóng ngang : là sóng trong đó các phân tử của môi trường dao động quanh vị trí cân bằng trên phương vuông góc với tia sóng d Nguyên nhân gây ra sóng ngang và sóng dọc
Tùy tính chất của môi trường đàn hồi mà trong đó có thể xuất hiện sóng ngang hay sóng dọc
- Khi một lớp của môi trường bị lệch đối với lớp khác làm xuất hiện các lực đàn hồi có xu hướng kéo lớp bị lệch về vị trí cân bằng thì trong môi trường đó có thể truyền được sóng ngang Vậy vật rắn là một môi trường có tính chất đó
- Nếu trong môi trường không có các lực đàn hồi khi các lớp song song bị lệch đối với nhau thì sóng ngang không thể hình thành được Chất lỏng và chất khí là những môi trường đó
- Khi bị biến dạng nén hay căng mà trong môi trường có các lực đàn hồi xuất hiện thì trong môi trường đó có thể truyền được sóng dọc Chẳng hạn khi bị nén, chất lỏng hay chất khí sẽ tăng áp suất, lực nén giữ vai trò lực đàn hồi
Như vậy trong chất lỏng và chất khí chỉ có sóng dọc truyền được, còn trong chất rắn có thể truyền được cả hai loại sóng.
Các đặc trưng của sóng
Là quãng đường mà sóng truyền được trong một đơn vị thời gian b Bước sóng
Là quãng đường mà sóng truyền được sau một thời gian bằng 1 chu kỳ T Như vậy
là khoảng cách bé nhất giữa các phân tử dao động cùng pha Theo định nghĩa ta có : = CT c Chu kỳ và tần số
Chu kỳ T là thời gian cần thiết để sóng truyền được 1 bước sóng
Tần số f là số chu kỳ thực hiện được trong 1 giây :
Phương trình sóng
Sóng phẳng truyền dọc theo phương OY với vận tốc C thì phương trình sóng biểu thị mối quan hệ giữa độ chuyển dời X của phân tử dao động kể từ vị trí cân bằng với thời gian t và khoảng cách y đến các vị trí cân bằng các phân tử dao động trên phương truyền sóng như sau :
Nếu sóng phẳng truyền theo hướng ngược với hướng tính khoảng cách y thì :
X = asin(t + y/c) Đối với sóng cầu thì biên độ a của dao động sóng tại vị trí cách nguồn bằng bán kính r, tỉ lệ nghịch với r, phương trình sóng có dạng:
SÓNG ÂM VÀ CÁC ĐẶC TÍNH ÂM THANH
Dao động âm và sự truyền dao động
Sóng âm là một loại sóng cơ có biên độ dao động nhỏ mà thính giác nhận biết được Thí dụ dao động phát ra từ dây đàn, mặt trống đang rung động Sóng âm là một loại sóng cơ nên mọi khái niệm và hiện tượng về dao động và sóng cơ trên đây đều áp dụng cho sóng âm
Trong không khí cũng như trong mọi chất khí khác, những dao động truyền đi dưới dạng sóng dọc, khi đến tai người những dao động có tần số từ 16 đến 20000 Hz sẽ gây cảm giác đặc biệt về âm
Các dao động đàn hồi có tần số f>20.000 Hz là sóng siêu âm
Các dao động đàn hồi có tần số f f 1 ) thì f 2 / f 1 = 2 x
Khi x=1 tức f2 / f1 = 2 gọi là 1 quãng tần số (hay 1 ốc-ta)
Khi x=1/2 tức f2 / f1 = 1.41 gọi là nửa ốc-ta
Khi x=1/3 tức f2 / f1 = 1.26 gọi là 1/3 ốc-ta
- Mức áp suất âm của 1 ốc-ta bằng mức áp suất âm của 1/2 ốc-ta cộng thêm 3db
Vì quãng tần số của một âm qui định độ cao của âm đó nên còn gọi là quãng độ cao Theo tập quán âm nhạc thì quãng độ cao gọi là quãng 8 (bát độ)
Chẳng hạn âm LA, tần số fD0 Hz tăng 1 bát độ là tăng gấp đôi tần số, tức là 880
Trong thực tế thường gặp những âm phức tạp bao gồm nhiều tần số Tập hợp tất cả những tần số cấu tạo trong một âm thanh gọi là “tần phổ” của âm đó, tần phổ có thể gián đoạn hay liên tục Một âm có tần phổ liên tục được đặc trưng bằng “Mức tần phổ B” với định nghĩa:
- Mức tần phổ là mức áp suất âm trong chiều rộng của dải tần số bằng 1
- Một âm có mức tần phổ B không đổi với mọi tần số gọi là tiếng ồn trắng
- Một âm có tần phổ gián đoạn được đặc trưng bằng “mức dải tần số” với định nghĩa: mức dải tần số là mức áp suất âm trong chiều rộng của dải tần số lớn hơn 1
Đặc tính sinh lý về sự cảm thụ âm thanh
1.2.3.1 Mức to, độ to, mức âm cảm giác
Mức áp suất âm, mức cường độ âm trên đây vừa mang tính chất chủ quan vừa mang tính chất khách quan vì những đại lượng này xác định từ những đại lượng thuần túy vật lý Vấn đề có ý nghĩa to lớn trong thực tế là cần biết được sức mạnh của âm thanh đo bằng tai người
Mức to, độ to của một âm là sức mạnh cảm giác do âm thanh gây nên trong tai người, nó không những phụ thuộc vào áp suất âm mà còn phụ thuộc vào tần số của âm đó Thí dụ 2 âm có tần số 100 Hz và 1000 Hz áp suất âm đều bằng 0,02 bar nhưng nghe to nhỏ khác nhau, âm 1000 Hz nghe to hơn âm 100 Hz Muốn nghe to bằng âm 1000 Hz thì âm 100 Hz phải có áp suất bằng 0,25 bar Như vậy tai người không nhạy đối với âm 100 Hz bằng âm 1000 Hz Tần số càng thấp tai người càng kém nhạy a Mức to
- Để biểu thị mức to trên cảm giác chủ quan, ta dùng đại lượng “mức to”, đơn vị là
“Fôn” với định nghĩa như sau :
Fôn là mức to của âm chuẩn, về giá trị bằng mức áp suất âm của âm chuẩn tức là :
- Vậy mức to của một âm bất kỳ đo bằng Fôn, về giá trị bằng mức áp suất âm của âm chuẩn đo bằng db có cùng mức to với âm đó Thí dụ: âm có tần số 500 Hz mức áp suất âm bằng 25 db và âm có tần số 50 Hz mức áp suất âm bằng 64 db sẽ có cùng mức to bằng 20 Fôn, bằng mức to của âm 1000 Hz mức áp suất bằng 20 db
- Muốn biết mức to của một âm bất kỳ phải so sánh với âm chuẩn
- Đối với âm chuẩn, mức to ở ngưỡng nghe là 0 Fôn, ngưỡng chói tai là 120 Fôn
- Cùng một giá trị áp suất, âm tần số càng cao, mức to càng lớn b Độ to
- Khi so sánh âm này to hơn âm kia bao nhiêu lần, dùng khái niệm “độ to” đơn vị là
“Sôn” với định nghĩa như sau:
Số lượng Sôn biểu thị số lần mạnh hơn của một âm nào đó so với âm chuẩn mà tai người có thể phân biệt được
- Độ to là một thuộc tính của thính giác, cho phép phán đoán tính chất mạnh yếu của âm thanh Căn cứ vào độ to mà sắp xếp âm từ nhỏ tới to
- Mức to tăng 10 Fôn thì độ to tăng gấp đôi và ngược lại
1.2.3.2 Âm điệu và âm sắc Âm điệu chỉ âm cao hay thấp, trầm hay bổng Âm điệu chủ yếu phụ thuộc vào tần số của âm, tần số càng cao, âm nghe càng cao, tần số càng thấp âm nghe càng trầm Âm sắc chỉ sắc thái của âm du dương hay thô kệch, thanh hay rè, trong hay đục Âm sắc phụ thuộc vào cấu tạo của sóng âm điều hòa, biểu thị bằng số lượng các loại tần số, cường độ và sự phân bố của chúng quanh âm cơ bản Âm sắc có quan hệ mật thiết với cường độ, âm điệu và thời gian âm vang, sự trưởng thành và tắt dần của trường âm
Khi hai ca sĩ cùng hát một câu ở cùng một độ cao, ta vẫn phân biệt được giọng hát của từng người Khi đàn ghi-ta, sáo, kèn cùng tấu lên một đoạn nhạc ở cùng một độ cao, ta vẫn phân biệt được tiếng của từng nhạc cụ Mỗi người, mỗi nhạc cụ phát ra những âm có sắc thái khác nhau mà tai ta phân biệt được Đặc tính đó của âm chính là âm sắc Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc tính vật lý của âm là tần số và biên độ Thực nghiệm chứng tỏ rằng khi một nhạc cụ phát ra một âm có tần số f1 thì đồng thời cũng phát ra các âm có tần số f2/1, f3?1 Âm có tần số f1 gọi là âm cơ bản hay họa âm thứ nhất, các âm có tần số f2 , f3 gọi là các họa âm thứ hai, thứ ba Âm cơ bản bao giờ cũng mạnh nhất, các họa âm có tác dụng quyết định âm sắc của âm cơ bản, giúp ta phân biệt các nguồn âm khác nhau Chẳng hạn tiếng đàn Pi-a-nô và tiếng sáo tuy cùng một âm cơ bản nhưng lại rất dễ phân biệt, nguyên nhân là do số lượng, cấu trúc những họa âm quanh âm cơ bản của chúng khác nhau Họa âm càng nhiều âm nghe càng du dương phong phú
1.2.3.3 Thính giác định vị (hiệu ứng Stereo)
Khi nghe âm tuy mắt không nhìn thấy nguồn âm nhưng có thể xác định chính xác vị trí của nguồn âm Đặc điểm này là kết qủa của hai tác dụng:
- Do cường độ, độ to, âm sắc của âm đến hai tai không giống nhau
- Do âm đến hai tai lệch pha nhau, vì thời gian đến hai tai không giống nhau
Cường độ, độ to của âm đến hai tai chênh lệch nhau là do nhiễu xạ gây ra Âm có tần số f < 1000 Hz sự chênh lệch cường độ do nhiễu xạ gây ra rất bé nhưng ở những tần số cao, sự chênh lệch này có thể đạt tới 20 - 30 db
Do khả năng định vị của tai như vậy cho nên khi nghe âm có thể tập trung chú ý vào nguồn âm cần nghe, bỏ qua một cách tự nhiên những âm không cần nghe Nhờ hiệu qủa này mà tiếng ồn bị phủ lấp hoặc giảm nhỏ một cách tự nhiên Nếu chỉ nghe âm một tai thì hiệu qủa này mất
1.2.3.4 Nghe âm và chênh lệch thời gian
Tương tự như tác dụng lưu ảnh của mắt, tai người cũng có tác dụng lưu âm
Thí nghiệm với nhiều thính giác bình thường cho thấy rằng, nếu hai âm như nhau đến tai người cách nhau < 50 ms thì tai người không phân biệt được, nghe như một âm duy nhất.
CÁC GIẢI THUẬT NÉN ÂM THANH THÔNG DỤNG VÀ CÁC ĐỊNH DẠNG ÂM THANH SỐ
NỀN TẢNG LÝ THUYẾT THÔNG TIN
Theo Shannon, entropy của một nguồn thông tin S được định nghĩa:
Trong đó: - pi là xác suất mà ký hiệu Si xuất hiện trong S
- log 2 (1/p i ) chỉ ra số lượng thông tin chứa đựng trong S i , nghĩa là số bit cần thiết để mã hóa Si
Ví dụ: một hình ảnh được tô đều với cùng một cường độ màu xám, tức là p i =1/256, thì số bit cần thiết để mã hóa cho mỗi mức xám là 8 bits Entropy của hình này là 8
Ta dùng một ví dụ đơn giản để mô tả giải thuật:
Mã hóa cho giải thuật Shannon - Fano:
Dùng cách tiếp cận từ trên xuống
Sắp thứ tự các ký hiệu theo tần số xuất hiện của nó, nghĩa là: ABCDE
Chia thành hai phần, mỗi phần tương đương với cùng số lần đếm
Hình 2.1: Cây mã Shannon – Fano
Ký hiệu Số lần log 2 (1/p) Mã Cộng(số bit)
CÁC GIẢI THUẬT NÉN KHÔNG TỔN HAO
Khởi tạo: đưa tất cả các node vào danh sách OPEN theo thứ tự tại mọi thời điểm Ví dụ: ABCDE
Lặp lại cho đến khi danh sách OPEN chỉ còn một node bên trái như sau:
- Từ danh sách OPEN, chọn hai node có xác suất thấp nhất, tạo node cha cho chúng
- Gán tổng các xác suất cho node cha và đưa node cha vào danh sách OPEN
- Gán các mã 0, 1 vào các nhánh của cây, xóa các node con khỏi danh sách OPEN
Ký hiệu Số lần log 2 (1/p) Mã Cộng (số bit)
Việc giải mã cho cả hai giải thuật trên là tầm thường chừng nào mà bảng mã (thống kê) được gửi trước dữ liệu Có một bit bên trên công việc truyền này, nhưng không đáng kể nếu file dữ liệu lớn
Tính chất tiền tố duy nhất: không có mã nào là tiền tố cho một mã khác (tất cả các ký hiệu đều là node lá) rõ ràng là lớn đối với bộ giải mã
Nếu việc thống kê có thể tiến hành được trước đó và với độ chính xác cao, thì mã Huffman là rất tốt
Số bit cần thiết cho mã hóa Huffman là : 87 / 39 = 2.23
(a) Các giải thuật trên đây yêu cầu kiến thức về thống kê là điều mà khó có thể thực hiện (ví dụ âm thanh, hình ảnh sống )
(b) Ngay cả khi nếu điều đó là có thể làm được thì chi phí cho nó khá nặng, đặc biệt khi có nhiều bảng phải được truyền mà mô hình non-order() được sử dụng, nghĩa là việc đưa vào tính toán sự ảnh hưởng của các ký hiệu trước đó với xác suất của ký hiệu hiện hành
Mã hóa Huffman sử dụng một số nguyên k các bit cho mỗi ký hiệu, vì thế k không bao giờ nhỏ hơn 1 Đôi khi, ví dụ phải truyền một hình ảnh 1 bit, thì không thể nén được Ý tưởng: giả sử mẫu tự là [X, Y] và P(X) = 2/3
Nếu ta chỉ quan tâm với chiều dài mã hóa là 2 thông điệp, thì ta có thể ánh xạ tất cả thông điệp có thể có vào những đoạn trong phạm vi [0 1]
Để mã hóa thông điệp, chỉ dùng vừa đủ số bit cần thiết cho mỗi đoạn
Tương tự, ta có thể ánh xạ tất cả chiều dài 3 thông điệp vào các đoạn trong [0 1]
Nói chung, số bit được xác định bằng kích thước của đoạn
Ví dụ: Đoạn đầu tiên là 8/27, cần 2 bit 2/3 bit cho mỗi ký tự Đoạn cuối là 1/27, cần 5 bit
Tóm lại, cần -[logp] bit để biểu diễn cho đoạn có kích thước p
Vấn đề đặt ra là làm thế nào để xác định được xác suất? Ý tưởng đơn giản là dùng mô phỏng: bắt đầu bằng việc đoán tần số của một ký hiệu Cập nhật tần số cho mỗi ký hiệu mới
2.2.4 Giải thuật Lempel-Ziv-Welch(LZW)
Phương pháp nén LZW được phát minh bởi Lempel - Zip và Welch Nó hoạt động đựa trên một ý tưởng rất đơn giản là người mã hoá và người giải mã cùng xây dựng bản mã
Nguyên tắc hoạt động của nó như sau:
Một xâu kí tự là một tập hợp từ hai kí tự trở lên
Nhớ tất cả các xâu kí tự đã gặp và gán cho nó một dấu hiệu (token) riêng
Nếu lần sau gặp lại xâu kí tự đó, xâu kí tự sẽ được thay thế bằng dấu hiệu của no
Phần quan trọng nhất của phương pháp nén này là phải tạo một mảng rất lớn dùng để lưu giữ các xâu kí tự đã gặp (Mảng này được gọi là "Từ điển") Khi các byte dữ liệu cần nén được đem đến, chúng liền được giữ lại trong một bộ đệm chứa (Accumulator) và đem so sánh với các chuỗi đã có trong "từ điển" Nếu chuỗi dữ liệu trong bộ đệm chứa không có trong "từ điển" thì nó được bổ sung thêm vào "từ điển" và chỉ số của chuỗi ở trong "từ điển" chính là dấu hiệu của chuỗi Nếu chuỗi trong bộ đệm chứa đã có trong "từ điển" thì dấu hiệu của chuỗi được đem ra thay cho chuỗi ở dòng dữ liệu ra Có bốn qui tắc để thực hiên việc nén dữ liệu theo thuật toán LZW là:
- qui tắc 1: 256 dấu hiệu đầu tiên được dành cho các kí tự đơn (0 - 0ffh)
- qui tắc 2: Cố gắng so sánh với "từ điển" khi trong bộ đệm chứa đã có nhiều hơn hai kí tự
- qui tắc 3: Các kí tự ở đầu vào (Nhận từ tập tin sẽ được nén) được bổ sung vào bộ đệm chứa đến khi chuỗi kí tự trong bộ đệm chứa không có trong "từ điển"
- qui tắc 4: Khi bộ đệm chứa có một chuỗi mà trong "từ điển" không có thì chuỗi trong bộ đệm chứa được đem vào "từ điển" Kí tự cuối cùng của chuỗi kí tự trong bộ đệm chứa phải ở lại trong bộ đệm chứa để tiếp tục tạo thành chuỗi mới
Ví dụ: Các bước để mã hoá chuỗi "!BAN!BA!BAA!BAR!BAT" như sau:
- Bước 1: Kí tự thứ nhất ‘!’ được cất vào bộ đệm chứa để chuẩn bị tạo nên một chuỗi
- Bước 2: Kí tự thứ hai ‘B’ nối thêm vào sau kí tự ! Vì trong "từ điển" chưa có chuỗi "!B" nên chuỗi này được thêm vào "từ điển" và được gán dấu hiệu là 100h (Vì từ 000h đến 0ffh được dành riêng cho các kí tự đơn: Qui tắc 1) ‘!’ được gửi ra còn ‘B’ phải ở lại trong bộ đệm chứa
- bước 3: Kí tự thứ ba ‘A’ thêm vào sau ‘B’ Chuỗi "BA" cũng chưa có trong "từ điển" nên nó được thêm vào "từ điển" và gán dấu hiệu là 101h ‘A’ ở lại trong bộ đệm chứa còn ‘B’ được gửi ra
- bước 4: Kí tự thứ tư ‘N’ thêm vào sau ‘A’ tạo thành chuỗi "AN" cũng chưa có trong "từ điển" nên được thêm vào "từ điển" và có dâu hiệu là 102h ‘N’ ở lại trong bộ đệm chứa còn ‘A’ được gửi ra
- bước 5: Kí tự thứ năm ‘!’ thêm vào sau ‘N’ để tạo thành chuỗi "N!",
"N!" được thêm vào "từ điển" với dấu hiệu là 103h ‘!’ ở lại còn ‘N’ được gửi ra
- bước 6: Kí tự thứ sáu ‘B’ thêm vào sau ‘!’ Lần này thì chuỗi "B!" đã có trong "từ điển" nên không có kí tự nào được gửi ra "B!" tiếp tục ở lại trong "từ điển" để tạo ra chuỗi mới
- bước 7: Kí tự thứ bảy ‘A’ thêm vào sau ‘B’ để tạo thành chuỗi "B!A", do "B!A" không có trong "từ điển" nên nó được thêm vào "từ điển" và gán dấu hiệu là 104h đồng thời dấu hiệu 100h được gửi ra thay cho
"B!" (Qui tắc 4) A tiếp tục ở lại trong bộ đệm chứa để tạo thành chuỗi mới
CÁC GIẢI THUẬT NÉN CÓ TỔN HAO
2.3.1 Các phương pháp nén âm thanh đơn giản
Các phương pháp nén khảo sát ở trên không hiệu quả trong việc nén âm thanh
Sau đây là các phương pháp nén có tổn hao:
- Nén “silence” : dò các khoảng “yên lặng”, giống như mã hoá run-length
- CELP (Code Excited Linear Predictor)
2.3.2 Nén âm thanh dùng mô hình âm - tâm lý a Hệ thống nghe và phát âm của con người
Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2- 5kHz
Phạm vi phát âm bình thường từ 500 Hz đến 2 kHz b Che tần số (Frequency masking)
“Ngưỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một tần số và mức to (dB) xác định sẽ có một “ngưỡng che” c Băng giới hạn
Thước đo tần số đồng bộ không tương xứng với độ rộng của đường cong che
Băng giới hạn có độ rộng là 100Hz đối với các tần số che < 500Hz, và càng tăng lên đối với các tần số >500Hz
Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen)
1 Bark = bề rộng của băng giới hạn:
- Tần số < 500Hz: 1 bark = freq/100
- Tần số > 500Hz: 1 bark = 9 + 4log(freq/1000)
Ngưỡng che trên thước đo băng giới hạn:
Hình 2.3.2: Ngưỡng che trên thước đo băng giớ hạn d Che nhất thời (Temporal masking): che theo thời gian
Tai người cũng có đặc tính lưu âm
Nếu có một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được một âm lân cận nhỏ hơn
CÁC ĐỊNH DẠNG ÂM THANH SỐ
Khi ghi âm, âm thanh có thể được lưu dưới dạng tập tin Có nhiều định dạng tập tin âm thanh khác nhau Và 3 dạng chính là:
Dạng tự nhiên: như các tập tin có đuôi WAV, AIF các tập tin này cho âm thanh tốt song thời gian truyền lâu
Dạng nén: các tập tin Shock wave, Quick Time, MPEG, Ogg để phát lại cần có phần mềm đặc biệt Ưu điểm là kích thước nhỏ, nhưng mất thời gian giải nén, và chất lượng giảm
Dạng MIDI: định dạng đơn giản, kích thước nhỏ, thuận lợi trong việc soạn thảo âm thanh, nhưng chất lượng phụ thuộc vào thiết bị
2.4.2 Giới thiệu về các định dạng âm thanh nén
2.4.2.1 Phân loại theo chất lượng âm thanh
Adaptive Differential (or Delta) pulse-code modulation (ADPCM)
Adaptive Rate-Distortion Optimised sound codeR (ARDOR)
Adaptive Transform Acoustic Coding (ATRAC)
DTS Coherent Acoustics (DTS, Digital Theatre System Coherent Acoustics)
MPEG audio o layer-1 (MP1) o layer-2 (MP2) (MPEG-1, MPEG-2 and non-ISO MPEG-2.5) o layer-3 (MP3) (MPEG-1, MPEG-2 and non-ISO MPEG-2.5)
Advanced Audio Coding (AAC, MPEG-2 and MPEG-4)
HE-AAC o Harmonic and Individual Lines and Noise (HILN, MPEG-4 Parametric Audio Coding)
Advanced Multi-Band Excitation (AMBE)
Algebraic Code Excited Linear Prediction (ACELP)
Code Excited Linear Prediction (CELP)
Continuously variable slope delta modulation (CVSD)
Enhanced Variable Rate Codec (EVRC)
G.723 (24 and 40 kbit/s DPCM, mở rộng từ G.721, được thay bằng G.726)
Harmonic Vector Excitation Coding (HVXC)
Internet Low Bit Rate Codec (iLBC)
Improved Multi-Band Excitation (IMBE)
internet Speech Audio Codec (iSAC)
Mixed Excitation Linear Prediction (MELP)
Relaxed Code Excited Linear Prediction (RCELP)
RTAudio - used by Microsoft Live Communication Server
Vector Sum Excited Linear Prediction (VSELP)
Apple Lossless Audio Codec (ALAC)
Free Lossless Audio Codec (FLAC)
Lossless Predictive Audio Compression (LPAC)
Lossless Transform Audio Compression (LTAC)
MPEG-4 Audio Lossless Coding (MPEG-4 ALS)
MPEG-4 Advanced Audio Coding - Scalable to lossless (AAC-SLS, được xem như HD-AAC)
Meridian Lossless Packing (MLP), được xem như Packed PCM (PPCM)
2.4.2.2 Phân loại theo âm nhạc và giọng nói
MPEG-1 Layer III (MP3) , MPEG-1 Layer II , MPEG-1 Layer I , AAC , HE- AAC, AC3 , AMR , Apple Lossless , ATRAC , DRA , FLAC , iLBC , Monkey's Audio , μ-law , Musepack , Nellymoser , OptimFROG , RealAudio , RTAudio , SHN , Siren , Speex , Vorbis , WavPack , WMA , TAK , True Audio, MIDI …
G.711 , G.718 , G.719 , G.722 , G.722.1 , G.722.2 , G.723 , G.723.1 , G.726 , G.728 , G.729 , G.729.1 , G.729a, AMBE, ACELP, CELP, CVSD, Dialogic ADPCM (VOX), DSS, EVRC, FS-1015 (LPC-10), FS-1016 (CELP)…
2.4.2.3 Phân loại theo các tiêu chuẩn quốc tế
Bảng 2.4.2.3 Phân loại âm thanh theo chuẩn quốc tế
ISO/IEC MPEG-1 Layer III (MP3) ã MPEG-1 Layer II ã MPEG-1 Layer
Others AC3 ã AMR ã Apple Lossless ã ATRAC ã DRA ã FLAC ã iLBC ã
Monkey's Audio ã μ-law ã Musepack ã Nellymoser ã OptimFROG ã RealAudio ã RTAudio ã SHN ã Siren ã Speex ã Vorbis ã WavPack ã WMA ã TAK ã True Audio …
2.4.3 Giới thiệu về một số định dạng thông dụng
AU: là các tập tin có đuôi au Hỗ trợ các tập tin dạng mono và stereo với độ phân giải từ 8bit tới 16bit, tần số lấy mẫu trong khoảng 8KHz tới 48KHz Nguyên gốc trên nền UNIX, song cũng hỗ trợ bởi các ứng dụng PC và MAC
AIFF: là các tập tin có đuôi aif (Audio Interchange File Format) Hỗ trợ tập tin âm thanh không nén dạng mono, stereo hoặc đa kênh (multi-channel) Độ phân giải và tần số lấy mẫu trong phạm vi rất rộng, đạt tới chất lượng CD (16bit, lấy mẫu 44KHz) Nguyên gốc trên nền Macintosh nhưng cũng hỗ trợ trên PC và UNIX
WAV : là các tập tin có đuôi wav (Waveform Audio) Hỗ trợ dạng mono, stereo, hoặc đa kênh với tần số lấy mẫu 44KHz, 16bit mẫu Khuôn dạng WAV nguyên gốc trên nền Windows WAV tương tự cấu trúc aif nhưng khác phần đầu thông tin (header) Ta sẽ sử dụng định dạng này để làm nguồn âm thanh dùng cho việc nén ở phần sau
MID : là các tập tin có đuôi mid (Musical Instrument Data Interchange) Hỗ trợ dữ liệu Standar MIDI File (SMF) trên hệ thống trang bị MIDI playback (với một số định dạng âm thanh tổng hợp)
Không có yêu cầu thiết lập đặc biệt nào đối với các bộ duyệt (browser) các tập tin âm thanh được lưu trữ trong một định dạng đặc biệt với tần số lấy mẫu và độ phân giải riêng biệt Phần đuôi (phần mở rộng của tập tin) và header của tập tin được chèn vào một cách tự động khi thực hiện lưu tập tin, ngoài ra còn có các thông tin bộ duyệt cần thiết để khởi đầu khi phát lại
MP3 : là một dạng file đã được nén bằng cách nén dữ liệu mất đi (lossy) Nó là một dạng âm thanh PCM pulse-code modulation-encoded nhỏ hơn rất nhiều so với dữ liệu ban đầu do nó bỏ đi những phần âm thanh được cho là không quan trọng trong khoảng nghe được của con người, tương tự như cách nén JPEG dành cho hình ảnh
Tên của dạng này bắt nguồn từ "MPEG-1, lớp âm 3", còn được gọi chính thức hơn là ISO/IEC 11172-3 lớp 3 Những tập tin theo dạng này được lưu với phần mở rộng tên mp3 Đôi khi những tập tin theo tiêu chuẩn MPEG-2, lớp âm 3 cũng sử dụng phần mở rộng này Phần mở rộng mp3 do Hội Fraunhofer
Có rất nhiều kỹ thuật đã được dùng trong chuẩn nén MP3 để xác định phần nào nên bỏ đi, trong đó có tâm thần âm học psychoacoustic Dữ liệu MP3 có thể được tạo ra với nhiều bitrate khác nhau để có thể dễ dàng chọn lựa giữa chất lượng cao hay cỡ tập tin đầu ra nhỏ
Cốt lõi của kỹ thuật nén MP3 là một dạng biến đổi phức để chuyến tín hiệu sóng ngang theo thời gian thành tín hiệu dựa theo tần số:
32 băng tần phép lọc cầu phương đa âm
36 hay 12 nhánh MDCT; kích cỡ có thể được định cho từng băng tần con từ
đặt kí hiệu aliasing để làm giảm cỡ tập tin sau nén
MP3 vòm, một dạng MP3 hỗ trợ 5+1 kênh cho âm thanh vòm, được giới thiệu vào tháng 12 năm 2004 MP3 vòm có tính tương thích ngược với chuẩn MP3 trước đây, và kích cỡ file sau nén cũng tương tự
Theo dự án mới của MPEG thì AAC (Advanced audio coding), một phần của chuẩn MPEG-4 sẽ là chuẩn kế thừa MP3 Đã có rất nhiều kỹ thuật nén khác được tạo ra nhưng sản phẩm kế thừa nào cũng khó lòng thay thế được MP3 vì nó đã trở nên quá phổ biến cả của người dùng và những nhà sản xuất các đầu đọc CD, DVD
MP3pro: Chuẩn nén này tốt hơn MP3 khi nén ở các tốc độ thấp MP3 thuờng khi nén duới 96Kbps, tần số lấy mẫu (KHz) sẽ giảm xuống còn 22000Hz Tần số gốc của CD là 44.1 Khz MP3pro chỉ đạt đuợc tần số này khi nén trên 96Kbps
Tai nguời có thể phân biệt đuợc những âm thanh có tần số nhỏ hơn 22000Hz, do đó âm thanh muốn lấy mẫu nghe đuợc trung thực, tần số phải gấp đôi (chắc các bạn học về xử lý tín hiệu số sẽ biết rõ hơn về điều này) Do đó, nếu âm thanh lấy mẫu duới 44000 Hz thì nghe sẽ không còn trung thực nữa
MP3pro tốt hơn MP3 cũ Khi nén duới 96Kbps, và trên 32Kbps, tần số vẫn còn giữ ở mức 44Khz, còn nếu duới nữa sẽ chỉ đạt 32Kbps MP3 Pro sử dụng công nghệ là tách riêng tần số cao và tần số thấp khi nén
Kết luận
1) Có hai loại giải thuật dùng để nén âm thanh: giải thuật nén không tổn hao và giải thuật nén có tổn hao
2) Định dạng âm thanh số rất đa dạng, ta có thể phân loại dựa theo chất lượng âm thanh, Phân loại theo âm nhạc và giọng nói, hoặc phân loại theo các tiêu chuẩn quốc tế
3) Âm thanh số có ứng dụng thực tế trên các máy nghe nhạc kỹ thuật số, điện thoại di động, VoIP …
4) Để tạo nên các chuẩn nén âm thanh số cao cấp hơn thì ta phải nghiên cứu ra các giải thuật nén tiên tiến hơn nữa
5) Tùy theo mục đích và nhu cầu sử dụng của con người mà ta sử dụng chuẩn âm thanh số nào cho phù hợp