Trên cơ sở nghiên cứu mô hình Markov ẩn HMM và ngữ âm tiếng Việt, bài báo này đưa ra một số đề xuất nhận dạng từ có thanh điệu khác nhau trong tiếng Việt và một số kết quả thử nghiệm với
Trang 1Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
nhận dạng từ có thanh điệu khác nhau trong tiếng việt sử dụng mô hình markov ẩn
Hoàng Hữu Việt (a)
Tóm tắt Trên cơ sở nghiên cứu mô hình Markov ẩn (HMM) và ngữ âm tiếng Việt, bài báo này đưa ra một số đề xuất nhận dạng từ có thanh điệu khác nhau trong tiếng Việt và một số kết quả thử nghiệm với hệ thống nhận dạng thanh điệu tiếng Việt Các thử nghiệm giới hạn là từ tiếng Việt giống nhau về âm đầu, vần và chỉ khác nhau về thanh điệu, bộ từ vựng nhỏ, phụ thuộc người nói Kết quả nhận dạng tốt nhất với độ chính xác là 96.67% ở mức âm tiết và 82.50% ở mức câu
1 Giới thiệu
Nhận dạng tiếng nói bằng máy tính cho phép con người giao tiếp với máy tính bằng tiếng nói Hiện nay trên thế giới đã có những hệ thống nhận dạng tiếng nói cỡ lớn, độ chính xác tương đối cao nhưng chủ yếu được phát triển trên những cơ sở dữ liệu tiếng nói khá hoàn chỉnh, chủ yếu là tiếng Anh ở Việt Nam, việc nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói mới ở bước đầu với rất ít kết quả được công bố
Để xây dựng được các hệ thống nhận dạng tiếng nói thành công của mỗi một dân tộc, ngoài những nguyên tắc nhận dạng chung, đòi hỏi người nghiên cứu phải quan tâm, khai thác triệt để các yếu tố tiếng nói đặc thù riêng nhằm phát triển được
hệ thống nhận dạng phù hợp
Tiếng Việt là một ngôn ngữ đơn âm, có thanh điệu, mỗi âm tiết đều có một thanh điệu đóng vai trò là một âm vị mang tính siêu đoạn Đó là loại âm vị không có
âm đoạn, không độc lập tồn tại nhưng có chức năng phân biệt nghĩa [1] Việc đi sâu nghiên cứu, tích hợp các đặc trưng của tiếng Việt vào các hệ thống nhận dạng tiếng nói bằng các phương pháp nhận dạng hiện đại là một hướng nghiên cứu nhằm tiến tới xây dựng các ứng dụng nhận dạng tiếng Việt phù hợp Nghiên cứu ảnh hưởng của thanh điệu, một trong những đặc trưng cơ bản của tiếng Việt, là cần thiết giúp cho quá trình xây dựng một hệ thống nhận dạng tiếng Việt sau này
Trong bài viết này, chúng tôi trình bày cấu trúc cơ bản của âm tiết tiếng Việt
và một số kết quả nghiên cứu thử nghiệm nhận dạng âm tiết có thanh điệu khác nhau trong tiếng Việt sử dụng mô hình Markov ẩn
2 Cấu trúc cơ bản của âm tiết tiếng việt
2.1 Cấu trúc cơ bản của âm tiết tiếng Việt
Về mặt cấu trúc, âm tiết tiếng Việt được tạo thành từ 3 thành phần khá độc lập là âm đầu, vần và thanh điệu, trong đó phần vần có thể được chia thành âm
đệm, âm chính và âm cuối
Trang 2Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
Bảng 2.1 Cấu trúc của âm tiết tiếng Việt
Thanh điệu
Vần
Âm đầu
Âm đầu luôn luôn là một phụ âm hoặc có thể thiếu trong một số âm tiết Vần
được phân thành âm đệm, âm chính và âm cuối Âm đệm và âm cuối có thể thiếu trong một số âm tiết Âm chính là một nguyên âm đơn hoặc một nguyên âm đôi Âm cuối là một phụ âm hoặc bán nguyên âm Tiếng Việt có 22 âm đầu, 155 vần, 1 âm
đệm, 16 âm chính và 8 âm cuối Tổng số âm tiết phát âm khác nhau khoảng 18598
âm tiết nhưng thực tế chỉ có 7000 âm tiết khác nhau được sử dụng [1]
Thanh điệu là một âm vị siêu đoạn tính, nó được biểu hiện trong toàn bộ âm tiết bao gồm cả âm đầu, âm đệm, âm chính và âm cuối Thanh điệu tiếng Việt có 6 thanh là thanh ngang (không dấu), thanh sắc, thanh ngã, thanh hỏi, thanh huyền
và thanh nặng
Theo các nhà ngữ âm học, ba tiêu chí khu biệt cho 6 âm vị thanh điệu được biểu diễn theo sơ đồ hình cây sau:
Trong hình 2.1 tính từ mỗi điểm phân nhánh, nhánh trái biểu thị vế đầu, nhánh phải biểu thị vế sau của thế đối lập
Âm vực là độ cao của thanh điệu Âm điệu là sự biến thiên của độ cao theo thời gian
Sự thể hiện âm điệu của các thanh điệu trong những âm tiết tách rời như sau:
- Thanh không dấu là một thanh thuộc âm vực cao, đường nét âm điệu bằng phẳng hầu như không lên không xuống từ đầu đến cuối
- Thanh huyền là một thanh thuộc âm vực thấp, xuất phát thấp hơn thanh không dấu một nữa độ cao Đường nét âm điệu bằng phẳng hơi đi xuống thoai thoải
Không dấu Huyền Ng Hỏi Sắc Nặng
Âm điệu bằng - Trắc
Âm điệu gy - Không gy
Âm vực cao - Thấp
Hình 2.1 Tiêu chí khu biệt cho 6 âm vị thanh điệu
Trang 3Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
- Thanh ngã xuất phát gần ngang với độ cao xuất phát của thanh huyền Thanh này bắt đầu ở âm vực thấp nhưng kết thúc ở âm vực cao Đường nét âm điệu không bằng phẳng, có hai biến thể:
+ Đường nét bắt đầu cao hơn thanh huyền một chút đến giữa âm tiết đi xuống đột ngột, dốc đứng trong một thời gian ngắn, sau đó vút lên ngang với độ cao ban đầu và đi thêm 1 quãng nữa
+ Đường nét bắt đầu và kết thúc tương tự như trên nhưng bị gián đoạn ở giữa
- Thanh hỏi bắt đầu ở mức cao của độ xuất phát thanh huyền Đường nét âm
điệu thấp dần từ khi bắt đầu, đến quãng giữa thì chuyển sang một nét đi lên cân đối với nét đi xuống ban đầu, và kết thúc ngang bằng với độ cao xuất phát
- Thanh sắc có các biến thể:
+ Trong các âm tiết có âm cuối không phải là âm tắc, vô thanh, đường nét
âm điệu bắt đầu xấp xỉ với thanh không dấu, với một âm điệu bằng ngang sau
đó âm điệu đi lên, kết thúc cao hơn thanh không dấu
+ Trong các âm tiết có âm cuối là âm tắc, vô thanh Nếu âm chính là nguyên âm dài thì phần bằng ngang ngắn hơn nhiều hoặc có khi mất hẳn Độ cao xuất phát và độ cao kết thúc về cơ bản như trường hợp trên Nếu âm chính
là nguyên âm ngắn thì thanh điệu bắt đầu cao hơn khá nhiều, đường nét âm
điệu đi lên mạnh hơn và kết thúc ở một khoảng cách nhỏ
- Thanh nặng là thanh điệu thuộc âm vực thấp, nó bắt đầu xấp xỉ với mức cao ban đầu của thanh huyền Các biến thể gồm:
+ Trong các âm tiết có âm cuối không phải là âm tắc, vô thanh, đường nét bắt đầu bằng ngang và kéo dài trong phần lớn của bộ phận vần, sau đó đi xuống với độ dốc lớn Nếu âm cuối là âm mũi thì phần đi xuống nằm vào âm cuối
+ Trong các âm tiết kết thúc bằng âm tắc, vô thanh, phần đi xuống nằm ngay ở cuối nguyên âm làm âm chính Nếu âm chính là nguyên âm ngắn thì phần ngang bằng thu ngắn lại
Thanh điệu là sự nâng cao hoặc hạ thấp “giọng nói” trong một âm tiết, điều đó
có nghĩa là sự thay đổi tần số âm thanh cơ bản của nguyên âm Dây thanh chấn
động tạo ra âm thanh Khi âm cơ bản giữ nguyên, các hoạ âm (là các tần số bằng bội
số của tần số âm cơ bản) thay đổi về cường độ và độ cao do hiện tượng cộng hưởng thì toàn bộ âm thanh sẽ thay đổi âm sắc và nhận được các nguyên âm khác nhau về thanh điệu, ví dụ “à”, ”ù”, ”ì” Ngược lại, nếu tần số âm cơ bản thay đổi trong khi các hoạ âm không thay đổi do không có sự biến đổi gì về cộng hưởng thì sẽ chỉ có một nguyên âm với một âm sắc không đổi, nhưng với nhiều thanh điệu khác nhau, ví dụ
Trang 4Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
Như vậy thanh điệu được xác định bởi tần số âm cơ bản, tuy nhiên độ cao của
âm cơ bản không nhất thiết phải đồng đều trong thời gian tồn tại của âm tiết mà có
sự biến thiên theo thời gian
Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết trong phát ngôn "ma, mà, má, mạ, mả, mã" được trích chọn trong khoảng thời gian 10ms sử dụng phần mềm Praat [8] được chỉ ra trong hình 2.2
Hình 2.2 Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết 2.2 Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt
Xét việc phát âm các từ “ma”, “má”, “mà”, “mả”, “mã”, “mạ”, nếu bỏ đi phần thanh điệu thì được phát âm là /ma/, là những âm tiết đồng âm Trong một câu nói,
để xác định chính xác âm tiết nào được phát âm cần phải sử dụng các thông tin về ngữ cảnh, nghĩa là các âm tiết được phát âm trước và sau nó, điều này được giải quyết bằng mô hình ngôn ngữ Tuy nhiên, nếu nhận dạng chính xác được thanh
điệu, thì có thể xác định được âm tiết phát âm thay vì phải sử dụng mô hình ngôn ngữ
Căn cứ vào cấu tạo âm tiết tiếng Việt, vào tính chất thanh điệu được xác định bởi tần số âm cơ bản Fo và vào tập tham số MFCC (Mel - Frequency Cepstral Coefficients) không chứa tần số âm cơ bản F0 chúng tôi tiến hành thử nghiệm tập tham số MFCC kết hợp với tần số cơ bản F0 để xem xét sự chính xác của hệ thống nhận dạng âm tiết có các thanh điệu khác nhau trong tiếng Việt
Trang 5Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
3 Thực nghiệm
Hệ thống nhận dạng tiếng Việt được xây dựng bằng phần mềm Matlab dựa trên một số modul phân tích tham số đặc trưng của tiếng nói [6] và modul nhận dạng HMM [7]
3.1 Mô hình hệ thống nhận dạng
Mô hình hệ thống nhận dạng được mô tả ở hình 3.1 [5] Môi trường thử nghiệm
là phòng máy tính, tín hiệu tiếng nói được ghi bằng micro thông thường, tốc độ lấy mẫu là 11025Hz, PCM 16 bit mono Chuỗi quan sát là véc tơ đặc trưng của các khung tín hiệu
Hình 3.1 Mô hình hệ thống nhận dạng
Sáu mô hình HMM được sử dụng để nhận dạng sáu âm tiết của các thử nghiệm Với các cơ sở dữ liệu được chọn là tập các âm tiết có 3 âm vị, qua các thử nghiệm cho thấy mỗi mô hình HMM có 3 trạng thái, tương đương với số âm vị của mỗi âm tiết, cho kết quả nhận dạng tốt nhất Mỗi mô hình HMM được mô tả ở hình 3.2
Trang 6Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
Hình 3.2 Mô hình Markov ẩn 3 trạng thái sử dụng nhận dạng
Ma trận xác suất chuyển trạng thái của mỗi mô hình HMM đ−ợc khởi tạo nh− sau:
Tập các phân bố xác suất cho trạng thái khởi đầu của mỗi mô hình HMM đ−ợc chọn là: (0.3333, 0.3333, 0.3333)
3.2 Thử nghiệm 1
a Cơ sở dữ liệu: Cho tới nay ch−a có cơ sở dữ liệu tiếng Việt dùng chung nào
đ−ợc xây dựng và công bố Đây là một trở ngại trong việc nghiên cứu và đánh giá độ chính xác của tập tham số nhận dạng tiếng Việt Cơ sở dữ liệu tiếng nói sử dụng trong thực nghiệm do tác giả tự thu âm giọng nói của chính mình
Cơ sở dữ liệu đ−ợc chia thành hai tập:
- Tập huấn luyện: Gồm 100 câu, mỗi câu có 6 âm tiết "na, ná, nà, nạ, nã, nả"
đ−ợc đọc theo thứ tự ngẫu nhiên
- Tập nhận dạng: Gồm 59 câu không thuộc tập các câu huấn luyện, mỗi câu có
6 âm tiết "na, ná, nà, nạ, nã, nả" đ−ợc đọc theo thứ tự ngẫu nhiên
Tất cả các âm tiết của tập huấn luyện và tập nhận dạng đ−ợc phân đoạn và gán nhãn theo từng âm tiết của các câu đọc vào dựa trên 1 thủ tục tự động Tiêu chí phân đoạn là năng l−ợng của mỗi âm tiết, dựa trên thuật toán phát hiện điểm kết thúc âm tiết [3] Độ dài của các âm tiết là khác nhau (kể cả với một âm tiết đ−ợc phát âm những lần khác nhau), phụ thuộc vào tốc độ phát âm của từng âm tiết
b Tập tham số: Tín hiệu của mỗi âm tiết đ−ợc phân tích thành các khung với mỗi khung có chiều dài 256 mẫu, các khung chồng lên nhau 128 mẫu Số khung của mỗi âm tiết phụ thuộc vào độ dài tín hiệu của âm tiết Bốn tập tham số cho mỗi khung tín hiệu đ−ợc thử nghiệm với bộ nhận dạng gồm [4]:
- (MFCC + E): Tập tham số gồm 12 hệ số MFCC (Mel - Frequency Cepstral Coefficients), 1 hệ số năng l−ợng Véc tơ tham số cho mỗi khung tín hiệu gồm 13 hệ
số
Trang 7Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
- (MFCC + E )+ D: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng l−ợng, 13 hệ
số đạo hàm bậc một Véc tơ tham số cho mỗi khung tín hiệu gồm 26 hệ số
- (MFCC + E) + D + A: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng l−ợng,
13 hệ số đạo hàm bậc một, 13 hệ số đạo hàm bậc 2 Véc tơ tham số cho mỗi khung tín hiệu gồm 39 hệ số
- (MFCC + E + F0) + D + A: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng l−ợng, 1 hệ số là tần số cơ bản F0, 14 hệ số đạo hàm bậc một, 14 hệ số đạo hàm bậc 2 Véc tơ tham số cho mỗi khung tín hiệu gồm 42 hệ số
3.3 Thử nghiệm 2
Các tham số đ−ợc chọn giống nh− thử nghiệm 1 nh−ng thay đổi về tập âm tiết huấn luyện và nhận dạng
- Tập huấn luyện: Gồm 90 câu, mỗi câu có 6 âm tiết "ma, má, mà, mạ, mã, mả"
đ−ợc đọc theo thứ tự ngẫu nhiên
- Tập nhận dạng: Gồm 40 câu không thuộc tập các câu huấn luyện, mỗi câu có
6 âm tiết "ma, má, mà, mạ, mã, mả" đ−ợc đọc theo thứ tự ngẫu nhiên
4 Kết quả
Bảng 4.1a là kết quả nhận dạng âm tiết, bảng 4.1b là kết quả nhận dạng nhầm các thanh điệu cho tập tham số có độ chính xác cao nhất (MFCC + E + F0) + D + A của thử nghiệm 1
Bảng 4.1a Kết quả nhận dạng của thử nghiệm 1
Độ chính xác Tập tham số
Bảng 4.1b Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 1
Thanh bị nhận dạng nhầm Thanh lỗi Thanh
không
Thanh sắc
Thanh huyền
Thanh nặng
Thanh ngã
Thanh hỏi
Tổng cộng
Trang 8Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
Bảng 4.2a là kết quả nhận dạng âm tiết, bảng 4.2b là kết quả nhận dạng nhầm các thanh điệu cho tập tham số có độ chính xác cao nhất (MFCC + E + F0) + D + A của thử nghiệm 2
Bảng 4.2a Kết quả nhận dạng của thử nghiệm 2
Độ chính xác Tập tham số
Bảng 4.2b Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 2
Thanh bị nhận dạng nhầm Thanh lỗi Thanh
không
Thanh sắc
Thanh huyền
Thanh nặng
Thanh ngã
Thanh hỏi
Tổng cộng
Bảng 4.1b và bảng 4.2b cho thấy số lượng lỗi nhận dạng nhầm giữa các thanh
điệu Tỷ lệ nhận dạng nhầm ở thanh không dấu sang thanh huyền là cao nhất, tiếp
đến là nhận dạng nhầm ở thanh huyền sang thanh không dấu Âm tiết chứa thanh nặng và thanh hỏi cho kết quả nhận dạng chính xác cao nhất
5 Kết luận
Bài báo này trình bày một số kết quả thực nghiệm nhận dạng thanh điệu tiếng Việt dựa trên tập gồm các âm tiết có chung âm đầu, âm vần nhưng khác nhau về thanh điệu Phương pháp nhận dạng được chọn là mô hình Markov ẩn Đơn vị nhận dạng là âm tiết
Dựa trên lý thuyết về ngữ âm tiếng Việt cũng như thực nghiệm đã chứng tỏ việc bổ sung tần số cơ bản F0 vào vector tham số đặc trưng đã tăng đáng kể độ chính xác nhận dạng cho hệ thống nhận dạng thanh điệu tiếng Việt Kết quả nhận dạng tốt nhất với độ chính xác là 96.67% ở mức âm tiết và 82.50% ở mức câu với tập tham
số (MFCC + E + F0) + D + A
Tuy nhiên những kết quả trong bài báo này chỉ là những kết quả bước đầu
được thử nghiệm trên những cở sở dữ liệu nhỏ Một trong những nghiên cứu chính
Trang 9Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007
tiếp theo là cần phải xây dựng và thử nghiệm trên các cơ sở dữ liệu lớn, có nhiều người nói và cần xác định mô hình phiên âm của các âm tiết hay âm vị phù hợp với
hệ thống nhận dạng để tăng độ chính xác nhận dạng
Tài liệu tham khảo
[1] Đặng Ngọc Đức, Lương Chi Mai, Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt, Tạp chí Tin học và Điều khiển học, T.19, S.2, pp.131-138, 2003
[2] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Nhà xuất bản Đại học quốc gia Hà Nội,
1999
[3] Lawrence R Rabiner and Ronald W Schafer, Digital Processing of Speech Signals, Prentice Hall, 1978
[4] Lawrence R Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993
[5] Lawrence R Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, IEEE, Vol.77, No.2, pp 257 - 285, February,
1989
[6] Barbara Resch, Signal Processing and Speech Communication Laboratory, http://www.igi.tugraz.at/lehre/CI
[7] VOICEBOX: Speech Processing Toolbox for MATLAB,
http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html
[8] Paul Boersma and David Weenink, Institute of Phonetic Sciences (IFA) in the University of Amsterdam, www.praat.org
SUMMARY
recognition of Vietnamese speech words with
different tones by using Hidden Markov Model
Based on the study of the hidden Markov model (HMM) and Vietnamese phonetics, this paper presents some proposals of recognition of Vietnamese speech words with differrent tones and some results of recognition experiments with Vietnamese speech databases of words The recognition task is limited to Vietnamese words, which have the same initial and final, but different tones The best recognition rate is 96.67% for words and 82.50% for sentences
(a) Khoa Công nghệ Thông tin, trường Đại học Vinh