Mục đích nghiên cứu Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước ngoài
Trang 1MỤC LỤC LỜI CẢM ƠN
BANG KE CAC THUAT NGU ANH VIET
CHUONG 1 TONG QUAN VE NHAN DANG TIENG NOI
1.1 Giới thiệu
1.2 Nguyên tắc của hệ thống nhận dạng tiếng nói
1.3 Nghiên cứu hiện thời về nhận dạng tiếng n
1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính
1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài
1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng VIỆ( 5S SStseekrkekerrkrxee 1.4 Cơ sở dữ liệu tiếng nói
1.5 Ngôn ngữ tiếng Việt
1.5.1 Đặc điểm âm tiết tiếng Việt
1.5.2 Âm vị tiếng Việt
1.5.3 Sự phần bố của các šm vị Hếng VIỆT esieai-aiiiiiisiieieikssiia6440400601011460461366604618 33 CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNGNÓI LIÊN TỤC SỬ DỤNG HMM VÀ ANN 34 2.1 Các phương pháp xử lý tín hiệu tiếng nói
2.2.3 Ba bài toán cơ bản của mô hình Markov ẩn
2.2.4 Các giải pháp toán học cho ba bài toán cơ bản
2.2.5 Các loại mô hình Markov ẩn
2.3 Mạng neuron nhân tạo
2.3.1 Giới thiệu
2.3.2 Mạng Perceptron đa lớp MLP
Trang 2
2.4.3 Huấn luyện hệ thống nhận dạng dùng HMM/ANN ecceeeieeree 64
2.5 Nhận dạng
2.5.1 Xây dựng mạng từ
2.5.2 Mô hình ngôn ngữ N-gram
2.5.3 Sử dụng mạng từ trong hệ thống nhận dạng
29/4 GiB SMES scecaevarezevusevsassenecsusavsserasnesnssvnesnesuessassesssssseeaventerues 69
CHUONG 3 CO SO DU LIEU VA GAN NHAN TIENG VIET
3.1 Bang ky tu phién 4m
3.2 Gan nhan bang tay
3.2.7 Nguyên âm đơn, nguyên âm đôi và bán nguyên am
3.2.8 Phu âm cuối
32:10 Ait dent nasssenencecanemumarcnemonta aren )BĐGG12008000800 3.0
3.4.2 Giới thiệu cơ sở dữ liệu tiếng nói của CSLU
3.4.3 Phương pháp xây dựng cơ sở dữ liệu tiếng Việt
CHƯƠNG 4 HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT LIÊN TỤC - 88 4.1 Phân tích hai phương pháp nhận dạng HMM liên tục và HMM/ANN - 88 4.2 Hệ thống nhận dạng chữ số tiếng Việt liên tục sử dụng HMM/ANN
4.2.1 Giới thiệu
4.2.2 _ Hệ thống nhận dạng chữ số liên tục tiếng Việt dùng ANN
4.2.3 Vai trò của âm đóng trong phiên âm các chữ số
4.2.4 _ Số lượng category cho mỗi nguyên âm
4.2.5 Giới hạn về độ dài
4.2.6 _ Phương pháp trích chọn đặc đính phổ của tiếng nói
4.2.7 _ Hệ thống nhận dạng mười chữ số tiếng Việt dùng mạng HMM/ANN
4.2.8 Hệ thống nhận dạng chữ số tiếng Việt dùng HMM liên tục
F UÀnca n
Trang 3
4.3 Hệ thống nhận dạng liên tục tiếng Việt không thanh điệu kích thước trung bình 114 4.3.1 Giới thiệu
4.3.2 Hệ thống nhận dạng cơ sở dùng HMM liên tục
4.3.3 Xây dựng hệ thống với nhiều hàm Gauss
4.3.4 Bổ sung thêm âm vị khoảng lặng
4.3.5 Vai trò của âm đóng
4.3.6 Phụ âm cuối là âm mũi
4.3.7 Thử nghiệm tiếng địa phương thổ ngữ
4.3.8 Huấn luyện với các thông tin nhãn thời gian
4.3.9 Thử nghiệm với dữ liệu kiểm tra và dữ liệu huấn luyện trùng nhau
4.3.10 Két luan
4.4 Chương trình ứng dụng nhận dạng tiếng nói
4.4.1 Chương trình trình diễn nhận dạng chữ số tiếng Việt liên tục
4.4.2 _ Chương trình nhận dạng tiếng Việt không thanh điệu liên tục kích thước trung bình 132 4.4.3 Chương trình ứng dụng thông tin qua mạng điện thoại -:-+©+-++++s+s+s+++2 133
PHU LUC A BANG KÝ HIỆU ÂM VỊ TIẾNG VIỆT -eeeeeerisissreereeee
PHU LỤC B GIỚI THIỆU MỘT SỐ BỘ CÔNG CỤ XỬ LÝ TIẾNG NÓI DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN
TÀI LIỆU THAM KHẢO
Trang 4
MO BAU
Tính cấp thiết của đề tài
Năm 1969, TS John Pierce, Giám đốc Nghiên cứu thuộc Phòng thí nghiệm Điện thoại Bell đã viết một bài báo nổi tiếng “Đích đến của nhận dạng tiếng nói”, trong đó
ông cho rằng nhận dạng tiếng nói là một nhiệm vụ không thể thực hiện được với máy
tính và “sự lôi cuốn nghiên cứu về nhận dạng tiếng nói giống như là sự lôi cuốn việc nghiên cứu biến nước thành dầu lửa, lấy vàng từ đáy biển, chữa trị bệnh ung thư hay đi tới mặt trăng” Vào năm 1980, GS Gorge trong một bài báo tương tự cũng cho rằng
không cần thiết phải xây dựng các hệ thống hiểu tiếng nói để thu nhận thông tin qua điện thoại hoặc là ra lệnh cho máy tính vì những nhiệm vụ như vậy là quá khó khăn [33] Tuy nhiên trái ngược với các dự đoán, hiện nay một số ứng dụng nhận dạng tiếng nói đã được dùng rộng rãi trong xã hội và trong khoa học, đặc biệt là trong viễn thông
Điện thoại di động đã có thể quay số điện thoại bằng giọng nói, các hệ thống xử lý
thoại đa kênh có thể điều khiển các cuộc gọi thông qua tiếng nói, máy tính cá nhân với phần mềm nhận dạng tiếng nói có thể trợ giúp cho những người khiếm thính, các phần
mềm thương mại nhận dạng đọc chính tả đã được sử dụng tại Mỹ, Canada, Nhật,
Sự phát triển vượt bậc của ngành khoa học nhận dạng tiếng nói trong vài thập kỷ
gần đây là kết quả của việc áp dụng các phương pháp tiên tiến của công nghệ thông tin
Một trong những phương pháp đó là mô hình Markov ẩn HMM (Hidden Markov Model) và mạng no ron nhân tao ANN (Artificial Neural Network) Đây là hai phương
pháp được nghiên cứu nhiều nhất hiện nay trong các phòng thí nghiệm nhận dạng tiếng nói trên thế giới Các hệ thống nhận dạng thử nghiệm có thể nhận dạng đến hàng chục nghìn từ với độ chính xác trên 90%
Tuy vậy đó là những nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài Với tiếng Việt, số lượng các nghiên cứu nhận dạng tiếng nói mới còn khá khiêm tốn và không có nhiều công trình được công bố trong lĩnh vực này Các nghiên cứu nhận dạng tiếng nói tiếng Việt mới chủ yếu mới chỉ tập trung vào các bài toán nhận dạng các từ rời rạc hay hệ thống nhận dạng liên tục kích thước nhỏ Chưa có nghiên cứu về hệ thống nhận dạng tiếng Việt liên tục với kích thước trung bình và lớn Việc nghiên cứu
Trang 5nhận dạng tiếng nói tiếng Việt là rất cần thiết để xây dựng các hệ thống nhận dạng tiếng nói của riêng tiếng Việt, đưa các hệ thống này áp dụng vào trong thực tế
Mục đích nghiên cứu
Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước ngoài: mô hình Markov ẩn HMM, mạng nơ ron nhân tạo ANN và hệ thống lai ghép
giữa hai phương pháp này (hybrid HMM/ANN) Trên cơ sở các nghiên cứu này, ứng
dụng các phương pháp nhận dạng trên vào trong nhận dạng tiếng Việt
Luận án đặt vấn đề nghiên cứu phương pháp thiết kế, xây dựng cơ sở dữ liệu tiếng
Việt và đặc biệt là phương pháp gán nhãn âm vị cho phát âm liên tục tiếng Việt
Luận án nghiên cứu và tìm hiểu các đặc điểm chung và đặc điểm riêng biệt của
ngôn ngữ tiếng Việt so với ngôn ngữ nước ngoài để từ đó phân tích và phát hiện các vấn
đề đặc thù của ứng dụng hai phương pháp nhận dạng trên vào trong hệ thống nhận dạng tiếng Việt liên tục Các kết quả nghiên cứu của nhận dạng tiếng nước ngoài và một số kết quả nghiên cứu của các tác giả trong nước về nhận dạng tiếng Việt sẽ được kế thừa
và sử dụng Các thử nghiệm tập trung vào các khía cạnh đặc trưng của ngôn ngữ tiếng
Việt và các vấn đề nhận dạng các phát âm qua điện thoại
Thanh điệu là một thành phần của giọng nói Với các ngôn ngữ không có thanh điệu, thanh điệu ít được nghiên cứu sử dụng Tiếng Việt là một trong số ít ngôn ngữ có
thanh điệu Luận án nghiên cứu về vai trò của thanh điệu trong các hệ thống nhận dạng
tiếng Việt, tận dụng thông tin về thanh điệu để nâng cao hiệu quả nhận dạng tiếng Việt Pham vi nghiên cứu
Các hệ thống nhận dạng tiếng nói bao gồm hai loại: hệ thống nhận dạng từ rời rạc
(discrete) và hệ thống nhận dạng từ liên tục (continuous) Nhận dạng từ liên tục bao
gồm hệ thống nhận dạng kích thước nhỏ và hệ thống nhận dạng kích thuớc trung bình hoặc lớn Nhận dạng từ liên tục là một bài toán khó khăn hơn nhiều so với nhận dạng từ rời rạc Hiện nay mới chỉ có một nghiên cứu về hệ thống liên tục kích thước nhỏ tiếng Việt (mười chữ số) được trình bày trong luận án của TS Nguyễn Thành Phúc Trong đề tài này nghiên cứu sinh (NCS) dat van dé tap trung nghiên cứu về hệ thống nhận dạng
từ liên tục.
Trang 6Tuy nhiên xây dựng một hệ thống nhận dạng liên tục kích thước lớn (tới hàng chục
nghìn âm tiết) hoặc không hạn chế số lượng âm tiết là một nhiệm vụ phức tạp và mất
nhiều thời gian, vượt ra ngoài khuôn khổ của một đề tài nghiên cứu sinh Luận án giới hạn nghiên cứu các hệ thống nhận dạng liên tục kích thước nhỏ và trung bình Việc
nghiên cứu hệ thống nhận dạng kích thước trung bình sẽ là một bước chuẩn bị để mở rộng nghiên cứu về hệ thống nhận dạng kích thước lớn
Một trong các lĩnh vực được áp dụng nhiều nhất của nhận dạng tiếng nói là ngành viễn thông, nhận dạng các thu âm qua hệ thống điện thoại Tiếng nói thu âm qua điện thoại có đặc điểm là: có nhiều nhiễu trên đường truyền, chất lượng thu âm thấp, tần số
bị giới hạn trong giải 300-3400Hz, độ đa dạng cao do sự đa dạng của mạng điện thoại:
kiểu của micro, kiểu của tổng đài chuyển mạch, hệ thống truyền dẫn Các nghiên cứu hiện thời về nhận dạng tiếng nói tiếng Việt mới chỉ tập trung vào các thu âm trong môi trường cách âm hay văn phòng mà chưa có nghiên cứu về các thu âm trong điện thoại
Với mong muốn nghiên cứu về các đặc thù của các thu âm qua điện thoại, giải quyết các vấn đề với các thu âm chất lượng không cao, luận án tập trung nghiên cứu hệ thống nhận dạng tiếng nói qua mạng điện thoại
Ý nghĩa khoa học và thực tiễn của đề tài
Nhận dạng tiếng nói đang được nghiên cứu tại nhiều nước trên thế giới, tuy vậy ở Việt nam nghiên cứu nhận dạng tiếng nói còn ít Các nghiên cứu của luận án tập trung vào các vấn đề đang còn chưa được nghiên cứu nhiều trong tiếng Việt
Cơ sở dữ liệu tiếng nói tốt góp phần nghiên cứu nhận dạng tiếng nói đi đúng hướng
và thành công Hiện tại chưa có cơ sở dữ liệu tiếng nói với số lượng từ lớn và chất lượng tốt cho tiếng Việt Luận án đã xây dựng hai cơ sở dữ liệu tiếng nói thu âm qua điện thoại với số lượng người nói trên 200 người: cơ sở dữ liệu mười chữ số và cơ sở dữ liệu
có kích thước từ điển 528 từ Hai cơ sở dữ liệu này giúp cho nghiên cứu về các hệ thống nhận dạng tiếng nói tiếng Việt Ngoài ra qua kinh nghiệm nghiên cứu xây dựng hai cơ
sở dữ liệu này, luận án giới thiệu một số tiêu chí và phương pháp để xây dựng cơ sở dữ
liệu lớn hơn
Gán nhãn âm vị là bước thứ hai trong xây dựng cơ sở dữ liệu tiếng Tuy vậy phương pháp gán nhãn chưa được nghiên cứu trong tiếng Việt Luận án đã giới thiệu một
Trang 7phương pháp gán nhãn âm vị bằng tay các phát âm liên tục tiếng Việt Ngoài ra một phương pháp gán nhãn tự động âm vị được trình bày trong luận án để giúp cho công việc gán nhãn được nhanh chóng
Luận án đã nghiên cứu hệ thống nhận dạng chữ số liên tục tiếng Việt thu âm qua điện thoại dùng hệ thống hai ghép HMM/ANN với độ chính xác là 97,78% ở mức từ và 91,78% ở mức câu Kết quả này gần tương đương với các hệ thống nhận dạng tương tự của nước ngoài Các chương trình trình diễn và chương trình ứng dụng của hệ thống này
đã được xây dựng để minh hoạ khả năng ứng dụng của hệ thống nhận dạng này trong thực tế
Luận án mạnh dạn nghiên cứu về hệ thống nhận dạng liên tục tiếng Việt kích thước trung bình gồm 528 từ Phương pháp được áp dụng là dùng mô hình Markov ẩn liên
tục Tuy kết quả nhận dạng còn chưa cao: 76,57% ở mức từ và 29,97% ở mức câu, nhưng các phân tích và phát hiện của luận án về các đặc thù của nhận dạng tiếng Việt là thông tin có ích trong bước tiếp theo: nghiên cứu hệ thống nhận dạng kích thước lớn
Tổ chức của luận án
Nội dung cơ bản của luận án gồm bốn chương:
Chương 1: Tổng quan về nhận dạng tiếng nói
Trình bày khái quát về nguyên tắc hoạt động, các bộ phận của hệ thống nhận dạng
tiếng nói; độ chính xác hiện thời của các hệ thống nhận dạng tiếng nước ngoài và tiếng
Việt; cơ sở dữ liệu tiếng nói và các đặc điểm của ngôn ngữ tiếng Việt
Chương 2: Hệ thống nhận dạng tiếng nói liên tục dùng HMM và ANN
Trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói liên tục, các phương pháp trích chọn các đặc tính phổ; cơ sở lý thuyết cla mé hinh Markov an HMM va ting
dụng của chúng trong nhận dạng tiếng nói; cơ sở lý thuyết của mạng neuron đa lớp; phương pháp huấn luyện hệ thống nhận dạng tiếng nói; thuật toán nhận dạng, giải mã Chương 3 Cơ sở dữ liệu và gán nhãn tiếng Việt
Trình bày các phương pháp được sử dụng để xây dựng cơ sở dữ liệu tiếng Việt, phương pháp phiên âm chính tả và bảng ký hiệu âm vị tiếng Việt; phương pháp gán nhãn bằng tay ở mức âm vị cho các phát âm liên tục tiếng Việt; phương pháp tự động
Trang 8gán nhãn các 4m vi trong một cơ sở dữ liệu; xây dựng hai cơ sở dữ liệu tiếng Việt thu
âm qua điện thoại
Chương 4 Hệ thống nhận dạng tiếng Việt liên tục
Trình bày các hệ thống nhận dạng tiếng Việt liên tục được nghiên cứu, phân tích về
hai loại hệ thống nhận dạng: hệ thống nhận dạng dùng HMM liên tục và hệ thống nhận
dạng dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng chữ số tiếng Việt liên tục dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng liên tục tiếng Việt không
thanh điệu có kích thước trung bình dùng mô hình HMM liên tục; một số chương trình
trình diễn nhận dạng tiếng Việt
Sau cùng là một số kết luận và kiến nghị cho các hướng nghiên cứu tiếp theo
Trang 9BẢNG KÊ CÁC KÝ HIỆU VIẾT TẮT
ASR Automatic Speech Recognition
CMS Cepstral Mean Subtraction
HMM/ANN | Hệ thống lai ghép giữa mô hình Markov ẩn và mạng neuron
IPA International Phonetic Alphabet (Bảng ký tự phiên âm quốc tế)
F1,F2,F3 Formant 1, Formant 2, Formant 3
LPC Linear Predictive Coding
LVCSR Large-Vocabulary Continuous Speech Recognition
MFCC Mel Scale Frequency Cepstral Coefficients (Cac hé s6 cepstral véi
thang tần số Mel)
PLP Perceptual Linear Prediction
RASTA RelAtive SpecTral
I1
Trang 10BẢNG KÊ CÁC THUẬT NGỮ ANH-VIỆT
Tiếng Anh Tiếng Việt
corpus cơ sở dữ liệu tiếng nói
labeling gán nhãn
phoneme âm vị
syllable âm tiết
Trang 11
semi-vowel bán nguyên âm
Segmentation phân đoạn
speaking rate tốc độ phát âm
spontaneous speech tiếng nói tự nhiên
training huấn luyện
unvoiced vô thanh
Trang 12
CHƯƠNG 1 TỔNG QUAN VỀ
NHẬN DẠNG TIẾNG NÓI
Trong chương này, phần một giới thiệu khái quát về hệ thống nhận dạng tiếng nói Phần thứ hai trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói, các giai đoạn cơ bản của hệ thống nhận dạng tiếng nói Phần tiếp theo trình bày về khả năng nhận dạng hiện thời (state of art) của các hệ thống nhận dạng trên thế giới với các ngôn ngữ nước ngoài như tiếng Anh, tiếng Hán, tiếng Thái Các nghiên cứu hiện thời về nhận dạng tiếng nói đối với tiếng Việt cũng được giới thiệu Phần thứ tư trình bày về cơ sở dữ liệu tiếng nói, một bộ phận gắn liền với nhận dạng tiếng nói Phần cuối dành để trình
bày về đặc điểm của ngôn ngữ tiếng Việt
11 GIỚI THIỆU
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là
các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng
với các mẫu đã được học và lưu trữ trong bộ nhớ
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
—_ Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm
Trang 13tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để
nhận dạng tiếng nói
—_ Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm
thành dãy các ký hiệu ngữ âm
— Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics)
và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi
thông tin về âm học là không rõ ràng
Lĩnh vực nghiên cứu của nhận dạng tiếng nói khá rộng liên quan đến nhiều ngành khác nhau Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói :
— Xử lý tín hiệu số (digital signal proccessing): Các kỹ thuật xử lý tín hiệu số dùng để
phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan trọng từ tiếng nói
— Vat ly hay 4m hoc (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu
tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế hoạt động của tai người
— Nhận dạng mẫu: các thuật toán dùng đề phân loại dữ liệu thành tập các mẫu và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu
— Lý thuyết thông tin và khoa học máy tính (information and computer science theory): các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật toán giải mã và mã hoá (lập trình động, các thuật toán dùng ngăn xếp, giải mã Viterbi)
để tìm một đường đi tốt nhất dãy các từ được nhận dạng
— Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói
— Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người cũng như là quá trình phân tích âm học và ngôn ngữ tại bộ não
— Tâm lý học ứng dụng (applied psychology) Những kiến thức về quá trình sinh ra
tiếng nói cũng như quá trình nhận thức tiếng nói của loài người
15
Trang 141.2 NGUYEN TAC CUA HE THONG NHAN DANG TIENG NOI
Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau: nhận dạng từ rời
rạc (discrete) và nhận dạng từ liên tục (continuous) với hai loại: hệ thống kích thước nhỏ và hệ thống kích thước trung bình hoặc lớn [31]
Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lập Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong
các chương trình dạng câu lệnh-điều khiển (command-control), chẳng hạn như ứng dụng quay số bằng giọng nói trong điện thoại di động Bài toán nhận dạng tiếng nói các
từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục
bình và lớn
Hình 1.1 Các hệ thống nhận dạng tiếng nói Luận án này chỉ đề cập đến hệ thống nhận dạng các từ liên tục Phần sau đây trình bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục
Một phát âm dưới dạng wav được phân tích thành một dãy các vector đặc tính phổ,
mỗi vector tương ứng với một khung tín hiệu (thường có độ dài 10ms) Ví dụ một phát
âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y,, y;, , yự
Phát âm là một dãy các từ W= w¿, w¿, ., w„, và nhiệm vụ của hệ thống nhận dạng
là tìm ra được dãy từ Jƒ có xác suất cao nhất với dãy các vector đặc tính phổ Y cho trước
Trang 15
Hình 1.2 Khái quát về hệ thống nhận dạng Theo luật xác suất Bayes ta có:
W= argmax P(W |Y)= nga Si VỦ L4
Do xác suất P(Y) là độc lập với W, do đó để tìm được dãy từ có xác suất cao nhất
JŸ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y/W) cao nhất Xác suất P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language
model) Xác suất P(Y/W) được xác định bởi mô hình âm học (acoustic model)
Hình 1.2 cho thấy mối quan hệ giữa các xác suất này Trong đó với một phát âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W) Bằng từ điển phiên âm
ta biến đổi chúng thành dãy các âm vị tương ứng Dãy các âm vị này cho ta xây dựng
một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của các âm vị tương ứng Phát âm được trích chọn các đặc điểm đưa vào mô hình Markov ẩn lớn này
ĐAI te |
|TBUXö
CSS N ° = — " {
——
Trang 16sẽ cho ta xác suất P(Y/W) Về mặt nguyên tắc quá trình này có thể lặp đi lặp lại với tất
cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất
tiếngnói | Phân tích đặc Phân lớp mẫu Xử lý ngôn ngữ
analysis) clasification) processing)
Các từ, âm vị Các từ, câu
Mô hình âm học Mô hình ngôn ngữ (acoustic model) (language) model) Hinh 1.3 Cac qua trinh nhan dang
Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng Một quá
trình xem xét song song tất cả các dãy từ có thể được áp dụng và một quá trình chọn lọc
xoá đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding)
Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có
ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ
1.2.1 Phân tích đặc tính tiếng nói
Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan trọng, chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm riêng biệt của từng người nói, Tiếng nói được phân tích theo từng khung thời gian
(frame) voi dé dai dao động từ 8ms tới 25ms [24] Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói
18
Trang 17Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín
hiệu tiếng nói đó là phương pháp dựa vào mô hình hoá đường phát âm (vocal tract) và
phương pháp dựa vào mô hình hoá cảm nhận âm thanh của con người (human auditory
system) Cả hai cách này đều đang được áp dụng thành công trong các hệ thống nhận
dang Su cai tién cha các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của các hệ thống nhận dạng tiếng nói Hai phương pháp trích chọn tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: phương pháp MFCC (Mel Scale Frequency Cepstral Coefficients) va PLP (Perceptual Linear Prediction)
Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) Đây là hai kỹ thuật áp dụng nhằm lọc
bỏ nhiễu, những âm thanh không phải là tiếng nói Hai kỹ thuật này đặc biệt có ích
trong xử lý tiếng nói thu âm qua điện thoại [8] Cả hai kỹ thuật đều có thể dùng kết hợp được với một trong hai phương pháp trích chọn đặc tính phổ MECC hoặc PLP Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết thúc [18] Kỹ thuật này thường được đi kèm với phương pháp trích chọn đặc tính PLP [18] Ngược lại kỹ thuật
CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dễ áp dụng
âm chậm, nên kỹ thuật căn chỉnh thời gian động DTW (Dynamic Time Warping) được
áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với
các mẫu
19
Trang 18Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hoá sự đa
đạng của tín hiệu tiếng nói Một vấn đề nữa là với cây quyết định, rất khó phục hồi lỗi nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích
Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh
được áp dụng thành công trong nhận dạng tiếng nói Đa số các hệ thống nhận dạng tiếng nói hiện nay dùng mô hình Markov ẩn Chi tiết về mô hình Markov ẩn sẽ được
trình bày trong Chương 2
Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong
muốn sử dụng khả năng phân lớp mạnh của mạng Mạng neuron truyền thẳng đa lớp
Perceptron thường được sử dụng trong nhận dạng tiếng nói Tuy nhiên mạng neuron có
hạn chế về khả năng mô hình hoá sự biến thiên của tiếng nói theo thời gian Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ thống lai ghép mạng neuron và mô hình Markov ẩn Chương 2 sẽ trình bày chi tiết về
mạng neuron cũng như mạng lai ghép giữa mạng neuron và mô hình Markov ẩn
1.2.3 Xử lý ngôn ngữ
Mô hình ngôn ngữ đóng vai trò quan trọng trong xử lý ngôn ngữ Mục đích của mô hình ngôn ngữ N-gram (hay n-gram) là tìm ra xác suất của một từ theo sau một số
lượng từ nào đó trong một phát âm Ví dụ từ w¿ theo sau dãy k-Ï các từ w¿, ws, .,M¿.;
(kí hiệu W“') trong một phát âm N-gram gia thiét rằng từ w„, chỉ phụ thuộc vào ø- các
từ đứng trước nó tức là
P(w, Wi) = P(w, Wea)
Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp (syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ thuộc lân cận của một từ Các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp hình thức của ngôn ngữ
Trang 19Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu:
f(W,_z;W,_¡,W, )
k~2s W_~I
trong đó hàm /(x,y,z) là số lần xuất hiện của bộ ba từ x,y,z (trigram), b(x,y) là số lần
xuất hiện của bộ đôi (bigram) x,y
Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba
là quá lớn Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là
10000 từ thì số lượng các bộ ba là VỶ Số lượng từ này rõ ràng là quá lớn, sẽ có nhiều
bộ ba không xuất hiện hoặc xuất hiện rất ít chỉ một hoặc hai lần trong cơ sở dữ liệu Với các trường hợp này xác suất của các bộ ba là không tính được hoặc rất nhỏ
Mặc dù có khó khăn về tính toán như trên, mô hình ngôn ngữ vẫn chứng minh được
là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng Trong các hệ thống
nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng phổ biến [43] Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ
theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dang [46, 47] 1.3 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI
1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính
Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ
chính xác nhận dạng:
—_ Sự phụ thuộc vào người nói Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào người nói (speaker dependent) hoặc là độc lập với người nói (speaker independent) Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn
là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người Tỷ lệ lỗi nhận dạng tiếng nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận dạng tiếng nói phụ thuộc người nói tương đương [38]
— Kích thước của bộ từ điển Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói
có thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và nhiệm vụ nhận dạng tiếng nói càng trở nên khó khăn
21
Trang 20—_ Tốc độ nói, hiện tượng đồng phát âm Trong một phát âm, một âm bị ảnh hưởng rất lớn của các âm xung quanh nó Các từ rời rạc được nhận dạng dễ dàng hơn là các từ
trong một phát âm liên tục
— Sự biến đổi trong lời nói Con người có thể hiểu được lời nói ngay cả khi nó bị xen lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “à, ờ”, Tuy nhiên đối với máy tính
các trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói
— Điều kiện môi trường Tiếng nói có chất lượng thấp (bi méo tín hiệu, bị nhiễu kênh truyền, .) thường đặt ra rất nhiều vấn đề để giải quyết cho các hệ thống nhận dạng tiếng nói Theo [49] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có tỉ
số tín hiệu trên nhiéu SNR > 40dB (SNR- Signal to Noise Ratio) so với tiếng nói có
SNR >18dB tang lén nhiều lần, có thể lên tới 10 lần
— Các phát âm tự nhiên và các phát âm liên tục Hệ thống nhận dạng tiếng nói có thể
làm việc với các phát âm được đọc từ các văn bản chuẩn bị sẵn hoặc với các phát âm
do người nói nói một cách tự nhiên (spontaneous) Nhận dạng các phát âm tự nhiên rõ
ràng là khó khăn hơn nhiều so với các phát âm đọc sẵn Lý do là các phát âm tự nhiên
số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có
trong bộ từ điển Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát
âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm khác
— Các giới hạn về ngôn ngữ Các hệ thống nhận dạng có thể làm việc với các câu có ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể Với các hệ thống này, nhiệm
vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể
về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop)
nghĩa là bất kì một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển
Độ chính xác của các hệ thống nhận dạng được đánh giá trên cơ sở mức từ và mức
câu Độ chính xác nhận dạng ở mức từ được đánh giá bằng công thức:
N=S-D=~T yo 90%
Trong đó Š là số lượng từ bị nhận dạng nham (substitution), D 14 s6 lugng tir bi xo
(deleted), J 14 s6 tir bi chén (insertion), N là tổng số các từ được nhận dạng
Độ chính xác ở mức câu được tính theo công thức:
Trang 21N-S
Trong đó N là tổng số câu nhận dạng, S là số câu nhận dạng sai
1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài
Công nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H Về lĩnh vực ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và SpeechWorks là các hãng phần mềm nổi tiếng Rất nhiều trung tâm nghiên cứu đang tập trung nghiên cứu về
nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft
Research, CSLU,
Độ khó của các ứng dụng nhận dạng tiếng nói phụ thuộc vào nhiều yếu tố Hình 1.4 miêu tả các ứng dụng của nhận dạng tiếng nói phụ thuộc vào hai yếu tố chính: kích thước từ vựng và kiểu phát âm [9] Độ khó tăng từ thấp lên cao, từ trái sang phải
Điền mẫu biểu bằng giọng nói
|
Đối thoại tự nhiên
Ghi chép
Đọc chính tả trong văn phòng
Tra cứu danh bạ
Trang 22Môi trường thu âm tiếng nói có ảnh hưởng lớn đến độ chính xác nhận dạng Do vậy
nên cùng với một thuật toán, hệ thống nhận dạng có khả năng nhận dạng kém hơn
nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng thí nghiệm
Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được đọc bởi người bán hàng tại các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là 98% (so với 99.7% trong môi trường phòng thí nghiệm) [36] Sự khác nhau về tỷ lệ lỗi nhận dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm trong môi trường phòng thí nghiệm và môi trường bên ngoài
Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so với khả năng nhận dạng của con người theo đánh giá của [9] Từ Bảng I.1 ta thấy tỷ lệ lỗi nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng bằng máy tính Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc đối thoại thì tỷ lệ lỗi nhận dạng của máy tính cao hơn đến mười lần Với cơ sở dữ liệu tiếng nói có nhiều
nhiễu thì sự khác nhau này có thể còn cao hơn nữa Do vậy có thể nói khả năng nhận
dạng tiếng nói hiện thời còn xa mới có thể đạt tới khả năng của con người
Ngoài ngôn ngữ châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng Bắc kinh và tiếng Quảng đông), tiếng Thái lan cũng đã được thực hiện Với tiếng Trung quốc, nhiều nghiên cứu đã được tiến hành, một số hệ thống nhận dạng tiếng Trung quốc với kích thước từ vựng lớn cũng đã được xây dựng [17]
Bảng 1.1 So sánh tỷ lệ lỗi nhận dạng của máy tính và con người
Trang 23hệ thống nhận dạng liên tục kích thước trung bình và lớn tiếng Thái lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu
1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt
Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt chủ yếu mới tập trung vào
nhận dạng các từ rời rạc
Hệ thống nhận dạng tiếng Việt, giống như hệ thống nhận dạng các ngôn ngữ có
thanh điệu khác, bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không
có thanh điệu và nhận dạng thanh điệu [45] Hình 1.5 miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt:
nhận dạng các từ không dấu
nhận dạng thanh điệu
Hình 1.5 Hệ thống nhận dạng ngôn ngữ có thanh điệu
Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS Nguyễn Thành Phúc [3] Trong luận án tiến sĩ của mình TS Nguyễn Thành Phúc đã tiến hành
nghiên cứu và thực hiện các công việc sau:
— Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà:
e_ Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15
người nói Các câu đều được gán nhãn bằng tay
e _ Cơ sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu
e Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phần van 1a EO gồm có 350 câu
— Nghiên cứu quá trình xây dựng một cơ sở dữ liệu tiếng Việt, để xuất bảng ký hiệu
âm vị tiếng Việt dùng để phiên âm các âm vị
— Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu
25
Trang 24—_ Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều
kiện thu âm trong nhà Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận
dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận
dạng, Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ
Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS Nguyễn Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại học Grenoble
tại Pháp [30] Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng mô hình Markov ẩn đối với từ rời rạc Đây là một trong những công trình đầu tiên nghiên cứu về
nhận dạng thanh điệu tiếng Việt Các thử nghiệm được tiến hành trên cơ sở dữ liệu gồm
9720 từ do 18 người nói đến từ ba miền Bắc Trung Nam, thu âm với tần suất lấy mẫu
16kHz/s, biến đổi A/D 16 bit Kết quả thu được tỷ lệ nhận dạng chính xác thanh điệu đạt 91,6%
Ngoài ra trước TS Nguyễn Thành Phúc có một số công trình nghiên cứu đã được công bố Theo [3] các công trình trên bao gồm:
— Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học-ngữ âm học
của TS Nguyên Anh Tuấn Kết quả của công trình như sau:
Hình thức hoá được ngôn ngữ hình học của các từ tiếng Việt, cho phép nâng cao độ tin cậy của phân đoạn hoá các từ thành từng đoạn tương ứng với phần đầu, phần vần và thanh điệu của âm tiết tiếng Việt
Nghiên cứu và hình thức hoá những đặc trưng của sáu thanh điệu tiếng Việt,
cho phép xác định tự động kiểu thanh điệu tiếng Việt
Thông qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên âm
và bán nguyên âm tiếng Việt Các đặc trưng này có thể sử dụng để phân loại các nguyên âm
Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm tiếng
Việt
Trên cơ sở các thông số đặc trưng của các âm đã tìm được, đã tìm được một thuật toán nhận dạng các từ tiếng Việt rời rạc bao gồm mười chữ số tiếng Việt
Trang 25Hệ thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95%, không phụ thuộc vào giọng nói
—_ Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin Đại học Bách khoa Hà nội thực hiện hoàn thành vào tháng 6/1998 đã áp dụng phương pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (F0-F5 và tương quan FI1- F2) của các nguyên âm tiếng Việt: “a, â, ã, e, é, i, 0, 6, ơ, u, ư”
— TS Đặng Văn Chuyết và KS Ngô Đức Bình đã áp dụng phương pháp phân tích cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh
— TS Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để nhận dạng các từ rời rạc cho tiếng Việt Các tham số được sử dụng là các F1 và F2 Hệ thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: “a,e,i,o,u”, mười chữ số
tiếng Việt và các từ điều khiển: "tiến, lùi, phải, trái, trước, sau, dừng” Độ chính xác nhận dạng trung bình là 78,47%
14 COSO DU LIEU TIẾNG NÓI
Cơ sở dữ liệu của một hệ thống nhận dạng là một bộ phận không thể tách rời với các
thuật toán dùng trong nhận dạng Tính chất của cơ sở dữ liệu cũng là những tính chất
của một hệ thống nhận dạng Cơ sở dữ liệu tiếng được dùng để phát triển, huấn luyện và
kiểm tra năng lực làm việc của các hệ thống xử lý tiếng nói Cơ sở dữ liệu tiếng thường
có kích thước lớn, được xây dựng công phu bao gồm nhiều giọng nói của nhiều người nói gồm nhiều lứa tuổi, đến từ nhiều vùng địa lý khác nhau
Do vai trò quan trọng của cơ sở dữ liệu tiếng nói nên nhiều cơ sở dữ liệu tiếng nước
ngoài đã được phát triển trong những thập kỷ qua Ví dụ như cơ sở dữ liệu tiếng Anh: TIMIT, CSLU, WSJCAMO, tiéng Nhật ART, tiếng Triều tiên COCOSDA, Hệ cơ sở
dữ liệu chẳng hạn như TIMTIT đã được sử dụng rộng rãi trong cộng đồng các nhà nghiên cứu và trở thành một cơ sở để đánh giá so sánh giữa các nghiên cứu
Qui trình xây dựng một cơ sở dữ liệu tiếng gồm có hai giai đoạn chính: thu thập dữ
liệu và phiên âm chính tả, gán nhãn thời gian ở mức âm vị Người ta phân biệt các tính
chất của các loại cơ sở đữ liệu:
27
Trang 26— Cơ sở đữ liệu gồm các từ rời rạc hoặc cơ sở dữ liệu gồm các câu phát âm liên tục Loại cơ sở dữ liệu đầu được dùng cho các hệ thống nhận dạng rời rạc, loại thứ hai dùng cho các hệ thống nhận dạng liên tục
—_ Cơ sở dữ liệu có kích thước nhỏ, trung bình hoặc lớn tương ứng với các hệ thống
nhận dạng nhỏ, trung bình hoặc lớn Kích thước của cơ sở dữ liệu được tính là kích thước của bộ từ điển các từ có mặt trong nó
—_ Môi trường thu âm của cơ sở dữ liệu: trong phòng studio, trong phòng thí nghiệm,
trong môi trường văn phòng, trong môi trường bên ngoài, thu âm qua điện thoại cố
định, thu âm qua điện thoại di động,
— Thiết bị thu âm và chất lượng thu âm cũng là một tính chất quan trọng Cơ sở dữ liệu có thể được thu âm với chất lượng cao như TIMIT với tần số lấy mẫu là 44kHz/s, hoặc chỉ với 8Hzk/s khi thu âm qua điện thoại như cơ sở dữ liệu của CSLU
—_ Đặc điểm của người nói trong cơ sở dữ liệu Với hệ thống nhận dạng phụ thuộc người nói, cơ sở dữ liệu có thể chỉ bao gồm một người nói Thông thường cơ sở dữ liệu bao gồm hàng trăm người nói
— Phương pháp phát âm Với hệ cơ sở dữ liệu TIMIT, người nói đọc các câu có nội
dụng chuẩn bị sẵn Đối với một số cơ sở dữ liệu của CSLU thì người nói được phỏng
vấn qua điện thoại và họ phát âm theo phương thức tự nhiên (spontaneous), vừa nói vừa ngh1
Sau quá trình thu âm của cơ sở dữ liệu là một quá trình quan trọng: phiên âm chính
tả và gán nhãn thời gian ở mức âm vị cho các phát âm Phiên âm chính tả là ghi lại nội dung của các phát âm dưới dạng văn bản, mỗi tệp văn bản tương ứng với một tệp phát
âm
1.5 NGONNGU TIENG VIET
1.5.1 Dac diém âm tiết tiếng Việt
Trang 27bật và tách bạch hơn Do đó nên việc vạch ra ranh giới giữa các âm tiết trong tiếng Việt
dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ châu Âu [5]
(trong ngôn ngữ châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp phân tích phổ) Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được viết tách ra thành một từ riêng biệt Có thể nói so với các âm tiết châu Âu, tiếng Việt có tính
1.5.1.2 Khả năng biểu hiện ý nghĩa
Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa Gần như toàn bộ các âm tiết đều hoạt động như từ Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với ranh
giới của hình vị [4] (hình vị là đơn vị có nghĩa nhỏ nhất trong một ngôn ngữ) Chính vì
vậy trong một phát ngôn, số lượng âm tiết trùng với số lượng hình vị
1.5.1.3 Cấu trúc chặt chế
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 1.6:
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó C1 là phụ
âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối
Hình 1.6 Cấu trúc của âm tiết tiếng Việt
Âm tiết tiếng Việt có cấu trúc gồm hai bậc: bậc một bao gồm các thành tố trực tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học Phần thứ hai bao gồm các yếu tố của phần vần chỉ có chức năng khu biệt thuần tuý Quan hệ giữa các yếu tố ở bậc một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ Các thực nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra ở
29
Trang 28chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh của âm tiết
Theo GS Bang và cộng sự [I] số lượng âm tiết phát âm được của tiếng Việt là
18958 So với các các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào khoảng 3000-5000 Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, và chính
vì thế ít có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết Theo [5],
trong tiếng Việt có 6 thanh điệu, 21 âm đầu và 155 phan vần và phần vần đóng vai trò khu biệt lớn hơn cả so với các yếu tố khác trong Bậc l
Hình 1.7 Cấu trúc hai bậc của âm tiết tiếng Việt
1.5.2 Âm vị tiếng Việt
Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa Về mặt xã hội của ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng
có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức năng trong ngôn ngữ đó gọi là âm vị
Có một cản trở khi nghiên cứu âm vị tiếng Việt là chưa có một qui định chính thức
về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ âm về một chuẩn tiếng Việt Có thể quan niệm tạm thời coi "tiếng Việt chuẩn như một thứ tiếng chung được
hình thành trên cơ sở tiếng địa phương của miền Bắc với trung tâm là Hà nội mà cách
phát âm của nó là cách phát âm Hà nội với sự phân biệt /{-c/,/§-s/,/z-z/ và các vần ưu/iu, uou/iéu” [4]
Trang 291.5.2.1 Thanh điệu
Âm vị tiếng Việt có hai loại âm vị đoạn tính và âm vị siêu đoạn tính Âm vị đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như nguyên âm, phụ âm Âm
vị siêu đoạn tính là loại đơn vị không có âm đoạn tính, không độc lập tồn tại, nhưng
cũng có chức năng phân biệt nghĩa, nhận diện từ, đó là thanh điệu Đây là đặc điểm
riêng của tiếng Việt so với các ngôn ngữ Châu Âu Một số ngôn ngữ khác như tiếng
Hán, tiếng Thái cũng có đặc điểm này như tiếng Việt
Thanh điệu được hình thành bằng sự rung động của dây thanh, tuỳ theo sự rung đó
nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các thanh điệu khác nhau
Thanh điệu tiếng Việt thuộc loại thanh lướt, có nghĩa là các thanh điệu phân biệt với
nhau bằng sự di chuyển cao độ từ thấp lên cao hay từ cao xuống thấp
Theo các nhà ngôn ngữ học thì thanh điệu có ảnh hưởng bao chùm lên toàn bộ âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần Tiếng Việt có sáu thanh điệu Nếu
chia thang độ của giọng nói bình thường thành 5 bậc thì ta có thanh điệu tiếng Việt
được miêu tả như trong Hình 1.8
1.5.2.2 Âm đầu
Trong các sách giáo khoa tiếng Việt [2, 4, 5, 7], tiếng Việt có 21 âm vị là âm đầu
Các âm vị /p,r/ không được liệt kê là các âm vị đầu tiếng Việt và được coi là âm vị có
nguồn gốc từ ngôn ngữ nước ngoài Âm vị /?/, âm tắc thanh hầu được liệt kê trong một số sách giáo khoa tiếng Việt như một phụ âm đầu Trong những âm tiết như: ”ai,
ơi, ăn, oản, uống, oanh, uyên” có hiện tượng khép khe thanh lúc mở đầu khi chúng được phát âm lên Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm
31
Trang 30Thừa nhận tồn tại âm tắc thanh hầu đưa đến xây dựng được một mô hình tổng quát của
âm tiết tiếng Việt cân xứng hơn với ba thành tố luôn có mặt: thanh điệu, âm đầu, âm van [5]
1.5.2.3 Âm đệm
Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hoá âm tiết và khu biệt âm tiết này với âm tiết khác Khác với âm chính luôn nằm ở đỉnh âm tiết, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết Âm đệm không xuất hiện trước
các nguyên âm tròn môi /u,o,2/, nó chỉ xuất hiện trước các nguyên âm hàng trước Độ
mở của âm đệm phụ thuộc vào độ mở của các nguyên âm-âm chính đi sau
1.5.2.4 Âm chính
Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định ăm sắc của âm tiết
Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi Âm
chính âm tiết có thể chia thành 4 nhóm :
— Nhóm nguyên âm đơn, hàng trước, không tròn môi Âm sắc của nhóm này thường
là bổng Có thể dài và thể ngắn Thể ngắn có sự biến dạng ít nhiều về trường độ, âm sắc, cường độ, phát âm căng và ngắn
— Nhóm nguyên âm đơn, hàng sau tròn môi Âm sắc trầm Có thể dài và thể ngắn Sự
thể hiện thể ngắn có cấu âm không giữ đều
— Nhóm nguyên âm đơn, hàng sau, không tròn môi Âm sắc trầm vừa
— Nguyên âm đôi phát âm yếu dần, yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó
âm sắc của nguyên âm đôi là do yếu tố đầu quyết định Nguyên âm chỉ có một thể dài
và không bị biến dạng về âm sắc và trường độ
1.5.2.5 Âm cuối
Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu âm tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ) Do đó có sự khác biệt lớn giữa âm /t/ trong phát âm hai từ
của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo thành
at" và "ta" Trong khi phát âm từ "ta", lối thoát
một tiếng động đặc thù Trong khi phát âm từ "at", bộ phận cấu âm ở nguyên vị trí cấu
âm và không khí không được thoát ra ngoài [4]
Trang 31Trong nhiều trường hợp phụ âm cuối hầu như chỉ là một khoảng im lặng Ví dụ như
âm vị /k/ trong từ "tác" Do vậy âm vị /k/ được nhận diện chủ yếu làm biến đổi âm sắc
của âm chính đi ở giai đoạn cuối
Bảng 1.2 Phân bố giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuối
Bán nguyên âm cũng không thường xuyên được thể hiện rõ rệt mà chỉ được nhận
diện bằng việc biến đổi âm sắc của âm chính Về mặt này thì bán nguyên âm còn có tác dụng mạnh hơn là phụ âm cuối
1.5.3 Sự phân bố của các âm vị tiếng Việt
Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp với
nhau theo những qui luật Sau đây là Bảng 1.2 tổng kết sự phân bố giữa nguyên âm âm
chính và các âm đệm và bán nguyên âm cuối [4]
33
Trang 32CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNG
NOI LIEN TUC SU DUNG HMM VA ANN Chương này tập trung trình bày các vấn đề lý thuyết của các phương pháp nhận dạng: mạng ANN và mô hình Markov ẩn và sự kết hợp giữa chúng Phần một trình
bày về giai đoạn đầu của hệ thống nhận dạng tiếng nói: các phương pháp xử lý tiếng
nói Phần hai trình bày về mô hình Markov ẩn, và ứng dụng trong nhận dạng tiếng nói Phần tiếp theo trình bày về mạng neuron nhân tạo, đặc biệt là mạng Perceptron
đa lớp, loại mạng hay được sử dụng trong nhận dạng tiếng nói Phần thứ tư trình bày
về phương pháp huấn luyện hệ thống nhận dạng liên tục dùng các kỹ thuật: mô hình Markov ẩn liên tục CD-HMM, mạng neuron nhân tạo ANN và hệ thống lai ghép HMM/ANN Phần cuối cùng trình bày về thuật toán giải mã trong các hệ thống nhận dạng liên tục
2.1 CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU TIẾNG NÓI
Phần này sẽ giới thiệu hai phương pháp được sử dụng rộng rãi trong các hệ thống nhận dạng hiện tại để tính toán các hệ số MEFCC (Mel Scale Frequency Cepstral Coefficients) và hệ số PLP (Perceptual Linear Prediction) Hai kỹ thuật xử
lý tiếng nói RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) cũng được giới thiệu Đây là hai kỹ thuật loại bỏ nhiễu hay được sử dụng đặc biệt là trong
phát âm có nhiều nhiễu như các câu thu âm qua điện thoại
2.1.1 Phương pháp tinh hé sé MFCC
Hình 2.1 miêu tả các bước tính toán hệ số MFCC:
1) Nhấn mạnh tín hiéu (pre-emphasis) Trong bước xử lý đầu tiên này, tín hiệu được đưa qua một bộ lọc số:
-1
FL pye(Z) = 14 Gy 2
Trong đó z„„ là hệ số nhấn mạnh, thường có giá trị là 0,9700002861 Bộ lọc có tác dụng tăng cường tín hiệu tại tần số cao (trên KH?) với hai lý do chính:
Trang 33— Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao do đặc điểm sinh lý của hệ thống phát âm của con người Bước xử lý này sẽ tăng cường tín hiệu lên một giá trị gần 20dB/decade để khắc phục sự suy giảm này,
—_ Hệ thống thính giác của con người nhạy cảm hơn với vùng tần số cao, bước xử lý này nhấn mạnh vùng tần số cao, trợ giúp cho quá trình mô hình hoá âm thanh sau này của hệ thống nhận dạng
Tín hiệu tiếng nói
JÌ
(pre-emphasis) D hiệu (framing) B (windowing)
Hình 2.1 Các bước xử lý của phương pháp tính toán hệ số MFCC
2) Tạo khung tín hiệu (framing) Tín hiệu tiếng nói luôn luôn biến thiên theo thời gian, tuy nhiên trong khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói được coi là tương đối ổn định Do đó tín hiệu thường được chia thành các khung kích thước 20-30ms với vùng gối lên nhau khoảng 10-15 ms
3) _ Làm cửa số (frame windowing) Cửa số Hamming thường được áp dụng cho
mỗi khung tín hiệu để giảm sự tác động của việc chia khung tín hiệu:
2z(n-])
s„ ={0,54— 0,46cos( 3,
Trong đó N là số mẫu dữ liệu (sample) của cửa sổ
4) DFT (Discrete Fourier Transform) Tại bước này với mỗi khung tín hiệu, biến
đổi Fourier được áp dụng để chuyển về miền tần số Công việc tính toán được thực hiện bằng thuật toán FFT (Fast Fourier Transform)
35
Trang 345) Lọc theo thang tần số Mel (Mel-frequency bandpass filter) Cac b6 loc sé được áp dụng để lọc các tin hiệu theo các giải tần số khác nhau
Phản ứng của tai người với các thành phần của tần số là không tuyến tính Sự khác nhau về tần số ở vùng tần số thấp (<IKHz) dễ được nhận biết bởi con người hơn là ở vùng tần số cao Lọc theo thang tần số Mel mô phỏng tính chất này bằng cách dùng các bộ lọc được phân bố theo một hàm phi tuyến trong khoảng không gian tần số, thông thường là hàm Mel:
7) DCT (Discrete Cosin Transform)
Do giọng nói phát âm bởi con người có phổ khá trơn (smooth) trên miền tần số,
do vậy các giá trị năng lượng của các bộ lọc gần nhau có sự tương quan (correlated) khá gần Bước xử lý này biến đổi các giá trị năng lượng thành các hệ số ít tương quan với nhau hơn, các hệ số này được gọi là hệ số cepstral
C= sm cos ey— 0,5)) i = 7 N
Trong đó N là số kênh lọc, zn, là giá trị logarit năng lượng của mạch lọc thứ /, ¡ là bậc của hệ số cepstral
8) Chỉnh các giá trị cepstral Giá trị cepstral bậc cao thường có giá trị rất thấp,
so với các giá trị cepstral bậc thấp Sự khác biệt này gây khó khăn cho việc mô hình hoá dữ liệu, ví dụ như khi sử dụng các hàm mật độ xác suất Gauss Do đó
các hệ số cepstral được điều chỉnh lại (re-scaled) theo công thức:
ce, =exp(n*k)c,
Sau bước hiệu chỉnh này ta thu được các giá trị MFCC
9) Tính giá trị delta MFCC Các giá trị delta của các hệ số MFCC được tính toán
nhằm phản ánh sự biến thiên tiếng nói theo thời gian Các giá trị delta được tính toán dựa trên các giá trị MFCC của các khung tín hiệu lân cận:
Trang 35iC}
d= Dip Cr09 —¢,.6)
t
230
Trong đó Ølà số khung tín hiệu lân cận được dùng (thông thường là 2)
Ngoài ra giá trị delta của delta (hay còn gọi là acceleration) cũng có thể được tính toán từ các giá trị delta dùng cùng một công thức như trên
N
s(n) = -Yali)s(n —1)+e(n)
i=l
trong đó ẤN là số hệ số hay là bậc của dự báo, các a(¡) là các hệ số dự báo tuyến
tinh (linear prediction coefficients), e(n) 1a ham 16i
Cac hé s6 a(i) dugc chon dé làm cực tiểu hàm lỗi dự báo trung bình bình phương
Có một vài phương pháp để tính các hệ số này: phương pháp dùng ma trận hiệp phương sai (covariance matrix), phương pháp tự tương quan (auto-correlation method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or harmonic) Phương pháp hay được áp dụng nhất trong nhận dạng tiếng nói là phương pháp tự tương quan dùng thuật toán đệ qui Levinson-Durbin
Thuật toán Levinson-Durbin như sau:
Tính p+1 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính) bằng công thức sau:
Trong đó s(n) là tín hiệu trong cửa số, N là số lượng mẫu trong cửa sổ
Các hệ số sau đó được tính toán đệ qui như sau:
37
Trang 361) FFT Tương tự như phương pháp MECC, tín hiệu tiếng nói được chia thành
các khung tín hiệu và được biến đổi Fourier sang miền tần số bằng thuật toán FFT
frequency filter) Equal-loudness
Luật cường độ nghe (power law of hearing)
Tính các giá trị delta 6 Thuat toan Durbin 6 Biến đổi Fourier ngược
Trang 372) Lọc theo thang tần số Bark Tương tự như phương pháp tính MECC, tín hiệu tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong
trường hợp này là thang tần số Bark:
Bark( )=6Inf—/—+[( f +12) 1200 1200
3) Nhấn mạnh tín hiệu dùng hàm cqual-loudness Bước xử lý này tương tự như bước nhấn manh pre-emphasis của phương pháp MFCC Hàm này mô phỏng đường cong cân bằng độ ồn (equal-loudness curve)
5) Biến đổi Fourier ngược (inverse DFT) Các hệ số tự tương quan được biến đổi
Fourier ngược để sau đó dùng làm giá trị đầu vào cho phương pháp LPC
6) Thuật toán Durbin được sử dụng để tính toán các hệ số dự báo tuyến tính giống như trong phương pháp LPC
7) Tính các giá trị delta Phương pháp tính tương tự như phương pháp tính hệ số MECC
2.1.3 Các kỹ thuật khử nhiễu
2.1.3.1 Kỹ thuật CMS
Đây là một kỹ thuật thông dụng để khử nhiễu trong các hệ thống nhận dạng, được dùng kết hợp trong quá trình tính toán các đặc tính phổ của tiếng nói Phương pháp này dựa trên giả thiết là các đặc tính tần số của môi trường là thường xuyên cố định hoặc biến đổi chậm Các tham số cepstral của một phát âm được trừ đi giá trị trung bình của các tham số trong một khoảng thời gian nào đó và làm cho các giá trị
này ít bị ảnh hưởng bởi môi trường:
O(r) = O(t)- =r)
t=1
39
Trang 38trong đó 7 là độ dài của vùng lấy giá trị trung bình, thường là độ dài của cả phát
âm
2.1.3.2 Kỹ thuật RASTA
RASTA là kỹ thuật lọc dựa trên giả thiết rằng các tính chất thời gian của các nhiễu là khác so với các tính chất thời gian của giọng nói Tốc độ thay đổi của các
thành phần không phải tiếng nói thường xuyên nằm ngoài tốc độ hoạt động của bộ
máy phát âm con người Bằng cách dùng bộ lọc số, kỹ thuật RASTA có thể loại bỏ
được một phần các nhiễu của môi trường và các nhiễu bổ sung bất thường khác Bộ
lọc dùng trong RASTA là:
0,2+0,1z!—0,2z2?—0,1z3
2.2_ MÔ HÌNH MARKOV ẨN
Phan này được dành để giới thiệu về mô hình Markov ẩn và ứng dụng của chúng
trong nhận dạng tiếng nói
2.2.1 Quá trình Markov
Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thể là một hệ vật lý
hay hệ sinh thái, .), ký hiệu g, là vị trí của hệ tại thời điểm / Các vị trí có thể có được của hệ được gọi là không gian trạng thái, ký hiệu là S= ƒS;, S›, S;, .} Giả sử
tại thời điểm s hệ ở trạng thái S;, nếu xác suất để hệ ở trạng thái S; tai thoi điểm ¿
trong tương lai chỉ phụ thuộc vào s, ứ, Š,, Š; thì có nghĩa là sự tiến triển của hệ chỉ
phụ thuộc vào hiện tại và độc lập với quá khứ Ta gọi đó là tính Markov và hệ có
tính chất này được gọi là quá trình Markov
Nếu không gian trạng thái Š của hệ là đếm được thì ta gọi hệ là xích Markov Nếu thời gian / là rời rac t=0,1,2, thi ta có xích Markov rời rạc Ta có thể biểu diễn tính Markov của hệ bằng biểu thức sau :
P(g, = S;/ 41 = Sis Wz = Str) = P(g, = S;/ 4.1 = Sj)
Dat P(s,i,t,j) = P(q, = S; | q, = S;) la xdc suat dé hé tai thoi diém s 6 trang thai i,
dén thoi diém ¢ chuyén sang trang thai j Ta goi P(s,i,t,j) 1a x4c suat chuyén cia hé
Néu xdc suat chuyén chi phu thudc vao (t-s) ttfc là
Trang 39P(s,i,t,j)= P(sth,i,tt+hj)
thì ta nói hệ là thuần nhất theo thời gian Bắt đầu từ đây ta chỉ xét xích Markov rời rạc và thuần nhất
Hình 2.3 Xích Markov với năm trạng thái S;, S;, , S; và
các xác suất chuyển trạng thái
Hình 2.3 trình bày một ví dụ về mô hình xích Markov rời rạc và thuần nhất, trong đó hệ có thể ở một trong năm trạng thái S,, Š›, , Sy (trong vi du trén N=5)
Tại mỗi thời điểm 1=0,1,2, hé chuyển trạng thái theo xác suất chuyển trạng thai a;
tương ứng với mỗi trạng thái
a,= Pan = 5S, 14, = 5, )
„ấy =l=L N
4a, 20;i,7=1,N
Ngoài ra ta định nghĩa xác suất trạng thái khởi đầu (initial state distribution) 2 =
(7, Z, Zxy}, trong đó 7, là xác suất để trạng thái ¡ được chọn tại thời điểm khởi
Trang 40thời điểm rời rạc liên tiếp nhau, trong đó mỗi trạng thái tương ứng với một sự kiện vật lý có thể quan sát được (observation event)
2.2.2 Mo hinh Markov an
Mô hình Markov ẩn là kết quả của mở rộng khái niệm từ mô hình Markov bằng cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation distribution) Ngoai qua trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình ngẫu nhiên nữa đó là quá trình ngẫu nhiên sinh ra một quan sát Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong
đó có một quá trình ngẫu nhiên không quan sát được Tập các quan sát Ó được sinh
ra bởi dãy các trạng thái SŠ;, Š;, ŠS„ của mô hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn (hidden) [31]
Một mô hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :
1) N, số trạng thái (state) trong mô hình Markov Các trạng thái thường được ký hiệu bằng $= ($S;, Š;, Š;, .} và trạng thái của mô hình tại thời điểm được kí hiệu
là q,
2) M số ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ
vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V= ƒv¿, Vp, .}
3) A = {a,}, xác suất chuyển trạng thái (state transition probability distribution)
Trong đó a; là xác suất để trạng thái j xuất hiện tại thời điểm +! khi trạng thái i
đã xuất hiện tại thời điểm /
đụ = P(q,¿¡ = Š; Í 4, = S;)
4) B=(b(k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol probability distribution in state) b(k) là xác suất của quan sát v¿ tại trạng thái / tại thời điểm /
b{k) = P(s, tại thời điểm r J q, = S), (2.1)