Ứng dụng lý thuyết phi tuyến trong xử lý và nhận dạng tiếng việt

Hoàng Mạnh Thắng luận văn này tập trung vào việc thu nhận tiếng nói tiếng Việt, ứng dụng các kết quả trong l thuyết phi tuyến tính để tìm ra các đặc trưng phục vụ cho việc xử l và nhận

Trang 2

ii

Lời cam đoan

Tôi xin cam đoan luận văn này là công trình nghiên cứu thực sự của cá nhân tôi, được thực hiện dưới sự hướng dẫn khoa học của PGS.TS Nguyễn Tiến Dũng

Các số liệu, kết quả nghiên cứu trong luận văn này là trung thực

Tôi xin chịu trách nhiệm về nghiên cứu của mình

Học viên Phạm Hữu Biên

Trang 3

iii

MỤC LỤC

Lời cam đoan ii

MỤC LỤC iii

Danh mục các ký hiệu và các chữ viết tắt v

Danh sách các bảng vi

Danh sách các hình vẽ và đồ thị vii

MỞ ĐẦU 1

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN 3

1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói trong nước và trên thế giới 3

1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR) 5

1.3 Mối quan hệ giữa tiếng nói và hệ thống động phi tuyến 6

1.4 Tổng kết 8

CHƯƠNG 2: CƠ SỞ XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH NHẬN DẠNG TIẾNG NÓI 9

2.1 Cơ sở xử lý tín hiệu số 10

2.1.1 Phép biến đổi tần số liên tục 10

2.1.2 Phép biến đổi tần số rời rạc 13

2.1.3 Các bộ lọc số 15

2.2 Phân tích phổ tách các đặc trưng 17

2.2.1 Giới thiệu phương pháp phân tích phổ 17

2.2.2 Hệ số Cepstral trong tần số Mel (MFCC) 19

2.2.3 Đặc trưng năng lượng, đạo hàm bậc 1 và đạo hàm bậc 2 23

2.2.4 Tổng hợp vectơ đặc trưng 24

2.3 Mô hình thống kê cho nhận dạng mẫu 25

2.3.1 Mô hình Gauss 25

2.3.2 Mô hình Markov ẩn 30

2.4 HMM và bài toán nhận dạng tiếng nói 39

Trang 4

iv

2.4.1 Xây dựng mô hình Markov ẩn 39

2.4.2 Xây dựng HMM cho nhận dạng số tiếng Việt 39

2.5 Tổng kết 40

CHƯƠNG 3: PHƯƠNG THỨC XỬ LÝ TÍN HIỆU PHI TUYẾN TÍNH VÀ CÁC PHƯƠNG PHÁP TÌM ĐẶC TRƯNG TRONG KHÔNG GIAN PHI TUYẾN TÍNH 41

3.1 Cơ sở lý thuyết và định lý của Takens 42

3.2 Các đặc trưng thu được từ không gian RPS 45

3.2.1Phân bố tự nhiên 45

3.2.2 Thông tin quỹ đạo 47

3.2.3 Kết hợp vectơ đặc trưng thu được từ xử lý phi tuyến và vectơ đặc trưng MFCC 48

3.3 Kỹ thuật mô hình hóa và nhận dạng 50

3.3.1 Mô hình hóa các đặc trưng thu được RPS 50

3.3.2 Mô hình hóa vectơ chung 52

3.3.3 Xây dựng mô hình nhận dạng từ tiếng Việt 53

3.4 Tổng kết 55

CHƯƠNG 4: CÀI ĐẶT CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI VÀ ĐÁNH GIÁ KẾT QUẢ 56

4.1 Phần mềm 56

4.2 Dữ liệu 57

4.3 Cài đặt thí nghiệm 58

4.3.1 Lựa chọn tham số 58

4.3.2 Xây dựng các bài thí nghiệm 61

4.4 Một số kết quả chính 62

4.5 Đánh giá kết quả 72

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76

Tài liệu tham khảo 77

PHỤ LỤC 80

Trang 5

v

Danh mục các ký hiệu và các chữ viết tắt

IDFT Inverse Discrete Fourier Transform

TIMIT Texas Instruments & Massachusetts

Institute of Technology speech corpus

Trang 6

vi

Danh sách các bảng

Bảng 1: Bảng ký hiệu dùng cho phân tích tín hiệu 9

Bảng 2: Bảng các ký hiệu dùng để xử lý tín hiệu trong không gian phi tuyến tính 41

Bảng 3: Bảng các ký hiệu dùng cho bài thí nghiệm 56

Bảng 4: Tên các bài thí nghiệm thực hiện 61

Bảng 5: Kết quả nhận dạng sử dụng các đặc trƣng MFCC 62

Bảng 6: Kết quả nhận dạng sử dụng các đặc trƣng phi tuyến 64

Bảng 7: Kết quả nhận dạng sử dụng kết hợp đặc trƣng phi tuyến với đặc trƣng MFCC 66

Bảng 8: Kết quả nhận dạng sử dụng mô hình trọng số 68

Bảng 9: Bảng so sánh kết quả nhận dạng với các đặc trƣng khác nhau 72

Bảng 10: Bảng so sánh kết quả nhận dạng giữa các đặc trƣng 74

Trang 7

vii

Danh sách các hình vẽ và đồ thị

Hình 1: Sơ đồ không gian pha (RPS) của tiếng nói của một từ 7

Hình 2: Đồ thị hàm X e( jw) 10

Hình 3: Biểu diễn Z theo phần thực phần ảo 11

Hình 4: Biểu diễn Z trên mặt phẳng phức 12

Hình 5: Thực hiện biến đổi Z trên vòng tròn đơn vị 12

Hình 6: Sơ đồ khối mô hình tạo tiếng nói 17

Hình 7: Sơ đồ khối mô hình lọc nguồn tạo tiếng nói 17

Hình 8: Đồ thị minh họa đặc trưng phổ và logarithm độ lớn phổ 18

Hình 9: Sơ đồ tính toán đặc trưng MFCC 19

Hình 10: Đồ thị cửa sổ Hamming 21

Hình 11: Đồ thị minh họa mối quan hệ giữa thang tần số Mel và thang tần số Hz 22

Hình 12: Sơ đồ khối minh họa tính toán vectơ đặc trưng MFCC 25

Hình 13: Hàm mật độ Gauss 25

Hình 14: Mô hình Gauss 26

Hình 15: Hàm mật độ Gauss của ba phân phối 27

Hình 16: Mô hình Markov 3 trạng thái 30

Hình 17: Mô hình Markov ẩn 3 trạng thái 31

Hình 18: Chuỗi Q tối ưu cục bộ 35

Hình 19: Sơ đồ xây dựng HMM 40

Hình 20: Hình vẽ minh họa RPS của các từ „một‟, „hai‟, „ba‟, „bốn‟ 43

Hình 21: Đồ thị RPS của từ “một” với các độ trễ khác nhau (τ = 1, τ = 6, τ =24 ) 44

Hình 22: So sánh tâm và bán kính của quỹ đạo từ ”một” và quỹ đạo từ “hai” 45

Hình 23: So sánh tâm và bán kính của quỹ đạo từ ”một” và quỹ đạo “hai” 46

Hình 24: So sánh tâm và bán kính của quỹ đạo từ ”một” với hai người nói khác nhau 47

Hình 25: Hình vẽ minh họa phân bố các điểm trong RPS và quỹ đạo RPS 47

Hình 26: Mối quan hệ giữa các chỉ số cho vectơ tổng hợp 50

Trang 8

viii

Hình 27: Minh họa RPS bằng mô hình Gauss với 256 Mixtures 51

Hình 28: Mô hình Markov ẩn left-right ẩn 6 trạng thái 53

Hình 29: Sơ đồ khởi tạo ma trận xác suất phát ra 54

Hình 30: Sơ đồ thuật toán huấn luyện 54

Hình 31: Thuật toán nhận dạng từ tiếng Việt 54

Hình 32: Chương trình thu nhận âm thanh huấn luyện 57

Hình 33: Sơ đồ thuật toán cắt tự động 58

Hình 34: Đồ thị RPS của từ “một” với các độ trễ khác nhau 58

Hình 35: Đồ thị minh hoạ RPS dùng mô hình Gauss với 256 Mixtures 60

Hình 36: Đồ thị kết quả nhận dạng các số tiếng Việt với đặc trưng MFCC 63

Hình 37: Đồ thị kết quả nhận dạng các số tiếng Việt với đặc trưng thu được từ RPS 65

Hình 38: Biều đồ thể hiện tỉ lệ nhận dạng chính xác số tiếng Việt với vectơ đặc trưng được kết hợp từ vectơ đặc trưng phi tuyến và vectơ đặc trưng MFCC 67

Hình 39: Đồ thị kết quả nhận dạng sử dụng mô hình Markov ẩn 9 trạng thái với vectơ đặc trưng (dùng mô hình trọng số) 69

Hình 40: Đồ thị kết quả nhận dạng sử dụng mô hình Markov ẩn 15 trạng thái với vectơ đặc trưng (dùng mô hình trọng số) 70

Hình 41: Đồ thị kết quả nhận dạng với mô hình Markov ẩn 70

Hình 42: Giao diện chương trình demo kết quả 71

Hình 43: Đồ thị kết quả nhận dạng với mô hình dùng trọng số và không dùng trọng số 75

Trang 9

1

MỞ ĐẦU

Ngày nay nhu cầu trao đổi thông tin ngày càng nhiều dẫn đến sự tương tác giữa người và máy tính ngày càng gia tăng Có rất nhiều phương thức tiếp cận khác nhau như thông qua sóng tín hiệu điện não để ra lệnh cho máy, thông qua tiếng nói, thông qua các

cử chỉ chuyển động Một trong những phương thức giao tiếp với máy tính được phát triển nhiều nhất đó là thông qua tiếng nói Đã có rất nhiều công trình nghiên cứu về nhận dạng tiếng nói trên thế giới và đã có những thành công đáng kể như: hệ thống nhận dạng tiếng nói tiếng Anh Via Voice của IBM, Spoken Toolkit của CSLU(Central of Spoken Laguage Under-standing), Speech Recognition của Microsoft, Hidden Markov Model tookit của đại học Cambridge, CMU Sphinx của đại học Carnegie Mello,…Ngoài ra một số hệ thống nhận dạng tiếng nói tiếng Pháp, Đức, Trung Quốc,… cũng khá phát triển Nhận dạng tiếng nói tiếng Việt cũng có một số công trình như Robot hướng dẫn làm hướng dẫn viên bảo tàng, AILab, Vietvoice, Vspeech… Phần lớn các công trình nghiên cứu này sử dụng công cụ kỹ thuật phân tích và xử lý tín hiệu tuyến tính Gần đây có một công cụ được phát triển cho việc phân tích và xử lý tín hiệu là mô hình ứng dụng lý thuyết về phi tuyến Tại một số nước như Nhật, Pháp, Anh thì mô hình này đã được áp dụng cho nhận dạng tiếng nói và đã có kết quả tốt Đối với tiếng Việt, phương pháp tiếp cận nghiên cứu dùng lý thuyết phi tuyến nhằm ứng dụng cho nhận dạng tiếng nói chưa được nghiên cứu

Với mong muốn góp phần tạo nên những bước phát triển trong lĩnh vực nhận dạng tiếng nói ở nước ta cả về mặt nghiên cứu cũng như ứng dụng sản phẩm thực tiễn cho đời

sống, với sự định hướng của thầy giáo PGS.TS Nguyễn Tiến Dũng và thầy giáo PGS.TS Hoàng Mạnh Thắng luận văn này tập trung vào việc thu nhận tiếng nói tiếng

Việt, ứng dụng các kết quả trong l thuyết phi tuyến tính để tìm ra các đặc trưng phục vụ cho việc xử l và nhận dạng các từ tiếng Việt

Để hoàn thành được luận văn này em xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Tiến Dũng và thầy giáo PGS.TS Hoàng Mạnh Thắng đã tận tình hướng dẫn

và giúp đỡ em trong quá trình thực hiện luận văn Em xin cảm ơn các thầy, cô giáo trong

Trang 10

2

Viện điện tử - viễn thông, trường Đại học Bách khoa Hà Nội đã tạo điều kiện cho em hoàn thành luận văn này Em xin cảm ơn các thành viên trong SIPLAB và các bạn sinh viên đã tạo điều kiện cho em trong quá trình thu thập dữ liệu làm luận văn này

Bố cục của luận văn được tổ chức như sau:

Chương 1: Nghiên cứu tổng quan Chương này giới thiệu tổng quan về tình hình nghiên cứu nhận dạng tiếng nói ở trong nước và các nước trên thế giới, lịch sử phát triển của nghiên cứu nhận dạng tiếng nói, giới thiệu một số kết quả nhận dạng tiếng nói sử dụng lý thuyết phi tuyến và giới hạn phạm vi nghiên cứu của luận văn

Chương 2: Cơ sở xử lý tiếng nói và các mô hình nhận dạng tiếng nói Chương này giới thiệu mô hình tuyến tính sử dụng cho phân tích và tìm đặc trưng của các từ tiếng Việt cần nhận dạng, giới thiệu mô hình thống kê nhận dạng mẫu, xây dựng mô hình nhận dạng

từ tiếng Việt sử dụng mô hình Markov ẩn

Chương 3: Phương thức xử lý tín hiệu phi tuyến tính và các phương pháp tìm vectơ đặc trưng trong không gian phi tuyến tính Chương này giới thiệu các kết quả lý thuyết phi tuyến tính của Takens, trình bày phương pháp tách các đặc trưng trong không gian phi tuyến tính, xây dựng mô hình Markov ẩn cho nhận dạng từ tiếng Việt với các đặc trưng phi tuyến, trình bày phương pháp kết hợp đặc trưng được tách từ không gian phi tuyến và đặc trưng được tách từ phương thức xử lý tuyến tính thông thường Xây dựng mô hình Markov ẩn cho các vectơ đặc trưng chung tìm được

Chương 4: Cài đặt chương trình nhận dạng tiếng nói và đánh giá kết quả Chương này trình bày các kết quả nhận dạng tiếng nói với các đặc trưng tìm được trong không gian phi tuyến và các đặc trưng tìm được trong không gian phi tuyến kết hợp với đặc trưng MFCC, đồng thời đánh giá kết quả nhận dạng tiếng nói đã đạt được

Phần cuối của luận văn là kết luận và hướng phát triển của đề tài trình bày về các vấn đề luận văn đã làm được và các vấn đề cần phát triển sau luận văn

Sau đây là chi tiết từng chương:

Trang 11

3

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN

Chương này giới thiệu tổng quan về tình hình nghiên cứu nhận dạng tiếng nói ở trong nước và các nước trên thế giới, lịch sử phát triển của nghiên cứu nhận dạng tiếng nói, giới thiệu một số kết quả nhận dạng tiếng nói sử dụng lý thuyết phi tuyến và giới hạn phạm vi nghiên cứu của luận văn

1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói trong nước và trên thế giới

Vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói đã và đang thu hút rất nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên khắp thế giới Ý tưởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm 50 của thế kỷ 20 và đến nay

Đối với nước ta đã có nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt và đã đạt được một số thành tựu, nhưng nhìn chung vẫn chưa đạt được kết quả cần thiết để có thể tạo ra các sản phẩm mang tính ứng dụng cao Có thể kể đến các công trình sau:

Robot hướng dẫn làm hướng dẫn viên bảo tàng của viện nghiên cứu quốc tế (MICA) Đại học Bách khoa Hà Nội Trên robot gắn camera thực hiện chức năng thị giác, micro nhận dạng tiếng nói và tám cảm biến hồng ngoại giúp nó di chuyển thuận lợi Robot được mang thử nghiệm tại khu trưng bày hiện vật của dân tộc Chăm, Khmer, Hoa tại Bảo tàng dân tộc học Việt Nam với dữ liệu khoảng 500 thông tin và cho kết quả tốt Tuy nhiên trong điều kiện ồn ào, nhiễu sóng như ở bảo tàng, robot nhiều khi vẫn chưa hiểu đúng yêu

cầu của khách hàng [38]

Trang 12

4

Mô hình căn phòng thông minh của viện nghiên cứu quốc tế (MICA) Đại học Bách khoa Hà Nội bao gồm 5 thiết bị: cửa ra vào, camera, đèn, vô tuyến, điều hòa có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng Việt theo ngôn ngữ chuẩn miền Bắc Mọi thiết bị trong chương trình đều được

hỗ trợ điều khiển bằng tay và bằng tiếng nói Với những thiết bị được lắp đặt để tương tác như: cửa ra vào, camera, đèn, vô tuyến, điều hòa… khi người điều khiển bằng tiếng nói (tiếng Việt) theo ngôn ngữ chuẩn miền Bắc nói với tốc độ trung bình thì tỷ lệ nhận dạng chính xác 90% trong môi trường ít nhiễu

AILab: Đây là công trình được phòng thí nghiệm Trí tuệ Nhân tạo – AILab thuộc Đại học Khoa học Tự nhiên tạo ra dựa trên các công nghệ tiên tiến nhất về nhận dạng và tổng hợp tiếng nói để đáp ứng nhu cầu của người dùng Dựa trên công nghệ xử lý tiếng nói tiếng Việt, AILab đã xây dựng phần mềm iSago chuyên hỗ trợ tìm kiếm thông tin qua tiếng nói Thông qua ứng dụng phần mềm người sử dụng có khả năng hỗ trợ giao tiếp với điện thoại di động trực tiếp bằng lời nói Từ đó người sử dụng tìm kiếm thông tin nhà hàng, quán Bar, Cafe trên địa bàn TP HCM Khi người dùng đặt câu hỏi bằng tiếng nói, iSago sẽ truyền nội dung truy vấn này về server để xử lý và gửi lại kết quả tìm kiếm, dạng một danh sách: tên nhà hàng, địa chỉ Phần mềm này cũng cho phép người dùng hiển thị địa chỉ tìm được dạng bản đồ hoặc nghe đọc địa chỉ trực tiếp bằng công nghệ tổng hợp giọng nói Hiện nay phần mềm này đang dừng ở mức 100 từ khóa Phần mềm được cung cấp miễn phí tại địa chỉ www.ailab.hcmus.edu.vn [20]

Vietvoice: Đây là phần mềm của một người dân Việt Nam cư trú tại Canada Phần mềm có khả năng nói tiếng Việt từ các tập tin Để chạy được chương trình, cần cài đặt Microsoft Visual C++ 2005 Redistributable Package (x86) Đối với người khiếm thị, phần mềm này cho phép sử dụng cách gõ tắt (nhấn nút Ctrl và một chữ) để chọn lựa một trong các tính năng hiển thị trên màn hình Người dùng có thể cập nhật từ điển các chữ viết tắt

và các từ ngữ tiếng nước ngoài [19]

Vspeech: Đây là một phần mềm điều khiển máy tính bằng tiếng nói do một nhóm sinh viên Đại học Bách Khoa TP HCM viết Phần mềm sử dụng thư viện Microsoft

Trang 13

microphone và card âm thanh sử dụng tiêu chuẩn thông thường [18]

Tuy nhiên việc ứng dụng nhận dạng tiếng nói vào điều khiển máy tính còn nhiều hạn chế Ở Việt Nam thì hầu như chỉ mới có bộ phần mềm Vspeech của nhóm sinh viên trường Đại học Bách Khoa TP HCM, các phần mềm khác chỉ thử nghiệm trong phòng thí nghiệm, chưa được sử dụng thực tế vì chưa đạt trên 100 từ Phần mềm Vspeech được phát triển từ mã nguồn mở Microsoft Speech SDK nhận dạng tiếng Anh thông qua phương thức huấn luyện dữ liệu tiếng Việt và phương thức chuyển đổi trung gian giữa tiếng Việt

và tiếng Anh, việc nhận dạng từ tiếng Việt được thực hiện trong Vspeech để nhận biết tiếng nói tiếng Việt

1.2 Lịch sử nghiên cứu nhận dạng tiếng nói tự động (ASR)

Hệ thống nhận dạng tiếng nói đầu tiên được xây dựng tại Bell Labs vào trước năm

1950 [6] Nhiệm vụ của hệ thống này là nhận dạng các số rời rạc được phát ra từ một

người nói Hệ thống sử dụng kỹ thuật xử lý tín hiệu tương tự và thực hiện nhận dạng bằng cách phát hiện ra các đỉnh tần số cộng hưởng (gọi là các formants) Mặc dù hệ thống vẫn còn thô sơ nhưng đã nhận dạng chính xác đến 98%, kết quả này đã chứng tỏ rằng máy

móc có thể nhận dạng tiếng nói của con người [6]

Vào các năm từ 1960 đến 1970 các nghiên cứu nhận dạng tiếng nói tiếp tục được phát triển dẫn tới kỹ thuật tính toán dữ liệu số chủ yếu tập trung vào xử lý tín hiệu và nhận dạng mẫu Điều đó làm tiền đề để phát triển nhận dạng tiếng nói Đóng góp quan trọng để phân tích tiếng nói đó là Fast Fourier Transform (FFT), phân tích cepstral, linear predictive coding (LPC) Các thuật toán nhận dạng mẫu như mạng nơron (ANN),

Trang 14

và các phần mềm nhận dạng tiếng nói dùng chung cho các bài thí nghiệm để so sánh, đánh giá kết quả nghiên cứu của các nhà khoa học

Cơ sở dữ liệu tiếng nói chuẩn được biên dịch và công bố như là TIMIT Những công

cụ phần mềm nhận dạng tiếng nói với mã nguồn mở có Hidden Markov Modeling Tookit (HTK) Nổi tiếng nhất là IBM Via Voice và Dragon System Naturally speaking

Từ năm 2000 đến nay các nhà nghiên cứu tập trung vào áp dụng mô hình xử lý tín hiệu phi tuyến để tìm ra các đặc trưng mới cho hệ thống nhận dạng tiếng nói, xây dựng

mô hình mới để nâng cao độ chính xác của hệ thống nhận dạng tiếng nói Khởi đầu cho

thời kì này là các nghiên cứu của Banbrook [24], Narayanan [31] và Kumar [2] Và hiện

nay thì trên thế giới đã có các công bố chỉ ra là có thể áp dụng các kỹ thuật xử lý tín hiệu

phi tuyến cho nhận dạng tiếng nói từ con người [1, 2, 4, 6, 8, 9, 10, 11, 14, 15, 22, 24, 25, 30]

1.3 Mối quan hệ giữa tiếng nói và hệ thống động phi tuyến

Trong hệ thống động phi tuyến nói chung, các ứng dụng được xây dựng dựa trên các kết quả thí nghiệm về sự biến thiên chuỗi dữ liệu trạng thái theo thời gian của Takens, Sauer và Yorke Lý thuyết Takens nói rằng không gian trạng thái của hệ thống có thể được xây dựng lại thông qua phép làm trễ của tín hiệu gốc Không gian trạng thái mới này

có thể hiểu là không gian pha xây dựng lại (RPS: Reconstructed Phase Space) và nó được coi như là cấu trúc hình học của hệ thống động nếu tất cả các biến trạng thái đó được đo

Trang 15

7

đạc từ hệ thống [32, 33] Một RPS có thể là một miền xử lý tín hiệu mạnh khi hệ thống động quan tâm là phi tuyến và hỗn loạn [14, 15] Theo kỹ thuật xử lý tuyến tính thông

thường thì miền tần số là không gian xử lý với phép biến đổi Fourier rời rạc (DFT) theo

thời gian [36] Với hệ thống động tuyến tính cấu trúc hỗn loạn xuất hiện trong miền tần số

chính là các đỉnh cộng hưởng trong phổ tần số Tuy nhiên với hệ thống phi tuyến hay hệ thống hỗn loạn, cấu trúc hỗn loạn không xuất hiện trong miền tần số, bởi vì phổ tần số thường là dải sóng rộng và nhiễu giống nhau Trong miền không gian xây dựng lại (RPS), cấu trúc quỹ đạo của các điểm hấp dẫn thường nhấp nhô một cách hỗn độn Quỹ đạo của các điểm hấp dẫn này bao gồm các thông tin về sự chuyển động của hệ thống nghĩa là những đặc trưng thu được từ RPS có thể bao gồm các thông tin khác với các thông tin thu được từ phổ tần số Một ví dụ về không gian pha xây dựng lại (RPS) được thể hiện ở Hình 1 dưới đây Giả sử có tín hiệu x[n], dựa vào tín hiệu này ta có thể xây dựng lại không gian trạng thái cho hệ thống động phi tuyến tính bằng cách tạo ra tín hiệu với độ trễ

τ = 6 (x[n-6])

Hình 1: Sơ đồ không gian pha (RPS) của tiếng nói của một từ

Mục đích chính sử dụng RPS cho xử lý tín hiệu là điều khiển, dự đoán và lọc nhiễu,

[14, 15, 36] Chỉ có thưa thớt các lý thuyết sử dụng những đặc trưng thu được từ RPS cho

Trang 16

8

phân loại và nhận dạng [1, 4, 9, 11, 22, 25, 30, 35] Tập đặc trưng có thể thu được từ RPS được biết như là phân bố tự nhiên và hình dạng quỹ đạo của các điểm hấp dẫn [4, 5, 15, 16] Phân bố tự nhiên được hiểu đơn giản là phân bố các điểm trong không gian RPS Bởi

vì, tiếng nói là một tín hiệu có chiều dài hữu hạn vì vậy chúng có thể được đánh giá thông qua các mô hình toán học Các nghiên cứu trước đây đã chỉ ra rằng mô hình Gauss có thể

đánh giá chính xác sự phân bố tự nhiên của các điểm hấp dẫn trong RPS [1, 11] Luận văn

này tập trung vào phương pháp đánh giá phân bố tự nhiên của các điểm hấp dẫn trong RPS một cách tự động thông qua mô hình Gauss và sử dụng chúng làm đặc trưng nhận dạng và phân loại từ tiếng Việt

1.4 Tổng kết

Như vậy kỹ thuật xử lý tín hiệu phi tuyến có thể áp dụng cho nhận dạng tiếng nói Bởi vì chúng có khả năng khôi phục lại hệ thống động phi tuyến và không gian trạng thái được xây dựng lại từ kỹ thuật này có thể bao gồm nhiều thông tin khác nhau của các từ cần nhận dạng Mặc dù vậy kỹ thuật xử lý tín hiệu phi tuyến ít được quan tâm và chúng không được sử dụng rộng rãi như kỹ thuật xử lý tín hiệu tuyến tính

Để làm sáng tỏ khả năng phân tích của mô hình xử lý tín hiệu phi tuyến, khám phá các đặc trưng thu được từ RPS và mở rộng sự hiểu biết về những phương thức xử lý tín hiệu phi tuyến này Luận văn thực hiện nhiệm vụ là nhận dạng các số tiếng Việt phát ra từ tiếng nói của con người Nguyên nhân là do nhận dạng các từ tiếng Việt với số lượng nhỏ cho phép tập trung sâu vào hiệu suất của các đặc trưng Chương tiếp theo sẽ làm sáng tỏ

về mặt kiến thức cũng như mô hình phân tích đặc trưng và phân loại các từ tiếng Việt

Trang 17

sử dụng mô hình Markov ẩn Dưới đây là bảng các ký hiệu dùng cho phân tích tín hiệu

n Chỉ số của tín hiệu số trong miền thời gian

[ ] Tín hiệu rời rạc trong miền thời gian

 Đạo hàm bậc 1 (còn được gọi là delta)

 Đạo hàm bậc 2 (còn được gọi là delta- delta)

Bảng 1: Bảng ký hiệu dùng cho phân tích tín hiệu

Trang 18

10

2.1 Cơ sở xử lý tín hiệu số

2.1.1 Phép biến đổi tần số liên tục

 Biến đổi Fourier

Biến đổi Fourier của một tín hiệu x n[ ] hay x n( ) đƣợc định nghĩa nhƣ sau:

Cách thể hiện ( j )

X e : Biểu diễn theo phần thực phần ảo:

( j )

X e  = Re[X e( j)]+ jIm[X e( j)] (2.1.2) Biểu diễn theo Module và Argument:

Sự tồn tại của biến đổi Fourier:

Căn cứ vào tính chất hội tụ của chuỗi và sự ánh xạ đầy đủ từ miền thời gian rời rạc

n sang miền tần số  (tức là khi sang miền tần số , chỉ tồn tại biến  chứ không tồn tại biến n), ta có:

Biến đổi Fourier của một dãy x n( ) sẽ tồn tại khi và chỉ khi:

Trang 19

11

 Biến đổi Fourier ngƣợc (IFT: Inverse Fourier Transform)

Biến đổi ngƣợc của phổ tín hiệu ( j )

Ở đây biến đổi ngƣợc giúp ta xác định đƣợc x n( ) từ X e( jw) Một số tính chất biến đổi

Fourier có thể tham khảo tại [39]

Ở đây ta phải thấy đƣợc z là một biến số phức đƣợc biểu diễn 2 dạng:

+ Biểu diễn phần thực Re[z], phần ảo Im[z]

Hình 3: Biểu diễn Z theo phần thực phần ảo

Biểu diễn theo tọa độ cực

z = re j r(cos jsin ) r.cosr.sin =Re[z]+jIm[z] (2.1.10)

Trang 20

12

Hình 4: Biểu diễn Z trên mặt phẳng phức

Miền hội tụ của biến đổi Z: Tập hợp tất cả các giá trị của z mà tại đó chuỗi

n

n n

X z x n z







  (2.1.11) hội tụ được gọi là miền hội tụ của biến đổi Z

 Biến đổi Z ngược (IZT: Inverse Z Transform)

Biến đổi Z ngược được định nghĩa như sau:

 - Đường cong kín đi qua gốc tọa độ Tích phân đường theo chiều dương Một số tính

chất biến đổi Z tham khảo tại [39].

 Quan hệ giữa biến đổi Fourier và biến đổi Z

Ta thấy theo định nghĩa biến đổi Z:

n

n n

Trang 21

13

Như vậy, có thể rút ra một số nhận xét:

- Biến đổi Fourier chính là biến đổi Z được thực hiện trên vòng tròn đơn vị

- Biến đổi Fourier chỉ là trường hợp riêng của biến đổi Z

- Ngoài ra có thể tìm biến đổi Fourier từ biến đổi Z bằng cách đánh giá ZT trên vòng tròn đơn vị với điều kiện vòng tròn đơn vị phải nằm trong miền hội tụ của biến đổi Z

2.1.2 Phép biến đổi tần số rời rạc

 Biến đổi Fourier rời rạc (Discrete Fourier Transform- DFT)

Nếu một tín hiệu x N( )n tuần hoàn với chu kỳ N thì:

( ) ( )W

N

kn N n

1

N

kn N k

Trang 22

14

 Biến đổi Fourier nhanh

Biến đổi Fourier nhanh - FFT (Fast Fourier Transform) là thuật toán rất hiệu quả để tính DFT của một chuỗi dữ liệu số Ƣu điểm của biến đổi này là nhiều tính toán đƣợc lặp lại do tính tuần hoàn của số hạng Fourier

2

j kn N

e



Dạng DFT là:

1 0

( ) ( )W

N

kn N n

Trang 23

15

Biến đổi Cosine rời rạc DCT (Discrete Cosine Transform) đƣợc sử dụng rộng rãi trong xử

lý tiếng nói Nó là một phép biến đổi chuyển tín hiệu sang miền tần số

Phép biến đổi thuận:

1 0

(2 1)( ) ( ) ( ) os[ ] 0,1, 2, , 1

Trang 24

k

b

k M a

1

M k k

Vì vậy IIR còn đƣợc gọi là lọc đệ quy và FIR là lọc không đệ quy

Khi đó hệ thống có hàm truyền đạt trong mặt phẳng Z:

( )( )

( )1

Trang 25

17

2.2 Phân tích phổ tách các đặc trưng

2.2.1 Giới thiệu phương pháp phân tích phổ

Mục đích của phương thức phân tích phổ âm là để tách các đặc trưng của một vùng

âm thanh từ nguồn âm Bởi vì những đặc trưng của vùng âm thanh bao gồm các thông tin

của các từ nhận dạng [21] Phép phân tích phổ là một phép xử lý tín hiệu tuyến tính, nơi

mà các toán tử phi tuyến được đưa vào biểu thức có thuộc tính tuyến tính

Mô hình tạo tiếng nói được đưa ra hình dưới:

Nguồn âm

Không phải

tiếng nói

Khối khuếch đại

Bộ lọc vùng

âm thanh

Âm thanh thoát ra khỏi môi

Tín hiệu tiếng nói

Hình 6: Sơ đồ khối mô hình tạo tiếng nói

Đây là mô hình chính xác nhưng khi phân tích có thể làm đơn giản hơn bằng cách thay thế khối lọc âm thanh, lọc vùng âm thanh và âm thanh thoát ra khỏi môi bằng một bộ lọc đơn giản ở Hình 7 Mô hình này gộp tất cả các bộ lọc này vào một bộ lọc bằng cách sử dụng phép nhân

Khối lọc vùng âm thanh

Tín hiệu từ nguồn

âm

Tín hiệu tiếng nói

Hình 7: Sơ đồ khối mô hình lọc nguồn tạo tiếng nói

Mô hình phân tích này có thể được công thức hóa theo các mô hình dưới đây Theo

mô hình biểu diễn ở Hình 7, tín hiệu tiếng nói là sự kết hợp nguồn âm kích thích với bộ lọc vùng âm thanh

Trang 26

18

s n[ ] h n[ ]* [ ]e n DFT. S( ) H( ) ( ) E  (2.2.1) Bằng cách thực hiện logarit độ lớn của cả hai bên, biểu thức được chuyển từ phép nhân thành phép cộng

log S( )  log H( ) ( ) E  log H( )  log E( ) (2.2.2) Sau đó, thực hiện biến đổi Fourier ngược của logS( ) , phổ thu được trong miền tần số

[21]

( ) log | ( ) | log | ( ) | log | ( ) |

C q IDFT S  IDFT H  IDFT E  (2.2.3)

Hệ số Cepstral là các đặc trưng của vùng âm thanh và nó là các hệ số hoàn toàn rời rạc, bởi vì phép tính nhân trong miền tần số bị chuyển đổi thành phép cộng trong miền tần số Một ví dụ minh họa quá trình tính toán hệ số Cepstral cho một khung dữ liệu giọng nói được biểu diễn ở Hình 8 Chú ý các định gợn sóng trên đồ thị logarit độ lớn phổ tần số chính là đỉnh gợn sóng trên đường bao của phổ tín hiệu

Hình 8: Đồ thị minh họa đặc trưng phổ và logarithm độ lớn phổ

Các hệ số Cepstral C q( ) có thể được sử dụng như những đặc trưng cho nhận dạng tiếng nói do một số nguyên nhân sau đây Thứ nhất, chúng thể hiện đường bao của phổ tín hiệu gọi là vùng phát âm Thứ hai, các hệ số Cepstral có thuộc tính là không tương quan

với các hệ số khác [21, 5] Thứ ba là phương pháp tính toán các hệ số này hợp lý với một

Trang 27

19

tín hiệu có thời gian hữu hạn Cuối cùng điều quan trọng nhất đó là các hệ số này đã được

chứng minh là một đặc trưng tốt cho nhận dạng tiếng nói trong nhiều năm [21]

2.2.2 Hệ số Cepstral trong tần số Mel (MFCC)

MFCC là phương pháp rút trích đặc trưng dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz (theo thang tần số Mel, không phải theo thang tần số Hz)

Các bước tính đặc trưng MFCC có sơ đồ như sau:

Tín hiệu tiếng nói được lấy

mẫu 16KHz

Tiền nhấn (Pre- emphasis)

Cửa số hóa (Windowing)

Biến đổi Fourier nhanh

(FFT)

Lọc qua bộ lọc Mel-scale (Mel scale Filterbank)

Tính logarithm năng lượng phổ (Take logarithm)

Biến đổi Cosine rời rạc

Trang 28

20

miệng Do đó cần bù +6dB/Octave trên toàn bộ băng tần Trong xử lý tín hiệu số thường dùng bộ lọc thông cao có tần số cắt 3dB ở tần số trong phạm vi từ 100Hz đến 1kHz để thực hiện pre-emphasis và dạng phương trình sai phân của bộ lọc thông cao này được đưa

ra như dưới đây :

( ) ( ) * ( 1)

y n x n a x n (2.2.4) Trong đó y n( ) là tín hiệu đầu ra của bộ lọc pre-emphasis, x n( ) là tín hiệu vào hiện tại, x n( 1) là tín hiệu vào trước đó và a là hằng số thường được chọn giữa 0.9 và 1 Đối với các bài toán nhận dạng tiếng nói thì a hay được chọn là a = 0.95 Ngoài ra cũng có một số bài báo chọn giá trị a = 0.97 Trong luận văn này thực hiện bộ tiền nhấn với a = 0.95

Ta thực hiện biến đổi Z của phương trình (2.2.4):

 Cửa số hóa (Windowing)

Đầu tiên tín hiệu tiếng nói x n( ) sẽ được chia thành từng frame (có thực hiện chồng phủ một phần lên nhau) để được T frame '

Trang 29

21

Hình 10: Đồ thị cửa sổ Hamming

 Biến đổi Fourier nhanh (Fast Fourier Transform -FFT)

Phổ tín hiệu sau khi nhân với cửa sổ Hamming sẽ sử dụng phép biến đổi Fourier nhanh Ta thu được biên độ phổ chứa các thông tin có ích của tín hiệu tiếng nói Biến đổi Fourier nhanh – FFT (Fast Fourier Transform) là thuật toán rất hiệu quả để tính DFT của một chuỗi số Ưu điểm của FFT là nhiều tính toán được lặp lại do tính tuần hoàn của hàm Fourier

 Lọc qua bộ lọc Mel- scale

Các nghiên cứu về hệ thống thính giác của con người cho thấy, tai người có cảm nhận đối với các tần số không theo thang tuyến tính Các đặc trưng phổ tần số của tiếng nói được tai người tiếp nhận như ngõ ra của một dãy các bộ lọc Tần số trung tâm của các

bộ lọc này không phân bố tuyến tính dọc theo trục tần số Thành phần phổ dưới 1kHz thường được tập trung nhiều bộ lọc hơn vì nó chứa nhiều thông tin về âm thanh hơn Ở tần số thấp các bộ lọc băng hẹp được sử dụng để tăng độ phân giải tần số để có được tần

số cơ bản và âm họa vốn ổn định Ở các tần số cao các bộ lọc băng rộng được sử dụng để thu các thành phần tần số cao vốn biến động rất nhanh

Với nỗ lực nhằm mô tả chính xác sự tiếp nhận tần số của tai người, một thang tần số mới được xây dựng đó là thang tần số Mel dựa trên cơ sở thực nghiệm cảm nhận âm

Trang 30

22

thanh của con người Tần số 1kHz được chọn tại 1000 Mel Mối quan hệ giữa thang tần

số thực (vật lý) và thang tần số Mel (sinh l ) được cho bởi công thức:

10

2595log (1 )

700

Hz Mel

F

Với F Mel là tần số sinh l , đơn vị Mel; F Hz là đơn vị tần số thực, đơn vị Hz

Hình 11: Đồ thị minh họa mối quan hệ giữa thang tần số Mel và thang tần số Hz

Trên hình cho thấy với những tần số nhỏ hơn 1kHz, thì quan hệ giữa thang Mel và tần số thực là gần tuyến tính còn các tần số lớn hơn 1kHz thì quan hệ này là logarit Như vậy thay vì xây dựng các bộ lọc trên thang tần số thực ta có thể xây dựng các bộ lọc với tần số trung tâm cách đều tuyến tính trên thang Mel

Tần số trung tâm của bộ lọc thứ m được xác định bởi:

 được xác định: Với khoảng tần số dưới 1kHz, thì f m được chọn sao cho có khoảng

10 bộ lọc phân bố đều trong khoảng này Với khoảng tần số trên 1kHz, f m thường được tính bởi f m= 1.2* f m1

Kết quả sau khi cho phổ tín hiệu X k t( )qua bộ lọc ta thu được Y m t( )

Trang 31

23

 Tính logarithm năng lượng phổ

Sau khi qua bộ lọc Mel, phổ tín hiệu Y m t( ) sẽ được tính Log10 theo:  2

log |Y m t( ) |

 Biến đổi Cosine rời rạc

Bước cuối cùng để thu được các hệ số MFCC là lấy biến đổi Cosine rời rạc của kết quả logarit năng lượng phổ cho bởi biểu thức sau:

2.2.3 Đặc trưng năng lượng, đạo hàm bậc 1 và đạo hàm bậc 2

Ngoài MFCC thì các phần tử khác được thêm vào để tạo thành vectơ đặc trưng Một tham số nổi bật lên đó là năng lượng Năng lượng có thể là một trọng số quan trọng

để phân biệt các từ khác nhau [32] Mặc dù hệ số Cepstral đầu tiên có thể coi là năng

lượng, nhưng thực tế thường hay sử dụng tổng năng lượng của các khung dữ liệu theo thời gian như sau:

2 1

log ' [n]

N f n

Trang 32

24

1

2 1

| | c t | E t | c t | E t

O c E      (2.2.15) Trong đó:

 : Đạo hàm bậc 2 của năng lƣợng tại khung dữ liệu thứ t

Nhƣ vậy vectơ đặc trƣng bao gồm: 12 hệ số MFCC, 1 hệ số năng lƣợng, 12 hệ số đạo

hàm của MFCC, 1 hệ số đạo hàm của năng lƣợng, 12 hệ số đạo hàm bậc 2 của MFCC, 1

hệ số đạo hàm bậc 2 của năng lƣợng Tổng số phần tử trong vectơ đặc trƣng là 39 phần tử Hình 12 minh họa sơ đồ khối tính toán đặc trƣng :

Trang 33

Lọc qua bộ lọc Mel- scale

Biến đổi DCT thu đƣợc 12

hệ số Cepstral

Tính đạo hàm bậc 1 và bậc

Hình 12: Sơ đồ khối minh họa tính toán vectơ đặc trƣng MFCC

2.3 Mô hình thống kê cho nhận dạng mẫu

2.3.1 Mô hình Gauss

2.3.1.1 Đặc tả mô hình

Mô hình hợp Gauss (Gaussian Mixture Model - GMM) là một dạng mô hình thống

kê đƣợc xây dựng từ việc huấn luyện các tham số thông qua dữ liệu học

Mô hình này còn có tên gọi khác là mô hình tổ hợp các phân bố chuẩn có trọng số

(Weighted Normal Distribution Sums)

Hình 13: Hàm mật độ Gauss

Về cơ bản mô hình GMM xấp xỉ một hàm mật độ xác suất bằng tổ hợp các hàm mật

độ Gauss Hình trên minh họa hai hàm mật độ Gauss với các tham số khác nhau Một

Trang 34

26

cách hình thức, hàm mật độ xác suất của phân phối Gauss  2

N , ,

f x   đƣợc cho bởi công thức:

2 2

1 1/2

/ 2

2(2 )D

Trang 35

Hình 15: Hàm mật độ Gauss của ba phân phối

Như vậy, một mô hình GMM có M phân phối Gauss sẽ được đại diện bởi bộ tham

số w i,i, i,i1, M.Trong hướng tiếp cận GMM giải quyết bài toán nhận dạng tiếng nói, mỗi từ nói sẽ được mô hình hóa bằng một mô hình GMM mà bộ tham số λ của

nó sẽ được xác định thông qua việc huấn luyện trên tập mẫu của từng từ tương ứng Tùy thuộc vào cách tổ chức của ma trận hiệp phương sai (covariance matrix), GMM có thể có một số biến thể khác nhau:

- Nodal covariance matrices GMM: mỗi phân phối Gauss trong GMM có một ma trận hiệp phương sai riêng

- Grand covariance matrix GMM: mọi phân phối Gauss trong một GMM dùng chung một ma trận hiệp phương sai

- Global covariance matrix GMM: mọi phân phối Gauss trong tất cả các GMM dùng chung một ma trận hiệp phương sai

Trang 36

28

Ngoài ra, xét về dạng thức ma trận hiệp phương sai gồm hai loại: full (dạng đầy đủ)

và diagonal (dạng ma trận đường chéo) Thông thường, dạng nodal-diagonal covariance matrices GMM được sử dụng phổ biến nhất

2.3.1.2 Ước lượng tham số

Trong bộ phân loại dựa trên mô hình thống kê việc ước lượng các tham số của mô hình được thực hiện thông qua huấn luyện trên một số lượng lớn các dữ liệu học Mục tiêu của bước huấn luyện là nhằm tổng quát hóa, mô hình hoá những đặc điểm chung nhất của tập dữ liệu học

Đối với mô hình GMM, một trong những kỹ thuật xác định bộ tham số  của nó được áp dụng khá phổ biến là thuật toán Expectation-Maximization (EM) Bản thân EM

là một thuật toán tổng quát, đem lại các kết quả khác nhau đối với các mô hình khác nhau Ngoài ra, có hai tiêu chí ước lượng khác nhau trong EM:

- Maximum likelihood (ML): ước lượng tham số theo hướng cực đại hóa xác suất quyết định p X( | )

- Maximum a posteriori probability (MAP): ước lượng tham số theo hướng cực đại hóa xác suất quyết định là p( | X)

Cho trước vector đặc trưng X trích được từ dữ liệu âm thanh, ta có thể dễ dàng tính được xác suất p X( | ) Tuy nhiên trong nhận dạng tiếng nói, vai trò quyết định lại nằm ở xác suất p( | X) Sử dụng công thức Bayes, ta có tương quan giữa p X( | ) và p( | X):

( | ) ( )( | )

Trang 37

Các bước tính toán để rút ra công thức cập nhật bộ tham số  của GMM ở mỗi bước lặp

EM được trình bày chi tiết trong [32] Như vậy, với tập dữ liệu huấn luyện X gồm T mẫu

T

t T

t t

1

( | , )( | , )

w ( )

i i t

k k t k

Trong quá trình xây dựng GMM có hai vấn đề phát sinh là: số phân phối Gauss M

của mô hình và bộ tham số khởi đầu 0 trước khi tiến hành thuật toán EM Hiện tại, vẫn

chưa có giải pháp tối ưu trên l thuyết cho việc chọn M và 0 Thông thường, M sẽ được

chọn qua thực nghiệm, còn 0 sẽ được khởi tạo bằng thuật toán K-means nhằm đem lại khả năng cao hơn cho việc đạt tối ưu toàn cục, đồng thời đẩy nhanh tốc độ hội tụ trong huấn luyện

Trang 38

30

2.3.2 Mô hình Markov ẩn

2.3.2.1 Mô hình Markov

Xét một hệ thống gồm N trạng thái phân biệt S S1, 2, S N như trong hình 16 (chọn

N=3) Tại thời điểm t bất kỳ, hệ thống có thể chuyển từ trạng thái S i hiện hành sang một

trong N-1 trạng thái còn lại hoặc chuyển trở lại chính trạng thái S i Như vậy, ở thời điểm

t, từ trạng thái S i có N nhánh cho thao tác chuyển trạng thái, mỗi nhánh này có một độ đo

khả năng xảy ra, gọi là xác suất chuyển trạng thái

Hình 16: Mô hình Markov 3 trạng thái

Gọi q t là trạng thái đến được ở thời điểm t , aij là xác suất chuyển trạng thái S i sang trạng thái S j, ta có:

 Đầu ra của hệ thống là một chuỗi các trạng thái tại các thời

điểm t tương ứng Ta biết được trạng thái nào ở thời điểm t nào, chính vì vậy mà hệ thống

này được gọi là mô hình Markov “hiện” (Observable Markov Model)

Trang 39

31

2.3.2.2 Mô hình Markov ẩn

Phần 2.3.2.1 đã trình bày về mô hình Markov Trong mô hình Markov, mỗi trạng thái tương ứng với một sự kiện quan sát được Với cấu trúc này, mô hình Markov còn gặp nhiều hạn chế trong việc mô hình hóa hay giải quyết các vấn đề phức tạp Phần này trình bày khái niệm về mô hình Markov ẩn là một dạng mở rộng của mô hình Markov Trong

mô hình Markov ẩn, các sự kiện quan sát được nằm trong mỗi trạng thái và phụ thuộc vào hàm mật độ xác suất trong các trạng thái đó

Hình 17: Mô hình Markov ẩn 3 trạng thái

Hình 17 minh họa một mô hình Markov ẩn 3 trạng thái với các sự kiện có thể quan sát được trong mỗi trạng thái là V = {v1, v2, v3, v4} Khả năng quan sát được sự kiện vk trong trạng thái S j phụ thuộc vào xác suất b k j( ) Hàm b được gọi là hàm mật độ xác suất của các sự kiện được quan sát

Các thành phần của mô hình Markov ẩn:

N là số lượng trạng thái của mô hình {1,2, ,N} là các trạng thái Ký hiệu trạng thái

ở thời điểm t là q t

M là số lượng quan sát phân biệt Các ký hiệu quan sát tương ứng với tín hiệu vật lý

mà hệ thống đang mô tả Ta ký hiệu tập quan sát là V={v1, v2, , vM}

Trang 40

32

A = {a ij} - là ma trận phân phối xác suất chuyển trạng thái, trong đó a ij là xác suất

chuyển từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1

π = { i } - ma trận phân phối trạng thái ban đầu trong đó i là xác suất của mô

hình ở trạng thái i tại thời điểm ban đầu t = 1:

i p q1 i 1 i N

Như vậy để miêu tả đầy đủ một HMM cần phải có số trạng thái N của mô hình, tập

V gồm M ký hiệu quan sát, ma trận xác suất chuyển trạng thái A, ma trận xác suất các ký hiệu quan sát được B và ma trận xác suất trạng thái ban đầu π

2.3.2.3 Ba bài toán cơ bản của HMM

Để có thể áp dụng được mô hình HMM vào các ứng dụng phức tạp trong thực tế, trước hết cần có lời giải thỏa đáng cho 3 bài toán cơ bản của HMM:

Bài toán 1: Cho trước chuỗi tín hiệu quan sát O = O 1 O 2 … O T và mô hình HMM đại diện bởi bộ tham số  = (A, B, π) Làm sao để tính toán một cách hiệu quả P O( | ) – xác suất

phát sinh O từ mô hình λ?

Bài toán 2: Cho trước chuỗi tín hiệu quan sát O = O 1 O 2 … O T và mô hình HMM đại diện bởi bộ tham số = (A, B, π) Cần tìm ra chuỗi trạng thái tối ưu nhất Q = q 1 q 2 … q T đã phát sinh ra O

Bài toán 3: Cho trước chuỗi tín hiệu quan sát O = O 1 O 2 … O T Làm thế nào để xác định các tham số mô hình  = (A, B, π) sao cho cực đại hóa xác suất P O( | ) ? Đây chính là bài toán huấn luyện mô hình Bài toán này đem lại một khả năng rất quan trọng của HMM: Đó là khả năng mô hình hóa một đối tượng cụ thể trong thực tế, mô hình hóa dữ liệu học

Định dạng
Số trang	92
Dung lượng	3,2 MB