1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron

75 1,6K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 2,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Năm 1990 có nhiều nhà nghiên cứu đã chứng thực được giá trị của ANNs đối với nhận dạng tiếng nói, như chúng có thể để nhận dạng âm tiết hay nhận dạng phát âm chữ số.. Những yếu tố đó bao

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 2

LỜI CẢM ƠN

Đồ án cao học “Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron ” là

kết quả không chỉ của một cá nhân mà nó còn có được sự hỗ trợ, giúp đỡ của nhiều người

Trước hết, em xin chân thành cảm ơn PGS-TSKH Trần Hoài Linh vì những kiến thức mà thầy truyền đạt Thầy cũng là người cho em ý tưởng về xây dựng ứng dụng này Đồng thời, thầy đã trực tiếp hướng dẫn và theo dõi quá trình xây dựng và hoàn thiện đồ án này

Xin cảm ơn sự nhiệt tình truyền đạt kiến thức và kỹ thuật của các cán bộ Trung tâm MICA trong quá trình tôi tìm hiểu công nghệ và thực hiện đồ án

Cuối cùng, xin cám ơn các bạn bè tôi, những người luôn bên cạnh tôi động viên, giúp đỡ tôi trong học tập cũng như trong cuộc sống

Trang 3

MỤC LỤC

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC TỪ VIẾT TẮT 5

DANH MỤC CÁC HÌNH VẼ 6

Chương 1 .7

GIỚI THIỆU CHUNG 7

1.1 Điểm qua tình hình nhận dạng tiếng nói 8

1.2 Điểm qua tình hình nghiên cứu mạng nơ-ron 11

1.3 Căn bản về nhận dạng tiếng nói 12

1.4 Dynamic Time Warping 15

1.5 Tiêu chí và nội dung của bản luận văn 16

Chương 2 .18

ĐẶC ĐIỂM ÂM HỌC CỦA TIẾNG NÓI VÀ TIẾNG VIỆT 18

2.1 Âm thanh của lời nói- Bản chất và cấu tạo 18

2.1.1 Khía cạnh âm học của âm thanh 18

2.1.2 Khía cạnh sinh học của âm thanh 19

2.1.2.1 Bộ máy phát âm 19

2.1.2.2 Các kiểu tạo âm 21

2.2 Nguyên âm 23

2.2.1 Âm tố 23

2.2.2 Đặc trưng chung của nguyên âm 23

2.2.3 Xác định các nguyên âm 24

2.3 Phụ âm 24

2.3.1 Về phương thức cấu âm 25

2.3.2 Về vị trí cấu âm 27

2.3.3 Cấu âm bổ sung 29

2.4 Các hiện tượng ngôn điệu 29

2.4.1 Âm tiết 30

2.4.2 Thanh điệu 32

2.4.3 Trọng âm 33

2.4.4 Ngữ điệu 35

2.5 Sự biến đổi của ngữ âm trong lời nói 35

2.5.1 Thích nghi 36

2.5.2 Đồng hóa 37

2.5.3 Dị hóa 37

2.6 Sự phân biệt trong mặt biểu đạt của ngôn ngữ 37

2.6.1 Âm vị, âm tố và các biến thể của âm vị 37

2.6.2 Âm vị siêu đoạn tính 39

Trang 4

2.7 Một số đặc điểm riêng của tiếng Việt 40

Âm tiết .40

Chương 3 .43

MÔ HÌNH NHẬN DẠNG TIẾNG NÓI 43

3.1 Mô hình Markov ẩn 43

3.1.1 Khái niệm cơ bản 43

3.1.2 Thuật toán 45

3.1.2.1 Thuật toán tiến (Forward) 45

3.1.2.2 Thuật toán lùi (Forward-Backward) 46

3.1.3 Những hạn chế của HMMs 47

3.2 Mô hình mạng nơ-ron nhân tạo 48

3.2.1 Các đơn vị xử lý hay nơ-ron (Processing units) 50

3.2.2 Các liên kết (connections) 50

3.2.3 Giải thuật 51

3.2.4 Huấn luyện mạng 55

3.2.5 Phân loại mạng nơ-ron 56

3.2.5.1 Học có chỉ đạo 56

3.2.5.2 Học có chỉ đạo bán phần (semi - supervised learning) 58

3.2.5.3 Học không chỉ đạo (unsupervised learning) 58

3.3 Kết luận hai mô hình 58

Chương 4 60

THIẾT KẾ ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI 60

4.1 Phân tích yêu cầu bài toán 60

4.2 Phương án xây dựng chương trình 61

4.2.1 Vấn đề Xử lý tín hiệu đầu vào 61

4.2.2 Thiết kế và vận hành mạng nơ-ron 62

1 Cơ sở dữ liệu 63

2 Phương pháp nhận dạng bằng mạng nơ-ron nhân tạo ANN 64

a Tạo đặc tính 64

b Huấn luyện mạng MLP 64

c Hoạt động học của MLP 65

d Sơ đồ thuật toán thiết kế mạng MLP tối ưu: 68

4.3 Chạy chương trình nhận dạng tiếng nói 70

Kết quả chạy chương trình 71

4.4 Đánh giá kết quả đạt được và hướng phát triển 72

TÀI LIỆU THAM KHẢO 74

Trang 5

DANH MỤC CÁC TỪ VIẾT TẮT

Trang 6

DANH MỤC CÁC HÌNH VẼ

Hình 1 1: Mô hình hệ thống nhận dạng tiếng nói 13

Hình 1 2: Biến đổi từ tín hiệu tiếng nói sang Frame tiếng nói 14

Hình 1 3: Mẫu cho từ “TẮT” theo hai cách khác nhau 14

Hình 1 4: Dynamic Time Warping 16

Hình 2 1: Hệ thống phát âm ở người 20

Hình 2 2: Cơ cấu phát âm 27

Hình 2 3: Cấu âm tăng dần ở đầu âm tiết và giảm dần ở cuối âm tiết 30

Hình 2 4: Âm tiết tiếng Việt 40

Hình 2 5: Âm đầu 41

Hình 2 6: Âm chính 42

Hình 3 1: Mô hình Markov ẩn 43

Hình 3 2: Phân cấp cấu trúc HMMs 44

Hình 3 3: Thuật toán tiến (forward) 45

Hình 3 4: Thuật toán backward 46

Hình 3 5: Tử số trong công thức (7) 47

Hình 3 6: Cấu trúc nơ-ron : (a) không xắp xếp; (b) phân lớp; (c) Hồi quy; (d) tích hợp 51

Hình 3 7: (a) nơ-ron thường, (b) nơ-ron sigma-pi 52

Hình 3 8: (a) đường thẳng, (b) ngưỡng, (c) Sigmoidal 53

Hình 3 9: Tính toán thành phần vào 54

Hình 3 10: Chia nhỏ các vùng quyết định 55

Hình 3 11:Mạng Perceptrons (a) đơn lớp; (b) đa lớp 57

Hình 3 12: Mạng recurrent (a) Mạng Jodan; (b) mạng Elman 58

Hình 4 1: Mô hình tổng quát của bài toán 61

Hình 4 2: Mô hình huấn luyện 63

Hình 4 3: Mô hình nhận dạng 63

Hình 4 4: Hệ thống nhận dạng dùng mạng nơ-ron 64

Trang 7

Chương 1

GIỚI THIỆU CHUNG

Chương này tìm hiểu về những vấn đề có liên quan tới nhận dạng tiếng nói, xu hướng hiện nay, cũng như những kết quả đã đạt được trong lĩnh vực nhận dạng tiếng nói trên thế giới Tiếp đến là đưa ra tiêu chí cho bản luận văn dựa vào những thông tin kể trên

Không ai có thể phủ nhận ngôn ngữ là phương tiện dùng để giao tiếp của con người Chúng ta học nói một cách tự nhiên ngay từ khi được sinh ra, mà không cần đến những khái niệm như thế nào là tiếng nói? Hay thế nào là âm tiết? v.v mà đơn giản chỉ là bắt chước Quá trình học nói còn diễn ra theo thời gian trưởng thành của mỗi người, và điều đó đến rất tự nhiên trong cuộc sống, đến mức có thể ta không nhận ra được sự phức tạp của tiếng nói Khi học một ngoại ngữ hoàn toàn mới, chúng ta sẽ cảm nhận sự phức tạp của tiếng nói, tất nhiên ngoại trừ trường hợp một thiên tài có khả năng bẩm sinh về ngôn ngữ, như là có thể học một ngoại ngữ trong một tuần lễ

Bộ máy phát âm của con người là một cơ quan sinh học với những đặc điểm không cố định, sự phát âm không hoạt động như một cái máy cứng nhắc mà nó phụ thuộc rất nhiều vào từng người nói cũng như trạng thái cảm xúc của người nói Cùng với một câu một người nói nhưng ta có thể cảm nhận được nó khác nhau với những thời điểm khác nhau

Kết quả là sự phát âm sẽ liên quan tới rất nhiều yếu tố: Giọng nói địa phương, cao độ, âm lượng, tốc độ của giọng nói, v.v Trong khi truyền đạt tiếng nói từ người này sang người khác; từ nơi này sang nơi khác tiếng nói còn có thể bị méo đi bởi tiếng ồn xung quanh hay do thiết bị truyền tin (ví dụ như điện thoại hay micro v.v ) Tất cả những lý do nêu trên cho ta thấy nhận dạng tiếng nói là một vấn đề rất phức tạp đối với máy tính, thậm chí đối với con người

Tuy nhiên, nếu có thể thay thế những phương tiện nhập thông tin truyền thống như bàn phím, con chuột, v.v bằng giọng nói thì tốt biết mấy Chính vì vậy mà giao tiếp bằng giọng nói sẽ có rất nhiều ứng dụng trong tương lai, ví dụ: Dịch vụ giải đáp qua điện thoại, cơ sở dữ liệu hỏi đáp, máy viết chính tả, máy dịch ngoại ngữ tự động v.v… Những ứng dụng hấp dẫn như thế đã thúc đẩy con người nghiên cứu về nhận dạng tiếng nói từ những năm 1950 Đặc biệt những năm 1970 đã thu hút rất nhiều chuyên gia trong lĩnh vực về trí thức, thống kê, toán học, ngôn ngữ học v.v Mặc dù vậy, cho đến nay vẫn chưa xuất hiện những máy tính ngang bằng

Trang 8

với con người trong lĩnh vực nhận dạng tiếng nói, để làm được điều này có lẽ còn cần phải có thêm nhiều hiểu biết về con người trong việc nhận biết tiếng nói

Điều gì đã làm cho con người có khả năng nhận biết tiếng nói tốt đến thế? Người ta nhận thấy rằng giữa bộ não con người và máy tính có những sự khác biệt lớn trong cách thức xử lý thông tin: Máy tính thì xử dụng bộ vi xử lý có tốc độ tính toán rất nhanh, rất phức tạp, nhưng với những chương trình cụ thể và rõ ràng, với

bộ nhớ có thể đánh được địa chỉ: Ngược lại, bộ não con người lại làm việc dựa trên một tập hợp những tập hợp tính toán song song và đơn giản gọi là nơ-ron , cùng với những mối nối gọi là khớp thần kinh (synapses) có khả năng thay đổi theo kinh nghiệm nhận được theo thời gian

Chính vì lý do trên mà người ta đã nghiên cứu về mạng nơ-ron nhân tạo (Artificial Neural Networks - ANNs) Lịch sử của lĩnh vực này đã có nhiều thăng trầm, nhưng đến khoảng giữa năm 1980 nó đã trở thành hiện thực và bắt đầu được ứng dụng cho những bài toán khó như nhận dạng tiếng nói Năm 1990 có nhiều nhà nghiên cứu đã chứng thực được giá trị của ANNs đối với nhận dạng tiếng nói, như chúng có thể để nhận dạng âm tiết hay nhận dạng phát âm chữ số Tuy nhiên, để nhận dạng tiếng nói một cách đầy đủ thì vẫn là một bài toán khó

Sau đây chúng ta sẽ điểm qua về tình hình chung của nhận dạng tiếng nói trên thế giới, về tình hình nghiên cứu về mạng nơ-ron và từ đó đưa ra tiêu chí cho bản luận văn này

1.1 Điểm qua tình hình nhận dạng tiếng nói

Có nhiều hệ thống nhận dạng tiếng nói đã được xây dựng Để đánh giá một hệ nhận dạng tiếng nói là tốt hay xấu, điều đó phụ thuộc nhiều vào mục đích của hệ Dưới đây chúng ta sẽ cùng điểm qua những vấn đề liên quan tới nhận dạng tiếng nói

và một số kết quả về nhận dạng tiếng nói từ trước tới nay

¾ Số lượng từ vựng và độ phân biệt trong phát âm: Có thể thấy rằng rõ ràng là

để phân biệt một tập hợp nhỏ sẽ là đơn giản hơn nhiều khi số lượng từ tăng lên

Ví dụ như để nhận dạng các từ trong một tập hợp từ có 200 từ thì lỗi có thể là 3%, tập hợp 5000 từ thì lỗi có thể là 7% hay cao hơn nữa Tuy nhiên, kết quả nói trên chỉ đạt được trong điều kiện ghi âm tương đối lý tưởng và độ phân biệt

là rõ ràng Trong trường hợp độ phân biệt khi phát âm các từ không rõ ràng, thì thậm chí với một tập hợp từ rất nhỏ cũng cho một tỹ lệ lỗi khá cao Ví dụ như

để nhận dạng 26 từ chữ cái tiếng Anh ( coi như mỗi chữ cái là một từ) cũng là rất khó, bởi có nhiều từ khi phát âm chúng không có độ phân biệt cao (xét trên

Trang 9

cả khía cạnh thính giác, tức là sự nghe của con người lẫn khía cạnh dữ liệu tín hiệu ), chẳng hạn như cách phát âm các từ tiếng Anh sau là rất giống nhau: B,

C, D, E, G, P, T, V, Z, với những trường hợp này thì 8% lỗi đã là quá tốt

¾ Hệ thống phụ thuộc người nói và hệ thống độc lập: Hệ thống phụ thuộc người nói là hệ thống dành riêng cho một người nào đó, còn hệ thống độc lập là

hệ thống sử dụng cho mọi người Dễ thấy là với cùng một từ thì mỗi người nói khác nhau sẽ có sự khác nhau đáng kể, thậm chí là khác xa nhau Vì vậy mà thực hiện hệ thống độc lập là khó hơn nhiều so với hệ thống phụ thuộc Giữa hệ thống độc lập và phụ thuộc, còn một loại hệ thống nữa là hệ thống nhiều người

sử dụng, loại này được dùng cho một nhóm người, và tất nhiên khả năng thực hiện hệ thống này cũng nằm giữa hai loại kể trên

¾ Nhận dạng độc lập, tiếng nói liên tục: Nhận dạng từ độc lập là ta biết rằng tín hiệu cần nhận dạng chỉ là duy nhất một từ, nhiệm vụ là phải chỉ ra nó là từ nào Nhận dạng tiếng nói liên tục là nhận dạng các câu nói thực sự như trong giao tiếp của con người Nhận dạng từ độc lập có thể nhận diện được dễ dàng hơn nhiều so với nhân dạng tiếng nói liên tục, bởi nhân cách từ của chúng ta là đã rõ ràng Thông thường lỗi khi nhận dạng từ độc lập vào khoảng 3% tới 9%

¾ Ràng buộc ngôn ngữ: Một đặc điểm tốt không thể bỏ qua của tiếng nói là ngôn ngữ Mỗi ngôn ngữ có một ràng buộc nhất định, đó là về ngữ nghĩa hay cú pháp của câu Những ràng buộc này cho phép ta loại bỏ những từ hay câu mà không thể có trong thực tế

¾ Những điều kiện ngoại cảnh: Khả năng của hệ thống có thể rất tốt khi bị ảnh hưởng của ngoại cảnh Những yếu tố đó bao gồm tiếng ồn môi trường ghi âm (như tiếng động cơ xung quanh nơi ghi âm), độ méo của âm thanh ( gây ra bởi

sự vang vọng của âm thanh khi phản xạ trong phòng), chất lượng thiết bị ghi âm khác nhau (cùng một thiết bị tồi đôi khi còn tốt hơn nếu dùng những thiết bị chất lượng khác nhau cho mỗi lần ghi âm ), tốc độ phát âm (ngắn hay dài, nhanh hay chậm ) v.v…

¾ Viavoice và Dragon Naturally Speaking: Với những nỗ lực nghiên cứu trong nhiều năm, hiện nay hai sản phẩm tốt nhất trong lĩnh vực nhận dạng tiếng nói là Viavoice của IBM và Dragon Naturally Speaking của Dragon System Tỷ lệ nhận dạng của Viavoice là 88%, với vốn từ vựng vào khoảng 260.000 từ (phiên bản mới nhất Viavoice Gold), của Dragon Naturally Speaking nhỉnh hơn một chút, vào khoảng 89% Viavoice là tổng hợp những kết quả nghiên cứu của IBM từ cách đây 30 năm, còn Dragon thì mới chỉ thành lập từ năm 1982 Tuy

Trang 10

vậy, Dragon Naturally Speaking vẫn được đánh giá cao hơn, sản phẩm này đã đươc tạp chí PC World US bình chọn là sản phẩm nhận dạng tiếng nói tốt nhất năm 1999 Với tỷ lệ 88% và 89% đã là sự cố gắng của hai công ty nói trên, tuy nhiên với tỷ lệ đó thì máy tính vẫn thua xa con người về khả năng nhận dạng tiếng nói, điều đó cho ta thấy còn quá nhiều để cần nghiên cứu với nhận dạng tiếng nói trong tương lai

¾ Những vấn đề khác: Để đánh giá khả năng của các hệ thống nhận dạng, cũng như tạo điều kiện cho sự phát triển các hệ thống nhận dạng, người ta đã tạo ra những cơ sở dữ liệu tiếng nói chuẩn Cơ sở dữ liệu đó sẽ bao gồm một tập hợp lớn các từ và câu, do nhiều người phát âm Tuy nhiên, mỗi ngôn ngữ khác nhau

là cần có một cơ sở dữ liệu tiếng nói khác nhau Khi nghiên cứu về nhận dạng tiếng nói ta quan tâm tới hai vấn đề đó là ngữ âm và thời gian Vấn đề ngữ âm xét đến giọng nói địa phương, độ cao thấp, độ lớn của âm thanh v.v , còn vấn

đề thời gian lại quan tâm tới tốc độ phát âm

Trong hai vấn đề nêu trên thì vấn đề thời gian có thể giải quyết đơn giản hơn Một thuật toán nổi tiếng và đã có từ rất lâu có tên là Dynamic Time Warping có thể giải quyết vấn đề này, chúng ta sẽ tìm hiểu chi tiết trong những phần sau Thuật toán này hiện nay đã đươc sử dụng trong rất nhiều hệ thống nhận dạng tiếng nói Vấn đề về ngữ âm thì khó hơn nhiều, có nhiều quan điểm khác nhau, chính vì vậy có rất nhiều hướng khác nhau trong nghiên cứu ngữ âm khi nhận dạng tiếng nói Những hướng nghiên cứu chính có thể kể đến như sau:

• Sử dụng tập mẫu: Tiếng nói cần nhận dạng được trích lọc đặc trưng, tiếp đến

là so sánh với một tập hợp những từ mẫu đã được ghi âm để chọn ra cái gần giống nhất

• Sử dụng cơ sở trí thức: Theo hướng này người ta xây dựng trong hệ thống

những chuyên gia về trí thức trong các lĩnh vực âm thanh, từ vựng, cú pháp v.v Tuy nhiên cách này rất khó khả thi

• Sử dụng mô hình thống kê: Tiếng nói được thống kê và mẫu hóa (có thể sử

dụng giải pháp Hidden Markov Models - HMMs mà chúng ta sẽ nghiên cứu sau này) sử dụng các thủ tục học tự động Tuy nhiên giải pháp này cũng có nhiều nhược điểm như ta sẽ thấy sau này Những nhược điểm của mô hình thống kê sẽ được giải quyết bằng mạng nơ-ron nhân tạo

• Sử dụng mạng nơ-ron nhân tạo: Với sự tiến bộ trong nghiên cứu về bộ não

của con người, người ta biết nhiều điều về hoạt động của bộ não Mạng nơ-ron

Trang 11

quan trọng nhất của mạng nơ-ron là nó có khả năng học tập kinh nghiệm từ một tập hợp mẫu, hay nói cách khác là có khả năng khái quát hóa tập mẫu dữ liệu Chính vì vậy mà việc áp dụng giải pháp mạng nơ-ron vào nhận dạng tiếng nói xem ra có vẻ cũng rất tự nhiên, như quá trình học nói của con người Với giải pháp này, những tín hiệu tiếng nói mẫu được số hóa thành các con số, sau

đó chúng được đưa vào mạng nơ-ron để luyện kinh nghiệm cho mạng Sau khi

đã huấn luyện xong, tiếng nói cần nhận dạng cũng được số hóa theo cách đã làm với tập mẫu, tiếp đến chúng được đưa vào mạng, lúc này đầu ra sẽ cho biết

đó là từ nào

1.2 Điểm qua tình hình nghiên cứu mạng nơ-ron

Việc nghiên cứu mạng nơ-ron nhân tạo được khởi nguồn từ quá trình tìm hiểu nơ-ron sinh học Tuy nhiên nó đã nhanh chóng trở thành một lĩnh vực có liên quan tới nhiều ngành khoa học khác nhau như tin học, điện tử, toán học, vật lý tâm lý, ngôn ngữ v.v Người ta vẫn còn đang tiếp tục nghiên cứu về đặc điểm sinh học của bộ não người, nhưng đã có thể đưa ra một số kết luận về đặc điểm của các mạng nơ-ron như sau:

• Khả năng học: Mạng nơ-ron có khả năng tiếp thu sự huấn luyện về mối quan hệ

giữa đầu vào và đầu ra, nếu ta chỉ cho nó đầu vào X tương ứng với đầu ra Y thì

nó sẽ có khả năng nhớ lại điều đó

• Khả năng khái quát hóa: Mạng nơ-ron không chỉ có khả năng nhớ những dữ

liệu nó được huấn luyện, mà nó còn có khả năng khái quát hóa, nghĩa là nó có khả năng tạo ra hay nhận dạng được những mẫu dữ liệu mới, mà nó cho rằng gần giống với dữ liệu đã được học Sự “gần giống” ở đây là rất phù hợp cho việc nhận dạng tiếng nói, bởi vì mẫu tiếng nói không bao giờ giống hệt nhau

• Khả năng tính toán song song: Mạng nơ-ron có khả năng tính toán song song

rất cao, phù hợp với khả năng của các giải thuật cũng như máy tính song song Điều này rất có lợi cho nhận dạng tiếng nói, vì khối lượng tính toán đối với nhận dạng tiếng nói là rất lớn

Với những nhận định nêu trên, người ta đã cố gắng xây dựng những mô hình mô phỏng lại hoạt động của mạng nơ-ron Kết quả đã tạo ra hàng loạt các mạng nơ-ron nhân tạo ANNs được ứng dụng rộng rãi và có kết quả khả quan trong nhiều bài toán, đặc biệt là các bài toán nhận dạng tiếng nói, nhận dạng chữ viết v.v Có thể

kể ra một số kết quả như sau:

Trang 12

• Nettalk (1987): Mạng nơ-ron dùng cho việc học cách phát âm dòng chữ tiếng

Anh Với đầu vào là một chuỗi 7 ký tự tiếng Anh, nó sẽ phát âm được âm tiết ở giữa của chuỗi ký tự đó Mạng này được huấn luyện 1024 từ và phát âm tương ứng, phương pháp học của nó tương tự như việc học đọc của một đứa trẻ, và như vậy nó có khả năng đọc được cả những từ mà nó chưa được biết đến trước đó

• Neurogammon (1989): Mạng nơ-ron dùng cho trò chơi cá ngựa (gieo quân xúc

xắc và di chuyển ngựa trên bàn) Đầu vào là vị trí hiện tại của ngựa Giá trị trên xúc xắc gieo được và khả năng hướng đi, nó sẽ chỉ ra độ tốt xấu trên hướng đi

đó Với 3000 thế cờ có sẵn do một chuyên gia tạo ra, sau khi huấn luyện mạng nơ-ron này đã dành huy chương vàng tại Olympic máy tính tại London Anh năm

1989

• ALVINN (1993): Mạng nơ-ron dùng trong việc lái xe Đầu vào là một bức ảnh

về đường đi trước mặt, cung cấp bởi một máy camera Nó sẽ chỉ ra đâu là hướng

đi đúng ALVINN có khả năng dẫn đường đúng cho xe với tốc độ 70 dặm/giờ

trên đường dài 90 dặm với nhiều loại điểm khác nhau

• Nhận dạng chữ viết tay (1990): Mạng nơ-ron đã được sử dụng cho hệ thống

nhận dạng mã vùng trên bì thư của nước Mỹ Hệ thống nhận dạng này cho độ chính xác là 92% Tuy nhiên sau này một hệ nhận dạng khác cũng trên cơ sở đó

đã có độ chính xác lên tới 99.5%

• Với nhận dạng tiếng nói: Nhận dạng tiếng nói đã chính là một sự chứng minh

cho tác dụng to lớn của mạng nơ-ron Một số kết quả xuất sắc đã được công bố: Nhận dạng âm tiết (Waibel - 1989), Nhận dạng phát âm chữ số (Franzini - 1989) v.v Và cả sản phẩm Viavoice của IBM kể trên cũng áp dụng kết quả của mạng nơ-ron

1.3 Căn bản về nhận dạng tiếng nói

Nhận dạng tiếng nói là một mô hình nhận dạng phức tạp theo nhiều mức khác nhau Ở mức dưới, tín hiệu tiếng nói được phân tích và tách ra thành những từ, cụm

từ hay câu Tiếp theo chúng được phân tích dựa vào cú pháp của ngôn ngữ cần nhận dạng, một số yếu tố đặc trưng khác, như vậy sẽ giảm thiểu lỗi ở mức thấp hơn Một

hệ thống nhận dạng tiếng nói thường có cấu trúc như Hình 1.1

• Tiếng nói thô: Tiếng nói thường có tần số cao, ví dụ như 16Khz, đối với

Microphone, 8Khz đối với điện thoại Nó là một chuỗi những giá trị biên độ theo thời gian Đặc điểm tiếng nói theo khái niệm âm học, ngữ pháp và đặc biệt là

Trang 13

tiếng Việt sẽ được tìm hiểu kỹ trong chương 2 Trong phần này chúng ta quan tâm nhiều hơn tới khía cạnh tín hiệu của tiếng nói

• Phân tích tín hiệu: Tiếng nói thô sẽ được biến đổi và nén lại để đơn giản cho

việc xử lý tiếp theo Một số kỹ thuật phân tích hữu hiệu đã được đưa ra, chúng có khả năng trích lọc các đặc trưng hay nén dữ liệu với sự mất mát dữ liệu tối thiểu Những kỹ thuật có thể kể đến như sau:

C¬ së d÷ liÖu tiÕng nãi

TÝn hiÖu

vμo

Tõ ®ưîc nhËn d¹ng

Hình 1 1: Mô hình hệ thống nhận dạng tiếng nói

o Fourier analysis (FFT): Khi xử lý tín tiếng nói ta phải rời rạc hóa nó theo

thời gian FFT cho phép ước lượng được các thành phần tần số của tín hiệu rời rạc, tách lọc các thành phần cần thiết trước khi nhận dạng

o Linear Predictive Coding (LPC): Dùng để trích lọc các thông tin đặc trưng

của tín hiệu Những thông tin thường ta không thể thấy một cách trực quan hư các thành phần tần số ở trên

• Khung tiếng nói (Frame): Kết quả của việc phân tích tín hiệu thu được một

chuỗi các Frame tiếng nói (speech frames), các frame này có thể được gia công thêm và mục đích là để sử dụng cho việc phân tích âm học (hình 1.2)

Trang 14

Hình 1 2: Biến đổi từ tín hiệu tiếng nói sang Frame tiếng nói

• Mẫu âm thanh: Để phân tích các frame, tách ra các thành phần âm tiết của nó,

cần thiết phải có tập hợp các mẫu Có nhiều loại mẫu khác nhau, chúng khác nhau trong cách biểu diễn như theo khả năng phân bố hay theo sự phụ thuộc ngữ cảnh và một số các thuộc tính khác Có hai loại mẫu phổ biến như sau:

Hình 1 3: Mẫu cho từ “TẮT” theo hai cách khác nhau

o Mẫu đúc khuôn (Template): Đơn giản nhất là sử dụng những mẫu từ có sẵn

Mẫu chỉ đơn giản là lưu trữ một số đặc trưng của tiếng nói (đúc thành khuôn mẫu), ví dụ như tín hiệu tiếng nói của một từ sau khi ghi âm và tách lọc nhiễu Một từ cần nhận dạng sẽ được so sánh với tất cả những mẫu từ có sẵn, và chọn

ra mẫu đúng với nó nhất Tuy nhiên mô hình này có hai trở ngại lớn, đó là:

1 Không thể mô hình hóa được những âm thanh có sự biến đổi nhiều, trừ khi với mỗi từ ta đều lưu giữ một số lượng các mẫu khác nhau

2 Vì lưu trữ mẫu của cả một từ nguyên vẹn nên không thể nào nhận dạng được những đoạn ngắn hơn trong một từ, hay nói cách khác không thể tận

Phân tích tín hiệu Khung tiếng nói

100 khung/ giây Tiếng nói thô

16000 mẫu/giây

Trang 15

buộc phải có mẫu của từ đó đầu đủ Tuy nhiên trong các hệ thống nhỏ, chỉ cần nhận dạng một số từ thì mô hình này là có thể áp dụng được

o Mẫu trạng thái (Status): Mô hình này mềm dẻo hơn và được sử dụng trong hệ

thống lớn Theo cách này, mọi từ mới được mô hình hóa thành một chuỗi những trạng thái, mỗi trạng thái tương ứng với tín hiệu trong một âm tiết của

từ Như vậy có thể nhận dạng được cả những từ mà hệ thống chưa biết tới trước đó bằng cách ghép các âm tiết đã biết với nhau

• Phân tích âm thanh và định giá của Frame (frame scores): Phân tích âm

thanh được hiện cách so sánh từng frame mẫu với từng frame của từ cần nhận dạng, tạo ra một ma trận giá frame Giá được tính toán tùy theo loại mẫu được sử dụng Đối với loại mẫu Template thì giá là sự sai khác giữa frame của mẫu với một frame của một từ cần nhận dạng Đối với loại mẫu State thì giá là khả năng xảy ra của trạng thái ứng với frame cần nhận dạng

• Liên kết thời gian (Time Aligment): Giá của frame được chuyển đổi thành

chuỗi từ bằng cách đồng nhất với một chuỗi âm thanh mẫu biểu diễn chuỗi từ tương ứng, sao cho nó có một tổng giá trị tốt nhất theo một đường liên kết chuẩn nào đó trong ma trận giá Như mô tả ở hình 1.4 quá trình tìm kiếm đường liên kết chuẩn tốt nhất được gọi là Time Alignment

Một đường liên kết chuẩn phải tuân theo một chuỗi ràng buộc, các ràng buộc đó phải phản ánh được cả những quan hệ trong một từ cũng như giữa các từ trong một câu Đối với một từ thì chuỗi ràng buộc là chuỗi frame (đối với mẫu Template), là chuỗi trạng thái (đối với mẫu State) Giữa các từ trong câu thì các ràng buộc có thể hiểu như ngữ pháp của câu

Liên kết thời gian có thể thực hiện bằng dynamic programming, trong đó phổ biến là thuật toán Dynamic Time Warping mà chúng ta nghiên cứu trong phần dưới đây

1.4 Dynamic Time Warping

DTW là thuật toán rất quan trọng trong xử lý tiếng nói

Cách đơn giản nhất để nhận dạng từ độc lập là so sánh nó với tất cả những mẫu

âm thanh và chọn ra cái gần đúng nhất Tuy nhiên việc này gặp phải một số khó khăn như sau:

• Những mẫu khác nhau của cùng một từ có thể có độ dài về thời gian khác nhau, vấn đề này có thể giải quyết bằng cách chuẩn hóa mẫu cũng như âm thanh cần nhận dạng sao cho chúng có cùng độ dài thời gian

Trang 16

• Tốc độ âm thanh mẫu cũng như âm thanh cần nhận dạng không phải là một hằng

số, nó phụ thuộc vào người nói, thời điểm nói Vậy một vấn đề lớn là làm sao để hạn chế tối đa sai lệch này, và DTW chính là một giải pháp

DTW là một thuật toán trong lớp những bài toán gọi là Dynamic Programming

Độ phức tạp tính toán của DTW là tuyến tính theo độ lớn thời gian của mẫu cũng như khối lượng mẫu Thuật toán tạo ra một đường liên kết dựa theo ma trận frame Score (Hình 1.4)

Hình 1 4: Dynamic Time Warping

Giả sử D(x,y) là khoảng cách giữa frame x của mẫu và frame y của âm thanh cần nhận dạng, C(x,y) là tổng lũy dọc theo đường đi từ x tới y Ta có:

C(x,y) = Min (C (x-1,y), C (x-1,y-1)) + D (x,y) (1) Kết quả ta thu được đường liên kết chuẩn bắt đầu từ (0,0) đến (x,y) Trong quá trình tính toán có thể lưu giữ lại các con trỏ để có thể khôi phục lại đường liên kết chuẩn từ (x,y) Đường liên kết chuẩn sẽ được tính cho tất cả các mẫu đã có và đường tối ưu sẽ là đường có giá trị nhỏ nhất (sai khác ít nhất)

1.5 Tiêu chí và nội dung của bản luận văn

Với những nhận định và thông tin nêu trên, mục tiêu nghiên cứu của bản luận

Trang 17

nói - “Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron ” Áp dụng để xây dựng ứng dụng nhận dạng một số từ trong tiếng Việt Với tiêu chí nêu trên thì nội dung chính của bản luận văn này bao gồm:

Chương 1: Giới thiệu chung: Như chúng ta đã biết, chương này tìm hiểu về những vấn đề liên quan tới nhận dạng tiếng nói, xu hướng hiện nay, cũng như những kết quả dã đạt được trong lĩnh vực nhận dạng tiếng nói trên thế giới Trong chương này chúng ta cũng tìm hiểu căn bản về nhận dạng tiếng nói, tuy nhiên tiếng nói ở đây chủ yếu được quan sát dưới khía cạnh là những tín hiệu vật lý, về mặt âm học ta sẽ tìm hiểu trong chương 2 Cuối cùng là đưa ra tiêu chí cho bản luận văn

Chương 2: Đặc điểm âm học của tiếng nói và Tiếng Việt: Nếu như trong chương trước, chúng ta mới chủ yếu quan tâm tới tiếng nói dưới khía cạnh tín hiệu vật lý và cũng xử lý chúng như những tín hiệu vật lý, thì trong chương này chúng ta quan tâm tới khía cạnh âm học, ngôn ngữ của tiếng nói nói chung và tiếng Việt nói riêng Ta sẽ tìm hiểu về tiếng nói một cách “con người” hơn, nghĩa là chủ yếu dựa vào những gì chúng ta cảm giác thấy, nghe thấy một cách trực quan và được giải thích bằng những hiểu biết về bộ máy phát âm của con người Những kiến thức này

sẽ giúp ta định ra được những chiến lược cho việc nhận dạng tiếng nói dưới khía cạnh tín hiệu vật lý

Chương 3: Mô hình nhận dạng tiếng nói: Chương này nghiên cứu lý thuyết về

mô hình Markov ẩn và mạng nơ-ron , bao gồm khái niệm, một số giải thuật là cơ sở cho việc nhận dạng tiếng nói

Chương 4: Thiết kế ứng dụng nhận dạng tiếng nói: Chương này mô tả thiết

kế ứng dụng áp dụng mạng nơ-ron trong nhận dạng Tiếng Việt Kết quả là phần mềm nhận dạng phát âm một số từ Tiếng Việt

Trang 18

Chương 2

ĐẶC ĐIỂM ÂM HỌC CỦA TIẾNG NÓI VÀ TIẾNG VIỆT

Nếu như trong chương trước, chúng ta mới chủ yếu quan tâm tới tiếng nói dưới khía cạnh tín hiệu vật lý và cũng xử lý chúng như những tín hiệu vật lý thì trong chương này chúng ta quan tới khía cạnh âm học và ngôn ngữ của tiếng nói nói chung và tiếng Việt nói riêng Ta sẽ tìm hiểu về tiếng nói một cách “ con người “ hơn, nghĩa là chủ yếu dựa vào những gì chúng ta cảm giác thấy, nghe thấy một cách trực quan và được giải thích bằng những hiểu biết về bộ máy phát âm của con người Những kiến thức này sẽ giúp chúng ta định ra được những chiến lược cho việc nhận dạng tiếng nói dưới khía cạnh tín hiệu vật lý

2.1 Âm thanh của lời nói- Bản chất và cấu tạo

Trong giao tiếp mỗi thành viên của một cộng đồng phát ra những chuỗi âm thanh khác nhau nhằm truyền đạt những thông tin cụ thể Đó là lời nói Cùng một lời nói ở mỗi cá nhân đều có sự khác nhau về mặt âm thanh, tuy nhiên điều gì đã khiến cho các cá nhân đó vẫn hiểu được nhau? Để tìm hiểu điều đó chúng ta sẽ tìm hiểu về những yếu tố của âm thanh và nguồn gốc phát sinh ra chúng

2.1.1 Khía cạnh âm học của âm thanh

Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh ta,

về bản chất, đều là những sóng âm được truyền trong một môi trường nhất định, và thường là không khí Khi chúng ta nói thì dây thanh trong hầu chấn động, tạo nên những sóng âm Chúng được truyền trong không khí đến tai người nghe và đập vào màng nhĩ Âm thanh có những đặc trưng để phân biệt như nhau là:

1- Cao độ

Do tần số dao động của vật thể quyết định Dây thanh chấn động nhanh cho ta những âm cao, chấn động chậm cho những âm thanh thấp Đơn vị để đo cao độ là Hertz (viết tắt Hz) Tần số là số chu kỳ được thực hiện trong một dây Tần số càng lớn thì cao độ cũng càng lớn

Trang 19

2- Cường độ

Cường độ của âm do biên độ của dao động của âm quyết định Biên độ dao động của âm càng lớn thì âm phát ra càng mạnh Trong tiếng nói nguyên âm phát ra thường mạnh hơn phụ âm

3- Độ dài

Độ dài hay trường độ của âm phụ thuộc vào sự chấn động lâu hay chóng của các phần tử không khí Cùng một âm nhưng trong các từ khác nhau thì độ dài khác nhau

4- Âm sắc

Âm sắc là bản sắc, sắc thái riêng của một âm, cùng một nội dung, cùng một độ cao nhưng khi nói mỗi người đều có âm sắc khác nhau

5- Âm hữu thanh và vô thanh

Khi các phần tử không khí khi chấn động tạo nên các chuyển động nhịp nhàng, điều hoà và có chu kỳ cơ bản thì ta có âm hữu thanh Thông thường trong tiếng nói các nguyên âm là hữu thanh, còn các phụ âm có thể là vô thanh hoặc hữu thanh

2.1.2 Khía cạnh sinh học của âm thanh

Ta hãy xét đến cấu tạo của bộ máy phát âm cũng như các kiểu tạo âm

2.1.2.1 Bộ máy phát âm

a- Dây thanh

Dây thanh là hai cơ mỏng nằm sóng nhau theo chiều dọc trong một hộp bằng sụn, gọi là thanh hầu, nằm ở phía trên của khí quản Thanh hầu được tạo bởi một sụn hình giáp, vốn nhô ra trước cổ, nhất là ở người gầy, mà người phương Tây quen gọi là quả táo của Adam và ta gọi là “hầu “.Sụn này chỉ che được phía trước còn phía sau hở Để bù lại, phía dưới nó có một sụn hình nhẫn mà mà mặt nhẫn quay về phía sau vừa đủ để che kín, làm thành một cái hộp Trong hộp này có hai sụn hình chóp điều khiển sự hoạt động của dây thanh

Do dây thần kinh chỉ huy, hai mép của hai dây thần thanh khép lại làm cho áp suất của không khí trong khí quản ở phía dưới tăng lên Sau một thời gian ngắn, thanh môn mở ra cho phép một luồng không khí từ khí quả đi lên và thoát ra ngoài Thanh môn tiếp tục đóng lại, rồi lại mở ra Nó làm cho luồng không khí từ phổi ra ngoài thành từng đợt cách nhau đều đặn, tạo nên sóng âm

Trang 20

Những âm thanh được tạo ra như thế được gọi là thanh, trái với những âm được tạo ra không phải do sự hoạt động của dây thanh mà do sự cọ sát không khí và thành bộ máy phát âm khi thoát ra ngoài, hoặc do không khí phá vỡ sự cản trở nên lối thoát ra ngoài, tạo thành tiếng nổ, được gọi là tiếng động

b- Các hộp cộng hưởng phía trên thanh hầu

Miệng và mũi được ngăn ra bởi

vòm miệng mà phía trước gọi là

ngạc, phía sau là mạc hay khẩu

mạc Trong miệng, lưỡi khi nâng

lên lại tạo ra hai khoang: Khoang

Miệng ở phía trước, khoang Yết

hầu ở phía sau Yết hầu có một lỗ

thông nhỏ lên mũi và được đóng

lại khi cần thiết bởi lưỡi con Đó là

ngã tư, chỗ giao nhau giữa đường

của thức ăn từ miệng vào thực

quản và đường của không khí từ

phổi lên mũi

Hình 2 1: Hệ thống phát âm ở người

Mỗi khi ăn uống, đường vào phổi được đóng lại bởi nắp, Yết hầu, miệng và mũi

là ba khoang trống đóng vai trò của những hộp cộng hưởngRiêng yết hầu và miệng

do hoạt động của lưỡi và môi mà có thể thay đổi thể tích, hình dáng và lối thoát của không khí bất cứ lúc nào và vì thế hai khoang này có vai trò hết sức quan trọng trong công việc thay đổi âm sắc của âm thanh vốn được tạo ra do sự chấn động của dây thanh đi lên

Mỗi lần dây thanh chấn động với tần số khác nhau, tạo nên âm cơ bản khác nhau cho ta những thanh điệu khác nhau Trái lại, dây thanh chấn động trong mọi trường hợp như nhau thì ta chỉ có một thanh điệu duy nhất Nhưng khi đi qua yết hầu, miệng, mũi thì các họa âm chịu ảnh hưởng của sự cộng hưởng, đã bị thay đổi

đi, trong mối tương quan với âm cơ bản và cho các nguyên âm khác nhau Mỗi lần môi, lưỡi, hàm ở một vị trí khác nhau là một lần hợp cộng hưởng miệng và yết hầu thay đổi thể tích, hình dáng, lối thoát của không khí, tức những nhân tố quyết định khả năng cộng hưởng của mình và làm biến đổi âm sắc của âm thanh đi qua chúng một cách khác nhau Chính vì thế hai khoang miệng và yết hầu là hai hộp cộng

Trang 21

hưởng quan trọng nhất chúng tạo lên hai phooc măng (formant) chính, đặc chưng của mỗi nguyên âm

Hộp cộng hưởng mũi tạo nên một ấm sắc riêng Bình thường, khi phát âm lưỡi con giương lên đậy kín lối thông lên mũi Nếu nó hạ xuống thì âm thanh sẽ qua mũi, chịu sự cộng hưởng của khoang mũi và âm có một mầu sắc riêng, được gọi là tính chất mũi

Formant là dải tần số được tăng cường do hiện tượng cộng hưởng, đặc trưng cho âm sắc của mỗi nguyên âm

Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả được gọi là đỉnh formant Một nguyên âm do một người phát ra có nhiều formant, trong số đó

có hai formant: F2 ứng với hộp cộng hưởng miệng, F1 ứng với hộp cộng hưởng yết hầu, các formant khác nhau đặc trưng cho giọng nói riêng của mỗi cá nhân Ở các nguyên âm mũi còn có một formant đặc trưng thứ 3 Khi miêu tả nguyên âm học làm căn cứ chủ yếu, người ta chú ý đến tương quan giữa F2 và F1 Nếu chúng gần nhau, tức là trên đồ thị chúng tụ vào giữa thì nguyên âm đó được gọi là đặc, ngược lại, nếu chúng xa nhau thì được gọi là loãng Nếu chúng xuất hiện ở vùng tần số thấp thì được gọi là trầm, ngược lại thì được gọi là bổng Ví dụ: Nguyên âm [a] có đặc trưng là đặc, không bổng, không trầm; [u,i] là loãng, trong đó [u] là trầm [i] là bổng

Trên đây là cách cấu tạo của các âm được gọi là nguyên âm Ngoài ra là cách cấu tạo âm thanh theo kiểu khác Đó là sự thu hẹp lối thoát của không khí trên đường từ phổi ra ngoài Khi hai môi hoặc môi với răng cũng như khi các bộ phận khác nhau của lưỡi (đầu lưỡi, mặt lưỡi, gốc lưỡi) tiến tới răng, lợi, ngạc, mạc hoặc lưỡi con, tạo thành một khe hở (khe hở có thể tròn hoặc dẹt) hoặc thanh môn thu hẹp lại làm cho không khí đi qua khó khăn, tạo nên những tiếng động của sự cọ sát, thì ta có một loạt âm thanh khác, được gọi là phụ âm và phương thức sát, ví dụ cách cấu tạo các âm [f,s,z]

Nếu sự thu hẹp lối thoát của không khí đến mức cao nhất là ngăn chặn hoàn toàn, không khí không ra được, áp suất tăng lên và muốn thoát ra phải phá vỡ sự cản trở ấy, tạo nên một tiếng nổ, thì ta cũng có các âm được gọi là phụ âm và phương thức cấu tạo chúng là phương thức tắc, chẳng hạn khi phát các âm [p, b, t]

2.1.2.2 Các kiểu tạo âm

Trên đây ta đã nói đến một trong những kiểu cấu tạo âm thanh phổ biến trong nhiều ngôn ngữ, trong đó có tiếng Việt, đó là kiểu cấu tạo do luồng hơi đi ra từ

Trang 22

phổi Trong một số ngôn ngữ có những kiểu cấu tạo đặc biệt, tạo nên những đối lập cần cho sự diễn đạt của ngôn ngữ, hoặc do luồng hơi xuất phát, hoặc do dạng của thanh môn

a Luồng hơi

• Cách phát âm phổ biến nhất là bằng hơi ở phổi Những phụ âm tắc thông

thường ta vẫn gặp, theo cách phát âm này gọi là âm nổ để phân biệt với

những âm tắc trong các kiểu tạo âm khác

• Kiểu tạo âm thứ hai ít phổ biến hơn, chỉ gặp ở một số ngôn ngữ và ở một số

phụ âm đó là cách phát âm do hơi ở họng, gồm các loại như sau:

1 Khe thanh hay thanh môn đóng lại, khối không khí ở phía trên được đẩy ra

ngoài do thanh hầu nhích lên cao hơn vị trí bình thường giống như pít tông trong một chiếc bơm Không khí được dồn lên yết hầu nhưng bị chặn lại ở một vị trí nào đó, chẳng hạn ở mạc, áp suất sẽ tăng lên và không khí phải phá vỡ sự cản trở ấy Kết quả là âm được gọi là âm bật (ejective) Âm bật

do được cấu tạo như vậy nên luồng không khí đi ra yếu và bao giờ cũng là

âm vô thanh, tức chỉ là tiếng động vì ở đây dây thanh không làm việc

2 Trái ngược với việc nâng cao thanh hầu là hạ thấp thanh hầu Không khí ở

họng không đi ra mà đi vào Luồng hơi từ phổi đang đi ra,có phần nào tràn qua khe thanh và duy trì sự trấn động của dây thanh Cách phát âm này tạo nên những âm gọi là âm đóng (implosive) Khi phát âm một âm tắc thông thường hay âm nổ thì áp suất của không khí trong khoang miệng tăng lên còn ở đây thực ra áp suất không tăng giảm gì cả, do đó các khí quản phát

âm sau khi chặn không khí buông rất nhẹ Các âm trong tiếng Việt được ghi bằng chữ “b”, chữ “d” ở tuyệt đại đa số trường hợp được phát âm như vậy Âm đóng bao giờ cũng là âm hữu thanh, tức là khi phát âm dây thanh chấn động

• Kiểu tạo âm thứ ba cũng ít phổ biến, có thể thấy trong một số ngôn ngữ ở

Châu Phi như là tiếng Zulu Đó là cách phát âm bằng hơi ở mạc Người Việt khi chặc lưỡi, biểu thị thái độ miễn cưỡng hay một tìmh thái nào đó, đã thực

sự phát ra một âm mặt lưỡi theo cách này

b Dạng của thanh môn

Nói về dạng thanh môn tức là nói về sự khép mở của dây thanh dưới sự điều

Trang 23

mở ra liên tục, tức chấn động, tạo nên thanh Các phụ âm có thanh gọi là hữu thanh Trái lại nếu thanh môn mở rộng, hai dây thanh không hoạt động để không khí ra tự do, sẽ không có chút âm thanh nào, phụ âm chỉ được tạo thành bởi tiếng động và được gọi là vô thanh Khi thanh môn không mở rộng lắm, hai dây thanh vẫn xa nhau nhưng một luồng hơi qua khá mạnh làm cho dây thanh rung đôi chút giống như cách phát âm [h], ta sẽ được cái gọi là giọng thở (breathy voice) hay tiếng thì thào

Trong trường hợp hai sụn hình chóp giáp lại nên dây thanh chỉ còn chấn động được ở phía kia Âm được cấu tạo có cao độ rất thấp như khi ta hạ giọng ở cuối câu Kết quả của hiện tượng này gọi là giọng kẹt (creaky voice) hay còn gọi là thanh hầu hoá (laryngealization)

2.2 Nguyên âm

2.2.1 Âm tố

Một khúc đoạn của lời nói được chia thành những đơn vị nhỏ hơn Đơn vị cấu

âm nhỏ nhất là âm tiết, ví dụ hai âm tiết “xà” “phòng” Tuy nhiên khi nghe cũng

như khi phát âm mỗi âm tiết người ta vẫn thấy mỗi đơn vị ấy bao gồm những đơn vị nhỏ hơn nữa

Về mặt thính giác, rõ ràng là “xà”được tạo nên bởi những thành tố đồng chất

Về mặt cấu âm, để tạo âm tiết này hoạt động của khí quản phát âm đã trải qua hai quá trình khác nhau: Phần đầu và phần sau khác nhau về vị trí của lưỡi, về sự tham gia của dây thanh

Đương nhiên còn có lý do ngôn ngữ học khác mà ta xét đến sau này, nhưng ở đây ta cũng có thể thừa nhận một phần nào cơ sở của việc phân chia âm thanh của lời nói ra thành những đơn vị cấu âm – thính giác nhỏ nhất, được gọi là âm tố

Số lượng âm tố là vô hạn, tuy nhiên giữa chúng có một đặc trưng âm học, cũng như cấu âm chung nào đó, cho phép phân loại chúng thành những tập hợp lớn đầu tiên là nguyên âm và phụ âm

2.2.2 Đặc trưng chung của nguyên âm

Để thấy rõ những đặc điểm của nguyên âm ta sẽ đối chiếu nó với phụ âm Về mặt bản chất âm học, nguyên âm chỉ do thanh cấu tạo nên, nó có đường cong biểu hiện không tuần hoàn Nhiều phụ âm có thanh xen lẫn và chiếm tỷ trọng cao, tuy nhiên vẫn là phụ âm chính vì sự có mặt của tiếng động Đương nhiên cần loại trừ một số trường hợp đặc biệt, chúng sẽ được xét riêng

Trang 24

Về mặt cấu âm phụ âm được tạo nên do sự cản trở không khí vốn cần thiết để gây nên tiếng động, trong khi để cấu tạo nguyên âm thì luồng hơi ra tự do Một hệ quả của sự khác biệt trên là luồng hơi cần cho sự phát âm các phụ âm bao giờ cũng mạnh (dù chỉ là tương đối) còn luồng hơi ở các nguyên âm thì yếu

Một hệ quả khác là khi cấu âm các phụ âm, bộ máy phát âm chỉ căng thẳng cục

bộ, tức chỉ gây nên sự trở ngại cho luồng không khí đi ra hoặc đi vào trái với nguyên âm với sự căng thẳng của toàn thể khí quản phát âm, vốn cần thiết để tạo nên một âm sắc nhất định

2.2.3 Xác định các nguyên âm

Sự phân biệt phẩm chất các nguyên âm là căn cứ vào các âm sắc của chúng mà

âm sắc lại phụ thuộc vào khả năng cộng hưởng của các khoang quan trọng như miệng và yết hầu Xác định các nguyên âm, tức xác định âm sắc, quy cho cùng là miêu tả các khoang nối trên 3 tiêu chuẩn:

ƒ Lưỡi cao hay thấp hoặc miệng mở hay khép

ƒ Lưỡi trước hay sau

ƒ Môi tròn hay dẹt

Theo tiêu chuẩn thứ nhất: cao – thấp hay mở – khép có thể có 4 mức và phân

các nguyên âm ra 4 nhóm:

ƒ Nguyên âm thấp, còn gọi là nguyên âm mở như “a” trong tiếng Việt

ƒ Nguyên âm thấp vừa còn gọi là nguyên âm mở vừa “e” “o”(Việt)

ƒ Nguyên âm cao vừa còn gọi là khép vừa như “ê” “ô” (Việt)

ƒ Nguyên âm cao còn gọi là nguyên âm khép như “i” “u” “ư”(Việt)

Theo tiêu chuẩn thứ hai: Trước – sau có thể có ba nhóm:

ƒ Nguyên âm trước như “i” “ê” “e” (Việt)

ƒ Nguyên âm giữa như “i” trong từ “bird” của tiếng Anh

ƒ Nguyên âm sau như “u” “ư” “ơ” “o” (Việt)

Trang 25

¾ Phương thức cấu âm

¾ Vị trí cấu âm

2.3.1 Về phương thức cấu âm

Có thể nói đến ba phương thức chính: Tắc, xát, rung Thuộc phương thức tắc có

thể có những cách cấu âm đặc biệt, chẳng hạn ở những âm (m, n) không khí bị cản trở hoàn toàn ở đằng miệng nhưng lại ra tự do ở đằng mũi

Khi xác định một phụ âm phát âm nào đó theo tiêu chuẩn phương thức cấu âm

và định rõ phụ âm đó thuộc nhóm nào Ví dụ: (b, p) chẳng hạn là thuộc nhóm tắc trong khi (m, n) không phải như thế

2.3.1.1 Âm tắc

Là nhóm phụ âm kiểu (b p), khi phát âm một âm tắc thì lưỡi con nâng lên bịt kín lối thông lên mũi và không khí bị cản trở hoàn toàn, do những bộ phận khác nhau ở miệng, muốn thoát ra phải phá vỡ sự cản trở hoàn toàn, do những bộ phận khác nhau ở miệng, muốn thoát ra phải phá vỡ sự cản trở ấy, tạo nên một tiếng nổ Những âm (d, t, g, k) cũng là âm tắc

Sự hoạt động của dây thanh, sự tham gia của yết hầu Thanh hầu cũng được kể

trong phạm vị phương thức cấu âm để tạo nên những âm vô thanh, hữu thanh, bật

hơi, âm thở, âm đóng, âm thanh hầu hoả, âm bật

Mỗi kiểu âm này làm thành một kiểu nhóm của âm tắc Có một kiểu âm đặc biệt, chẳng hạn âm đầu của từ “child”trong tiếng Anh được gọi là âm tắc xát (affricate) Nó bắt đầu bằng một yếu tố tắc và tiếp theo là yếu tố xát hay đúng hơn

đó là một âm xát với sự bắt đầu tắc vì hai yếu tố này liền như là một ở cùng một vị

trí Kiểu âm này nằm ở biên giới của sự phân loại giữa hai phương thức tắc và xát

Tuy nhiên, người ta vẫn coi là một nhóm thuộc phương thức tắc thậm chí là một tiểu nhóm của nhóm phụ âm tắc

2.3.1.2 Âm mũi

Như trên đã nói, cùng một phương thức tắc nhưng được xếp thành nhóm riêng Khi phát âm lưỡi con hạ xuống Không khí không qua miệng được, trở ra bằng đường mũi Vì dây thanh chấn động mà không khí ra tự do nên tỷ lệ thanh so với tiếng động rất lớn những âm thanh này được gọi là âm vang, đối lập với âm thanh

có tỷ lệ tiếng động lớn hơn, được gọi là âm ồn Trong đa số ngôn ngữ những âm

mũi đều là âm vang Các âm [m, n] trong tiếng Việt, tiếng Anh đều là âm vang Tuy nhiên cũng có âm mũi vô thanh

Trang 26

2.3.1.3 Âm xát

Là nhóm phụ âm điển hình của phương thức xát, các từ Việt như “phải”, “về”,

“xui”, “giục”, “gồ ghề” đều bắt đầu bằng những âm xát [f, v, z], các từ Anh “this”,

“thing” cũng bắt đầu bằng những âm xát Thuộc phương thức này có cả những âm

[l], [j], được gọi là âm nửa xát (approximant), trong đó có nửa xát bên ví dụ trong từ Việt “làm lụng”, và nửa xát giữa ví dụ trong từ Anh “yes” Có hai cách sản sinh ra

âm xát, có thể không khí đi qua một khe hẹp mà thành như cách cấu tạo âm [f] Có thể luồng hơi, trước hết là ra nhanh do bị tống mạnh ra qua một khe hẹp, và thứ hai

là phải vượt qua một bờ sắc như răng chẳng hạn, khi sản sinh ra âm [s] Vì vậy, căn

cứ thuần tuý trên thính giác có thể chia ra hai loại âm xát: Một loại như [s, z] được

gọi là âm rít (sibilant), một loại như [f, v] là âm không rít (non-sibilant) Âm rít có

năng lượng âm học lớn hơn, tức là tiếng to hơn, cao độ cao hơn các âm xát bình thường khác

2.3.1.4 Âm bên

Là thuộc loại âm nửa xát, phương thức nửa xát được đặc trưng bởi luồng không khí đi ra qua một lối thoát lớn, do đó tiếng cọ xát vào thành của bộ máy phát âm dường như không đáng kể Khi ta phát âm từ “oan” trong tiếng Việt, hay từ “vàng” theo cách của người miền Nam [jang] hoặc từ “red” của tiếng Anh, thì môi, mặt lưỡi hoặc đầu lưỡi có tạo ra sự cản trở không khí nhưng chưa đủ hẹp để tạo ra một

âm xát Âm đầu của từ “red” được phát âm với sự va chạm nhẹ đầu lưỡi và lợi của hàm răng trên một lần mà thôi Âm này được gọi là âm vỗ (flap, tap), chứ không phải là âm rung như một số người vẫn quen phát âm Các âm vừa kể trên là những

ví dụ để minh hoạ cho cách phát âm nửa xát

Khi phát âm [I] của tiếng Việt chẳng hạn, đầu lưỡi tiếp xúc với răng, lợi hoặc lợi-ngạc chặn lối ra của không khí Luồng hơi từ phổi lên thoát ra ngoài ở một trong

số hai bên cạnh lưỡi, từ đó có tên gọi là âm bên

Xếp âm bên vào nhóm ngang hàng với âm tắc, âm xát là để đơn giản hoá vấn

đề Bên cạnh âm bên nửa xát còn có âm bên xát

Trang 27

2.3.1.5 Âm giữa

Hay còn gọi là âm giữa nửa xát Sự phân

biệt cấu âm bên và cấu âm giữa thực ra có thể

áp dụng cho nhiều phương thức cấu âm, ví dụ

trong phương thức rung thì âm rung luôn là âm

giữa, âm vỗ có thể hoặc bên hoặc giữa, nhưng

khi nói âm bên, âm giữa ở đây chỉ nói đến âm

xát và nửa xát mà thôi

Ngoài ra có một âm gần giống nguyên âm

“ư” của tiếng Việt được phát ra rất khép nhưng

chưa đến mức trở thành âm xát, đó cũng là âm

giữa

Hình 2 2: Cơ cấu phát âm

2.3.1.6 Âm rung

Thuộc phương thức rung có nhóm âm rung (trill) nhóm âm vỗ (flap) Không khí

từ phổi đi ra bị chặn lại ở một vị trí nào đó, như đầu lưỡi chẳng hạn, nó vượt qua chướng ngại, rồi lại bị chặn, cứ như thế diễn ra liên tiếp, người ta bảo đầu lưỡi rung

Âm rung dù ngắn đến đâu cũng được phân biệt với âm vỗ ở chỗ âm vỗ được tạo nên bởi một động tác co cơ độc nhất sao cho một bộ phận cấu âm này tiếp giáp với

bộ phận kia và chỉ một lần Thường âm vỗ là một dạng cấu âm thanh của một âm tắc thông thường nào đó như [t, d, n], chẳng hạn cách phát âm của người Mỹ đối với những từ “latter”, “ladder”, “tenner”

2.3.2 Về vị trí cấu âm

Về vị trí cấu âm từ ngoài vào trong có nhiều vị trí, ở đó các âm tố được cấu tạo

do sự nhích lại gần nhau của các bộ phận cấu âm Một bộ phận tĩnh như răng, lợi, ngạc, mạc, một bộ phận động như môi, lưỡi con, lưỡi với sự phân chia khu vực kèm theo các tên gọi khác nhau: Đầu lưỡi, mỏm lưỡi, mặt lưỡi trước, mặt lưỡi giữa, mặt lưỡi sau, gốc lưỡi Để tạo nên một chướng ngại vật cần phải có hai bộ phận, nhưng

để cho tiện người ta thường chỉ ra một bộ phận (trong số các bộ phận, hoặc tĩnh, hoặc động) Để cấu tạo [t] hoặc [d] cần có đầu lưỡi tiếp xúc với răng, nhưng để gọi tên hai âm đang xét, người ta chỉ nói đó là âm răng (cũng có tác giả gọi chúng là những âm đầu lưỡi)

Ở cùng một vị trí, với những phương thức cấu âm khác nhau người ta có những

âm khác nhau, chẳng hạn được gọi là âm răng ta có biết bao nhiêu âm khác nhau

Trang 28

như [t, d, s, z, r, l] Ngược lại, cùng một phương thức cấu âm nhưng ở những vị trí khác ta có những âm khác nhau, chẳng hạn về âm xát thì có hàng loạt âm xát khác nhau [f, v, s, z]

• Âm môi: [p, b, m, f, v] là những âm phổ biến, âm này được phát âm giống như

ta thổi tắt ngọn nến, chỉ có điều không chúm môi

• Âm răng, âm lợi, âm sau lợi: Ví dụ [t, d] trong tiếng Anh cả hai đều là âm lợi,

còn trong tiếng Việt âm [t] là âm răng, [d] ví dụ trong từ “đá” lại là âm lợi Khi

phát âm những âm này đầu lưỡi đặt vào chân răng hoặc lợi của hàm trên

• Âm quặt lưỡi (retroflex): Theo cách phát âm địa phương miền Trung và Miền

Nam của tiếng Việt thì âm đầu của các từ “tre”, “sông”, “rộng” là những âm quặt lưỡi Các âm này phát âm với đầu lưỡi nâng cao và quặt về phía sau để mặt

dưới của đầu lưỡi tiếp cận với phần sau lợi tức, tức giữa lợi và ngạc

• Âm ngạc: Từ “cha” trong tiếng Việt có âm đầu là “c” được phát âm với mặt

lưỡi trước tiếp xúc với ngạc cứng Đó là một âm tắc vô thanh Người ta gọi đó

là âm ngạc Âm đầu của từ “nhà” trong tiếng Việt là một âm mũi, ngạc Tiếng

Việt ở miền Nam có [j] như trong từ “vàng” hay từ “dạ” đó là âm ngạc nửa xát

• Âm mạc: Khá phổ biến trong nhiều ngôn ngữ là [k, g] Khi phát âm mặt lưỡi

sau tiếp xúc với ngạc tạo nên một chướng ngại Hai âm đầu là âm tắc, sau là âm

mũi

• Âm lưỡi con: Nâng cao mặt lưỡi về phía lưỡi con để cản trở không khí, tạo nên hoặc một âm xát hoặc những âm tắc, hoặc một âm mũi

• Âm yết hầu: Được cấu tạo bằng cách lui lắp họng về phía sau, tới vách sau của

yết hầu Do cách phát âm này mà không thể có âm mũi yết hầu được vì không

khí không thể lên mũi được, mà chỉ có thể có âm xát mà thôi

• Âm thanh hầu: Được cấu tạo do sự đóng hoặc thu hẹp dây thanh Khi khe

thanh hẹp, không khí qua được và trong chừng mực nào đó dây thanh có chấn động, ta có âm hữu thanh, còn khi dây thanh chỉ nhích lại gần nhau đơn thuần ta

có âm vô thanh Khi khe thanh đóng chặt chặn không khí từ phổi lên làm cho áp suất của nó tăng lên, và sau đó khe thanh mở đột ngột ta sẽ có một âm tắc chân

chính khá mạnh và vô thanh

Trang 29

2.3.3 Cấu âm bổ sung

Ở một số người Việt, và hay gặp hơn là ở trẻ em có hiện tượng phát âm các từ như “mẹ, bé” không bình thường mà thêm vào giữa dường như một âm [j] nhỏ, người ta gọi là hiện tượng ngạc hoá Hiện tượng này cũng như một hiện tượng khác, chủ yếu thay đổi hộp cộng hưởng miệng đôi chút so với thường lệ, do đó về bản chất cấu âm là cũng gần gũi với cấu âm nguyên âm

• Ngạc hoá: là cấu âm bổ sung vào cách phát âm bình thường: Vị trí lưỡi hơi cao

và hơi trước một chút như tư thế phát âm một âm [i] Trong tiếng Việt cách phát

âm ngạc hoá chỉ tạo nên những biến thể tự do, mang tính chất cá nhân

• Mạc hoá: Là cấu âm bổ sung vào cách phát âm bình thường:Vị trí sau lưỡi

được nâng cao như tư thế phát âm [u] nhưng thường không tròn môi Đó là xu

hướng nhích phần sau lưỡi hơn thường lệ về phía mạc khi phát âm

• Yêu cầu hoá: Là hiện tượng thêm vào cách phát âm thông thường sự thu hẹp khoảng yết hầu, dường như thêm vào màu sắc của một âm [a]

• Môi hoá: Là thêm vào hiện tượng tròn môi Nó khác với các kiểu cấu âm phụ

khác ở chỗ nó có thể kết hợp với bất cứ một kiểu nào trong số đó Rõ ràng là ngạc hoá, mạc hoá, yết hầu hoá đều dùng đến hình dáng lưỡi mà như vậy thì

chúng không thể xảy ra đồng thời được Còn môi hoá thì có thể đi cùng với hầu

hết các loại phụ âm

• Phụ âm hai tiêu điểm: Có một số phụ âm được cấu tạo phức tạp, không chỉ có

một vị trí cấu âm mà hai, như âm cuối của các từ Việt “học”, “xong”, một vị trí cấu âm mạc và một vị trí cấu âm khác ở môi Cả hai cấu âm diễn ra đồng thời Người ta gọi đó là phụ âm môi – mạc

2.4 Các hiện tượng ngôn điệu

Ngoài những âm tố như nguyên âm, phụ âm đã xét đến ở trên có những sự kiện

ngữ âm học khác nhau thanh điệu, trọng âm, ngữ điệu, và chúng thường xảy ra hoặc

đồng thời với các âm tố, hoặc trên một đơn vị lớn hơn âm tố Có người gọi đó là những sự kiện siêu đoạn tính (suprasegmental) còn theo cách gọi truyền thống thì

đó là sự kiện ngôn điệu (faits prosodiques) Ta sẽ tìm hiểu bản chất ngữ âm học của chúng

Trang 30

2.4.1 Âm tiết

2.4.1.1 Định nghĩa âm tiết

Một từ Việt như “lủng củng” gồm hai âm tiết Đó là những đơn vị phát âm nhỏ nhất Âm tiết là đơn vị mang những sự kiện ngôn điệu như thanh điệu trọng âm và

do đó có người đã gọi nó là điệu vị Định nghĩa âm tiết là một vấn đề không đơn giản Từ trước tới nay có nhiều học thuyết khác nhau, tuỳ theo quan điểm khác nhau Theo truyền thống, ta có một định nghĩa chức năng như sau:

Âm tiết là một đoạn âm thanh được cấu tạo bởi một hạt nhân, đó là nguyên âm cùng với những âm khác bao quanh đó là phụ âm Tên gọi “nguyên âm” ngụ ý chỉ một âm tự nó có thể làm thành âm tiết được, trong khi “phụ âm” dùng để chỉ những

âm phải đi cùng với âm khác, chứ không tồn tại độc lập được Cách gọi tên các âm như vậy cũng như quan niệm về âm tiết như thế là quan niệm chức năng Đối với tiếng Việt và nhiều ngôn ngữ, cách định nghĩa này là phù hợp Nhưng trong một số ngôn ngữ tình hình không phải thế Với quan niệm này “nguyên âm” và “phụ âm”

sẽ được hiểu khác nhau trong từng ngôn ngữ và “âm tiết” cũng thế vì mỗi ngôn ngữ

có quy tắc tập hợp âm khác nhau tạo thành âm tiết Từ đó vẫn cần tìm xem về mặt

âm học hay cấu âm xem cái gì là đặc trưng cho đơn vị ấy, tức cho âm tiết, cái gì tạo nên ranh giới của âm tiết

Học thuyết về độ vang: Otto Jespersen nhận thấy các âm có xu hướng tập hợp

lại thành âm tiết theo độ vang của chúng Âm tiết gồm những âm tập hợp xung quanh một âm có độ vang lớn nhất, (thường là nguyên âm) Theo ông, các âm được xếp theo tám độ vang từ thấp đến cao, thấp nhất là các phụ âm vô thanh, rồi đến tắc hữu thanh, âm xát, âm mũi và âm bên rung.Trong các nguyên âm thì từ khép đến khép vừa và cuối cùng là nguyên âm mở Tuy nhiên học thuyết này không chính xác đối với một số trường hợp, chẳng hạn từ “spa”, từ này thông thường ai cũng biết là đơn âm tiết, nhưng lại có hai đỉnh về độ vang

Hình 2 3: Cấu âm tăng dần ở đầu âm tiết và giảm dần ở cuối âm tiết

Trang 31

Học thuyết về độ căng cơ: Một số nhà ngữ âm học đã định nghĩa âm tiết theo

quan điểm sinh lý học Âm tiết tương ứng với sự luân phiên căng lên rồi trùng xuống của cơ thịt của bộ máy phát âm Học thuyết này đã được M.Grammont chủ trương và được xác minh bằng những sự kiện ngôn ngữ học cũng như sinh lý học Theo học thuyết này cấu âm căng dần ở đầu âm tiết và giảm dần từ giữa âm tiết, tức đỉnh của nó Quả thật trong lời nói những phụ âm cuối thường bị nhược hoá thậm chí biến mất dễ dàng hơn các phụ âm đầu Học thuyết này gần đây còn được xác nhận bởi những thành tựu trong lĩnh vực âm học Đường cong biểu diễn sự biến thiên cơ bắp hoàn toàn trùng hợp với đường cong biểu diễn cường độ âm thanh Công trình của nhà ngữ âm học Mỹ Stetson và của nhà ngữ âm học Đức Zwirner đều cho thấy như vậy Có thể minh hoạ vấn đề bằng hai âm tiết tiếng Việt “đại học” như hình vẽ

Đỉnh âm tiết là điểm mà độ căng đạt tới mức cao nhất để bắt đầu giảm dần

Trên đường cong biểu diễn hình sin thì A và B là hai đỉnh

Ranh giới của âm tiết là điểm mà độ căng đạt tới mức thấp nhất và sau đó bắt

đầu tăng lên để cấu tạo âm tiết tiếp theo Âm tố nằm ở đỉnh bao giờ cũng được nghe

thấy trội hơn các âm tố khác Nó được gọi là tạo đỉnh hay âm tiết tính (syllabic) Những âm tố ở trước hay sau đỉnh được gọi là phi âm tiết tính (syllabic) Trong

những từ Việt như “cái”, “nào” các bán nguyên âm ở cuối là phi âm tiết tính

Đỉnh âm tiết mang phần lớn những nét đặc trưng của thanh điệu, của trọng âm,

ngữ điệu nên nó được coi là điệu vị Âm tiết chưa hẳn là điệu vị mà, chính xác hơn,

đỉnh âm tiết mới là điệu vị Âm tố tạo đỉnh thường là nguyên tâm trong một số ngôn ngữ nó vẫn có thể là phụ âm

Các phụ âm ở trước đỉnh được gọi là khởi âm hay phụ âm tăng (ascendante), ví

dụ “coco” (quả dừa) của tiếng Pháp, “mẹ” của tiếng Việt Đó là những phụ âm nổ

Các phụ âm ở sau đỉnh, được gọi là kết âm hay phụ âm giảm (descendante), ví dụ

“act” của tiếng Anh, “em” của tiếng Việt Các phụ âm cuối không có giai đoạn mở

ra được gọi là phụ âm thắt (unexploded)

2.4.1.2 Phân loại âm tiết

Phân loại âm tiết thường căn cứ vào cách kết thúc âm tiết Âm tiết mở khi tận cùng bằng nguyên âm, ví dụ “ma” của tiếng Việt Âm tiết khép khi tận cùng bằng các phụ âm Nếu đó là phụ âm tắc vô thanh, ví dụ “học tập” trong tiếng Việt thì ở đây ta có loại âm tiết khép điển hình Giữa hai loại này, tuỳ theo từng ngôn ngữ mà

có thể chia ra những loại trung gian như nửa mở, nửa khép

Trang 32

2.4.1.3 Cách cắt âm tiết

Trên đây mới chỉ sơ bộ xác định thế nào là một âm tiết Khi gặp một từ cụ thể, việc phân ranh giới âm tiết không dễ dàng Vấn đề định ranh giới cũng như cách cắt

âm tiết nói chung là tuỳ thuộc vào từng ngôn ngữ

Mỗi ngôn ngữ có một tập quán riêng Từ “cyclo” (xe xích lô) của tiếng Pháp khi vào tiếng Việt vẫn còn là hai âm tiết, nhưng việc cắt các âm tiết trong mỗi ngôn ngữ lại khác nhau Người Pháp nói [si klo] Đó mới chỉ là một nội dung của cách cắt âm tiết Một mội dung khác nữa là sự phân bố năng lượng phát âm trong âm tiết cho các thành phần cấu tạo âm tiết Hai tình hình đó có thể diễn ra

• Một là khi phát âm nguyên âm đầy đủ rồi tức là đường cong biểu diễn đã lên đến đỉnh điểm của nó và đi xuống một chút rồi mới chuyển sang âm cuối

• Hai là khi nguyên âm chưa được phát âm đầy đủ như trên thì âm cuối đã bắt đầu, tức là năng lượng được phân bố cho âm cuối lớn hơn thường lệ, nói khác

đi cách cắt âm tiết trong trường hợp này diễn ra hơi sớm, kết quả là làm cho nguyên âm ngắn đi so với bình thường Có thể so sánh cách phát âm của hai từ tiếng Việt như “khác” và “khách”, “bán” và “bắn” để hình dung vấn đề Người

ta cũng gọi đây là cách cắt âm tiết

2.4.2 Thanh điệu

Đó là sự thay đổi cao độ của giọng nói, tức tần số âm cơ bản trong một âm tiết

có tác dụng phân biệt các từ có nghĩa khác nhau.Ví dụ trong tiếng Việt hai từ “ba”,

“bà” có nghĩa khác nhau, phân biệt nhau do chỗ được phát âm với cao độ khác nhau Khi viết người dùng những dấu riêng để ghi được gọi là dấu giọng, như

`(huyền), ? (hỏi), ~ (ngã) Trong nhiều ngôn ngữ ở phương Đông như tiếng Hán, tiếng Việt, Thái Lan và cả một vài ngôn ngữ ở Châu Âu cũng có thanh điệu

Có hai loại hình thanh điệu:

• Loại đơn giản là loại trong đó các thanh chỉ phân biệt nhau về các mức trên thang bậc cao độ, có thể được miêu tả đơn giản như những điểm Loại này được gọi là thanh điệu âm vực (register tone) Đương nhiên cao độ được thể hiện suốt trong thời gian phát âm vì vậy không thể là một điểm được Đó chỉ là một cách nói để diễn đạt rằng thanh ở đây không có sự biến đổi cao độ từ đầu đến cuối

quá trình phát âm, sự phân biệt giữ chúng chỉ đơn thuần là mức cao thấp khác

nhau mà thôi, chính vì vậy mới gọi là loại thanh điệu này là loại giản đơn

Trang 33

• Loại hình thanh điệu thứ hai là loại trong đó các thanh phân biệt nhau bằng sự

di chuyển cao độ từ thấp lên cao hoặc từ cao xuống thấp Chúng không được miêu tả đơn giản như những điểm mà như những đường con lên xuống Loại này được gọi là thanh điệu hình tuyến (contour tone) Thanh điệu của tiếng Hán, tiếng Việt, tiếng Thái là thuộc loại này Để miêu tả chúng người ta chia thang cao độ của giọng nói bình thường ra năm mức hay bậc khác nhau, chẳng hạn, trên một đường kẻ dọc thẳng đứng Sự biến thiên của cao độ theo thời gian được miêu tả bằng một đường cong biểu diễn (đường này có thể được cách điệu hoá hoặc tượng trưng bằng những đường thẳng hình học) đi từ mức này đến mức khác

Mỗi ngôn ngữ có một hệ thống thanh điệu riêng với số lượng khác nhau và xếp theo một trật tự riêng, ví dụ tiếng Việt có 6 thanh điệu, tiếng Thái Lan có 5 thanh điệu

Biến thanh: Khi các thanh điệu cao thấp khác nhau đi liền nhau thường có ảnh

hưởng lẫn nhau Thanh cao đi trước, thanh thấp đi sau thì thanh thấp sẽ bắt đầu hơi cao hơn thường lệ Ngược lại thanh cao đi sau thanh thấp thì sẽ bắt đầu thấp hơn thường lệ Những nghiên cứu thực nghiệm (bằng máy móc) về các thanh điệu nối tiếp nhau trong chuỗi lời nói cũng đã thấy một tình hình tương tự

Một ngôn ngữ có thanh điệu thường có ngữ điệu, (tức sự thay đổi cao độ trong câu) rất hạn chế Tuy nhiên trong một số ngôn ngữ vẫn sử dụng sự thay đổi cao độ

để phân định các phát ngôn thành những đơn vị cú phát, đó là sự hạ giọng Cả thanh cao lẫn thanh thấp ở đầu câu đều cao hơn so với cuối câu Một thanh cao ở cuối câu

có thể có cao độ tuyết đối ngang với một thanh thấp ở đầu của cùng một câu

2.4.3 Trọng âm

Là một biện pháp âm thanh làm nổi bật một đơn vị ngôn ngữ học lớn hơn âm tố (như âm tiết, từ, ngữ đoạn hoặc câu) để phân biệt với những đơn vị ngôn ngữ học khác ở cùng cấp độ

Trọng âm có thể được thể hiện bằng sức mạnh của luồng hơi thở Âm tiết có trọng âm được phát ra mạnh hơn các âm tiết khác Người ta gọi là trọng âm lực (hay trọng âm cường độ)

Trọng âm cũng có thể được thực hiện bằng cao độ, tức là tăng cường hoặc thoái giảm tần số dao động của dây thanh Âm tiết có trọng âm được phát ra cao hơn hoặc thấp hơn các âm tiết phi trọng âm khác Người ta gọi đó là trọng âm nhạc tính

Trang 34

Trọng âm cũng có thể được thực hiện bằng trường độ Âm tiết có trọng âm được phát ra dài hơn các âm tiết phi trọng âm khác Người ta gọi đó là trọng âm lượng

Ba nhân tố tạo nên trọng âm vừa nêu có thể đồng thời phối hợp cùng nhau, điều

đó có nghĩa là âm tiết mang trọng âm có thể và được phát âm dài hơn, mạnh hơn và cao hơn các âm tiết phi trọng âm khác Tuỳ theo từng ngôn ngữ mà một trong những nhân tố nói trên được ưu tiên sử dụng

Trọng âm có chức năng phân biệt trong một số ngôn ngữ, hoặc chức năng phân giới, hoặc chức năng tạo đỉnh trong những ngôn ngữ khác

Trọng âm có chức năng phân biệt thường là trọng âm lực và các trọng âm tự do hay di động như trong tiếng Anh Trong tiếng Anh chẳng hạn, có hai từ viết như nhau “Import”, từ thứ nhất với trọng âm rơi vào tiết đầu, có nghĩa là “sự nhập cảng – danh từ”, từ thứ hai được phát âm với trọng âm ở tiết thứ hai có nghĩa là “nhập cảng - động từ”

Trọng âm có chức năng phân giới trong những ngôn ngữ mà vị trí của trọng âm

cố định.Trong một số ngôn ngữ trọng âm luôn luôn ở âm tiết cuối từ Có những ngôn trọng âm bao giờ cũng rơi vào âm tiết đầu.Trong chuỗi lời nói, căn cứ vào trọng âm ta có thể biết được đến đâu là một từ đã kết thúc, hoặc một từ đang bắt đầu

và từ đó suy ra ranh giới của đơn vị lớn hơn từ

Trọng âm còn có chức năng tạo đỉnh Nó chỉ ra đỉnh của một đơn vị ngữ âm, đó

có thể là một từ hay một nhóm từ

Trên đây đã nói đến trọng âm tự do và nó có chức năng phân biệt, mà trước hết

là phân biệt từ Người ta gọi đó là trọng âm từ Mỗi từ thường có một trọng âm Đôi khi một từ có hai trọng âm, một là trọng âm chính và một là trọng âm phụ hay thứ yếu

Ngoài trọng âm từ, có trọng âm cú đoạn Một phát ngôn có thể chia thành từng

nhóm từ gọi là cú đoạn (syntagme), vốn là đơn vị hoàn chỉnh về ngữ nghĩa trong một văn cảnh nhất định Ngoài những tiêu chí ngữ nghĩa học ra nhóm từ còn có tính chất của một thể thống nhất do những tiêu chí ngữ âm học nhất định

• Do sự tăng cường trọng âm ở từ nào đó, thường ở cuối cú đoạn

• Không thể dừng ở giữa cú đoạn mà không làm sai nghĩa đi

• Chỗ đứng ở sau cú đoạn (tuy không phải là bắt buộc)

• Có một âm điệu nhất định

Trang 35

Một người nói: “Tối qua tôi đi xem hát”, ở đây có hai cú đoạn Mỗi cú đoạn gồm những đơn vị ngữ nghĩa nhỏ hơn, tức là những từ Nếu câu này bằng tiếng Anh thì mỗi từ vốn là trọng âm riêng.Trọng âm cú đoạn là trọng âm từ được tăng cường lên, đó là trọng âm của từ quan trọng nhất trong nhóm, xét về mặt ngữ nghĩa Trong khi nói chuyện nhanh, chỗ ngừng (pause) sau cú đoạn có thể mất đi những trọng âm

cú đoạn và âm điệu thì vẫn còn Một nhà ngữ âm gọi là nhóm hơi thở Thuật ngữ này tuy không sai, nhưng cũng đã làm mờ mất mặt ngữ nghĩa của khái niệm

2.4.4 Ngữ điệu

Ngữ điệu là sự biến đổi cao độ của giọng nói diễn ra trong một chuỗi âm thanh lớn hơn âm tiết hay một từ Cũng như thanh điệu, cao độ này do tần số dao động của dây thanh, nhưng khác nhau ở chỗ nó xuất hiện trên một ngữ đoạn hay cả một câu và khác nhau về chức năng

Ngữ điệu có thể hoàn thành những chức năng khác nhau trong ngôn ngữ

• Chức năng cú pháp, nhờ nó mà phân biệt được câu trần thuật, nghi vấn hay câu cảm thán

• Phân biệt câu có cùng một kết cấu cú pháp có thể có ý nghĩa khác nhau tuỳ theo nét âm điệu của nó

• Chức năng biểu cảm

2.5 Sự biến đổi của ngữ âm trong lời nói

Trên đây, trước khi ta nói đến trọng âm, ngữ điệu… ta đã nói đến các nguyên

âm, phụ âm và miêu tả chúng trong trạng thái biệt lập Sự tách biệt phần nào có tính chất giả tạo ấy là cần thiết để tìm hiểu những đặc điểm cơ bản của chúng, bản chất của chúng.Còn thực tế thì các âm tố của lời nói ở trong một câu liên tục, do đó mỗi

âm tố mất tính chất tách bạch, thường mất một số đặc điểm nào đó nhưng mặt khác lại có thêm những đặc điểm khác do ảnh hưởng lẫn nhau và mối quan hệ với các nhân tố khác như trọng âm, vai trò khác nhau của các âm tố đối với ý nghĩa của từ Đương nhiên tìm hiểu thấu đáo mọi biến đổi ngữ âm còn phải liên hệ chúng với các mặt khác của ngôn ngữ như ngữ nghĩa, ngữ pháp… ở đây chỉ trình bày một số hiện tượng ngữ âm học cơ bản

Mỗi âm tố dù là nguyên âm hay phụ âm khi phát ra đều trải qua ba giai đoạn:

1 Các cơ quan phát âm chuyển từ vị trí cũ tới vị trí cần thiết cho việc phát ra

âm tố đó Giai đoạn này được gọi là khởi lập Đối với các âm tắc nó được gọi

là giai đoạn khép lại

Trang 36

2 Các cơ quan giữ nguyên vị trí đã tiến tới, không thay đổi Giai đoạn đó được gọi là thủ vị, ở những âm tắc nó được gọi là giai đoạn tắc

3 Các cơ quan rời khỏi vị trí trên, đó là giai đoạn thoát hồi Đối với các âm tắc giai đoạn này được gọi là nổ ra

Trong chuỗi lời nói sự biến đổi của các âm tố thường xảy ra do chỗ giai đoạn hoái hổi của âm tố trước còn chưa kết thúc mà giai đoạn khởi lập của âm tố sau đã bắt đầu và hai giai đoạn đó dường như chồng lên nhau

Một từ như “con” có phụ âm đầu [k] hơi đặc biệt, do chỗ khi phụ âm tắc này chưa kết thúc, tức giai đoạn nổ ra chưa bắt đầu thì các cơ quan tham gia vào việc phát âm âm tố sau đã bắt đầu có tư thế cần thiết cho việc phát âm đó, cụ thể là hai môi hơi đưa ra phía trước để phát âm [o] và làm cho phụ âm [k] có tính chất môi,

tức môi hoá Tiếp đó, khi [o] chưa được phát âm xong thì việc chuẩn bị phát âm [n]

tức là khẩu mạc đã bắt đầu hạ xuống do đẩy nguyên âm [o] về cuối có sắc thái mũi Những sự biến đổi này chúng ta thường không nghe rõ vì chúng không đụng lên toàn bộ âm tố, nhưng trong lịch sử của một số ngôn ngữ chúng ta đã từng tạo nên một đơn vị mới

Tất cả những biến đổi như trên vốn là kết quả của sự tác động lẫn nhau giữa các

âm tố trong ngữ lưu thường được gọi là biến đổi kết hợp.Thuộc loại này có các hiện tượng như đồng hoá, dị hoá, đảo âm, rụng âm, chêm âm, v.v… Những biến đổi kết

hợp thường đối lập với những hiện tượng biến âm tự phát, diễn ra không do nguyên nhân gì rõ rệt cả, đúng ra là có nguyên nhân nhưng ta chưa biết rõ

Tuy nhiên, ngay việc tìm hiểu kỹ tất cả các hiện tượng biến đổi kết hợp cũng không phải là đơn giản Có lẽ chỉ có thể xét đến mấy loại hiện tượng cơ bản được

gọi là thích nghi, đồng hoá, dị hoá

2.5.1 Thích nghi

Những hiện tượng vừa trình bầy ở trên với ví dụ trong tiếng Việt như từ “con” được gọi là “thích nghi” Khi sự biến đổi xảy ra ở âm tố đi trước để cho phù hợp với cách phát âm của âm tố đi sau thì đó là thích nghi ngược, [k] trong “con” bị môi hoá

do ảnh hưởng của nguyên âm đi sau, hoặc [o] trong “con” bị mũi hoá đôi chút do ảnh hưởng của phụ âm cuối [n] đều là những hiện tượng thích nghi ngược

Khi sự biến đổi xảy ra ở âm tố đi sau để cho phù hợp với cách phát âm của âm

tố đi trước khi đó là thích nghi xuôi Trong từ “tinh nghịch” các phụ âm cuối [n,k]

do chịu ảnh hưởng của nguyên âm [i] đi trước, bị ngạc hoá, được phát âm thành

Trang 37

Khi nói đến những nét tương đồng thì mức độ có thể khác nhau Những âm tố bên cạnh có thể thành ra hoàn toàn như nhau hoặc chỉ trở nên giống nhau về một mặt nào đó Do đấy, người ta phân biệt hai loại:Đồng hoá toàn bộ và đồng hoá bộ phận

Tuỳ ở chỗ âm tố nào trong hai âm cạnh nhau chịu sự biến đổi mà người ta chia

ra đồng hoá ngược và đồng hoá xuôi: Nếu âm tố đứng trước biến đổi thì gọi là đồng hoá ngược Kiểu này phổ biến hơn trong các ngôn ngữ Đồng hoá xuôi trong các ngôn ngữ tương đối ít hơn

2.5.3 Dị hóa

Cũng như đồng hoá, chỉ xuất hiện giữa những âm cùng loại, nhưng căn cứ trên khuynh hướng đối lập với đồng hoá Giữa hai âm tố giống nhau (toàn bộ hay bộ phận) đứng cạnh tranh, một biến đổi đi để trở thành khác nhau nhiều hơn

Về nguyên nhân của hiện tượng này có những ý kiến khác nhau Grammont đưa

ra lý thuyết về “luật ưu thế” giải thích rằng giữa hai âm có một âm được người nói chú ý hơn về mặt nào đó, do vậy âm tố “yếu thế hơn” bị biến đổi đi, thậm chí có thể mất hoàn toàn Ngoài ý kiến này còn có một vài cách giải thích khác nữa, nhưng nói chung vấn đề chưa được giải quyết rõ ràng, triệt để

Những trường hợp dị hoá thì ngôn ngữ nào cũng có, nhưng hay gặp hơn là trong khẩu ngữ, trong các dạng thức phi chuẩn, tuy nhiên cũng có nhiều trường hợp được hợp pháp hoá

2.6 Sự phân biệt trong mặt biểu đạt của ngôn ngữ

2.6.1 Âm vị, âm tố và các biến thể của âm vị

Mặt biểu đạt của ngôn ngữ không phải là âm thanh đơn thuần mà là âm thanh

đã được tổ chức và dùng để biểu đạt Thực vậy, âm thanh của con người phát ra thì

vô hạn, nhưng quy lại chỉ có mấy chục đơn vị trong một ngôn ngữ như

Ngày đăng: 19/07/2017, 22:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Nguyễn Thiện Giáp, Đàn Thiện Thuật, Nguyễn Minh Thuyết, “Dẫn Luận Ngôn Ngữ Học”, Nhà xuất bản Giáo dục, 1999 Sách, tạp chí
Tiêu đề: Dẫn Luận Ngôn Ngữ Học”
Nhà XB: Nhà xuất bản Giáo dục
[2]. Viện Ngôn Ngữ Học, “Từ Tiếng Việt”, Nhà xuất bản Khoa học Xã hội, 1998 [3]. Nguyễn Tài Cẩn, “Lịch Sử Ngữ Âm Tiếng Việt”, Nhà xuất bản Giáo dục, 1997 [4]. Quách Tuấn Ngọc, “Xử Lý Tín Hiệu số”, Nhà xuất bản Giáo dục, 1997 Sách, tạp chí
Tiêu đề: Từ Tiếng Việt”", Nhà xuất bản Khoa học Xã hội, 1998 [3]. Nguyễn Tài Cẩn, “"Lịch Sử Ngữ Âm Tiếng Việt”", Nhà xuất bản Giáo dục, 1997 [4]. Quách Tuấn Ngọc, “"Xử Lý Tín Hiệu số”
Nhà XB: Nhà xuất bản Khoa học Xã hội
[7]. Nguyễn Phú Bình, “Nhận dạng tiếng nói rời rạc bằng mô hình Markov ẩn”, Đồ án tốt nghiệp khoa công nghệ thông tin, trường Đại Học Bách Khoa Hà Nội Sách, tạp chí
Tiêu đề: Nhận dạng tiếng nói rời rạc bằng mô hình Markov ẩn”
[8]. Nguyễn Thành Phúc, "Một phương pháp nhận dạng lời Việt : Áp dụng phương pháp kết hợp mạng nơ-ron với mô hình Markov ẩn cho các hệ thống nhận dạng lời Việt", Luận án Tiến sĩ Kỹ thuật, Thư viện trường ĐHBK Hà Nội, 2000 Sách, tạp chí
Tiêu đề: Một phương pháp nhận dạng lời Việt : Áp dụng phương pháp kết hợp mạng nơ-ron với mô hình Markov ẩn cho các hệ thống nhận dạng lời Việt
[9]. Jure Zupan, Johann Gasteiger, “nơ-ron networks for Chemists “ Sách, tạp chí
Tiêu đề: nơ-ron networks for Chemists
[10]. Robert J. Schalkoff, “Artificial nơ-ron Networks”, McGRAW-Hill Company, 1997 Sách, tạp chí
Tiêu đề: Artificial nơ-ron Networks”
[11]. Yoshua Bengio, “nơ-ron networks for Speed and Sequence Recognition”, International Thomson Publishing Company, 1996 Sách, tạp chí
Tiêu đề: nơ-ron networks for Speed and Sequence Recognition
[12]. Claudio Becchetti, Lucio Prina Ricotti, “Speech Recognition Theory and C++ Implementation”, JOHN WILEY & SONS, LTD, 2000 Sách, tạp chí
Tiêu đề: “Speech Recognition Theory and C++ "Implementation”
[13]. Lawrence Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, 1993 Sách, tạp chí
Tiêu đề: Fundamentals of Speech Recognition
[14]. Minh N. Do, "An Automatic Speaker Recognition System", Swiss Federal Institute of Technology, Lausanne, Switzerland Sách, tạp chí
Tiêu đề: An Automatic Speaker Recognition System
[16]. Steve Young et al, "The HTK Book (for HTK version 3.0)", Microsoft Corporation, 2000 Sách, tạp chí
Tiêu đề: The HTK Book (for HTK version 3.0)
[15]. MSDN Library Visual Studio 6.0, Microsoft Corporation, 2001 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1. 3: Mẫu cho từ “TẮT” theo hai cách khác nhau - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 1. 3: Mẫu cho từ “TẮT” theo hai cách khác nhau (Trang 14)
Hình 1. 4: Dynamic Time Warping - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 1. 4: Dynamic Time Warping (Trang 16)
Hình 2. 1: Hệ thống phát âm ở người - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 2. 1: Hệ thống phát âm ở người (Trang 20)
Hình 2. 3: Cấu âm tăng dần ở đầu âm tiết và giảm dần ở cuối âm tiết - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 2. 3: Cấu âm tăng dần ở đầu âm tiết và giảm dần ở cuối âm tiết (Trang 30)
Hình 2. 5: Âm đầu - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 2. 5: Âm đầu (Trang 41)
Hình 2. 6: Âm chính - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 2. 6: Âm chính (Trang 42)
Hình 3. 2: Phân cấp cấu trúc HMMs - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 3. 2: Phân cấp cấu trúc HMMs (Trang 44)
Hình 3. 7: (a) nơ-ron  thường, (b) nơ-ron  sigma-pi - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 3. 7: (a) nơ-ron thường, (b) nơ-ron sigma-pi (Trang 52)
Hình 3. 8: (a) đường thẳng, (b) ngưỡng, (c) Sigmoidal - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 3. 8: (a) đường thẳng, (b) ngưỡng, (c) Sigmoidal (Trang 53)
Sự khác nhau của chúng được thể hiện như hình vẽ 3.9. Hình 3.9 mô tả mạng  nơ-ron  với hai lớp, lớp thứ nhất có 2 nơ-ron  với thành phần ra là y 1  và y 2 - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
kh ác nhau của chúng được thể hiện như hình vẽ 3.9. Hình 3.9 mô tả mạng nơ-ron với hai lớp, lớp thứ nhất có 2 nơ-ron với thành phần ra là y 1 và y 2 (Trang 54)
Hình 3. 10: Chia nhỏ các vùng quyết định - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 3. 10: Chia nhỏ các vùng quyết định (Trang 55)
Hình 3. 11:Mạng Perceptrons. (a) đơn lớp; (b) đa lớp - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 3. 11:Mạng Perceptrons. (a) đơn lớp; (b) đa lớp (Trang 57)
Hình 3. 12: Mạng recurrent. (a) Mạng Jodan; (b) mạng Elman - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 3. 12: Mạng recurrent. (a) Mạng Jodan; (b) mạng Elman (Trang 58)
Hình 4. 2: Mô hình huấn luyện - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 4. 2: Mô hình huấn luyện (Trang 63)
Hình 4. 3: Mô hình nhận dạng - Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron
Hình 4. 3: Mô hình nhận dạng (Trang 63)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm