1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

113 1K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 113
Dung lượng 0,98 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: - Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn short-term amplitude

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP

Trang 2

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

1.1 GIỚI THIỆU

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ

Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Một nhiệm vụ khó khăn đó là xác định những thông tin biến thiên nào của tiếng nói là quan trọng đối với nhận dạng tiếng nói

và những thông tin nào là không quan trọng đối với công việc nhận dạng tiếng nói Đây

là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hóa từ các mẫu tiếng nói, những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:

- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói

- Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm, phát âm thành dãy các ký hiệu ngữ âm

Trang 3

- Nhận dạng tiếng nói là một quá trình nhận thức Ngôn ngữ nói là có ý nghĩa,

do đó thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng

Lĩnh vực nghiên cứu của nhận dạng tiếng nói là rất rộng, liên quan đến nhiều ngành khác nhau Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói:

- Xử lý tín hiệu số (digital signal processing): Các kỹ thuật xử lý tín hiệu số dùng để phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan trọng từ tiếng nói

- Vật lý hay âm học (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế hoạt động của tai người

- Nhận dạng mẫu: Các thuật toán dùng để phân loại dữ liệu thành tập các mẫu

và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu

- Lý thuyết thông tin và khoa học máy tính (information and computer science theory): Các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật toán giải mã và mã hóa (lập trình động, các thuật toán dùng stack, giải mã Viterbi) để tìm một đường đi tốt nhất dãy các từ được nhận dạng

- Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói

- Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người

- Tâm lý học ứng dụng (applied psychology): Những kiến thức về quá trình sinh

ra tiếng nói cũng như quá trình nhận thức tiếng nói của loài người

Trang 4

1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình hoặc lớn [Rabiner 1993] Hình 1.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau

Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết

là chỉ bao gồm một từ hoặc một nhóm từ độc lập Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong các chương trình dạng câu lệnh - điều khiển (command-control), chẳng hạn như ứng dụng quay số bằng giọng nói trong điện thoại di động Bài toán nhận dạng tiếng nói các từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục vì ranh giới trái và phải của các từ được coi mặc nhiên là đã được xác định Tuy nhiên trong thực tế việc tìm ranh giới các từ trong một phát âm liên tục không phải lúc nào cũng là dễ dàng [Dong 2001] Ngoài ra xây dựng cơ sở dữ liệu các từ đơn lẻ cũng đơn giản và các phát âm các từ đơn lẻ cũng rõ ràng hơn so với các từ đứng liền nhau [Young 1996]

Ví dụ về các hệ thống nhận dạng liên tục với từ điển kích thước nhỏ là hệ thống nhận dạng các chữ số từ 0 đến 9, hệ thống nhận dạng các chữ cái, hoặc một số các từ hữu hạn nào đó Các hệ thống này có tính chất là đơn vị nhận dạng của chúng có thể là các từ giống như hệ thống nhận dạng từ rời rạc Với hệ thống nhận dạng liên tục có kích thước bộ từ điển lớn thì đơn vị nhận dạng cơ bản không thể là các từ mà là các âm

vị hoặc bán âm tiết

Trang 5

một phát âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y1, y2…, yT

Phát âm là một dãy các từ W = w1, w2, …, wn, và nhiệm vụ của hệ thống nhận

dạng là tìm ra được dãy có từ Ŵ có xác suất cao nhất với dãy các vector đặc tính phổ Y

cho trước

Theo luật xác suất Bayes ta có:

Ŵ  arg maxP(W Y)

) (

) ( ) ( max arg

Y P

W Y P W P

Do xác suất P(Y) là độc lập với W, do đó ta thấy để tìm được dãy từ có xác suất cao nhất Ŵ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y|W) cao nhất Xác suất P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language model) Xác suất P(Y|W) được xác định bởi mô hình âm học (acoustic model) Hình 1.2 cho thấy mối quan hệ giữa các xác suất này Trong đó với một phát

Hệ thống với kích thước bộ từ điển trung bình và lớn

Trang 6

âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W) Bằng từ điển phiên âm ta biến đổi chúng thành dãy các âm vị tương ứng Dãy các âm vị này cho ta xây dựng một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của các âm vị tương ứng Phát âm được trích trọn các đặc điểm đưa vào mô hình Markov

ẩn lớn này sẽ cho ta xác suất P(Y|W) Về mặt nguyên tắc, quá trình này có thể lặp đi lặp lại với tất cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất

Hình 1.2: Khái quát về hệ thống nhận dạng

Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng Một quá trình xem xét tất cả các dãy từ có thể song song với nhau được áp dụng và một quá trình chọn lọc xóa đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding)

Trang 7

Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng

nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ

Dãy các đặc tính phổ

Dãy các từ Hoặc âm vị Tín hiệu

tiếng nói

Từ, câu được nhận dạng

Mô hình âm học (acoustic model)

Mô hình ngôn ngữ (language model)

Hình 1.3: Các quá trình nhận dạng

1.2.1 Phân tích các đặc tính tiếng nói

Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng

tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan trọng

Chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm

riêng biệt của từng người nói… Tiếng nói được phân tích theo từng khung thời gian

(frame) với độ dài dao động từ 8ms tới 25ms [Joseph 1993] Kết quả ra của giai đoạn

này là các vector đặc tính của mỗi khung tín hiệu tiếng nói

Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín

hiệu tiếng nói đó là phương pháp dựa vào mô hình hóa bộ đường phát âm (vocal tract)

và phương pháp dựa vào mô hình hóa cảm nhận âm thanh của con người (human

auditory system) Cả hai cách này đều đang được áp dụng thành công trong các hệ

thống nhận dạng Tuy nhiên các phương pháp phân tích tiếng nói hiện nay mới chỉ thực

hiện được công việc nhỏ so với hệ thống phát âm và nhận thức âm thanh của con

Phân tích đặc tính (feature analysis)

Phân lớp mẫu (pattem classification)

Xử lý ngôn ngữ (language processing)

Các từ, âm vị Các từ, câu

Trang 8

người Sự cải tiến của các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của các hệ thống nhận dạng tiếng nói Hai phương pháp trích trọn tiếng nói đang được

sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: Phương pháp MFCC (Mel Scale Frequency Cepstral Coefficients) và PLP (Perceptual Linear Prediction)

Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) Đây là hai kỹ thuật áp dụng nhằm lọc bỏ nhiễu, những âm thanh không phải là tiếng nói Hai kỹ thuật này đặc biệt

có ích trong xử lý tiếng nói thu âm qua điện thoại [Avendano 1996] Cả hai kỹ thuật đều có thể dùng kết hợp được với một trong hai phương pháp trích trọn đặc tính phổ MFCC hoặc PLP Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết thúc [Hermansky 1994] Kỹ thuật này thường được đi kèm với phương pháp trích trọn đặc điểm PLP [Hermansky 1992] Ngược lại kỹ thuật CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dễ áp dụng

1.2.2 Phân lớp mẫu

Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó

hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ hoặc âm vị) Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template matcher), rule-based, mạng neuron và mô hình Markov ẩn

Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng các mẫu (examples) tiếng nói, bao gồm các vector đặc tính Tín hiệu tiếng nói cần nhận dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã được cất giữ trước đó Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát

âm chậm, nên kỹ thuật DTW (Dynamic Time Warping) được áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với các mẫu

Trang 9

Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định

để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hóa

sự đa dạng của tiếng nói Một vấn đề nữa là với cây quyết định, rất khó hồi phục lỗi nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích

Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh được áp dụng thành công trong nhận dạng tiếng nói Đa số các hệ thống nhận dạng tiếng nói đều dùng mô hình Markov ẩn Chi tiết về mô hình Markov ẩn sẽ được trình bày trong Chương 3

Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong muốn sử dụng khả năng phân lớp mạnh của mạng Mạng neuron truyền thẳng đa lớp perceptron thường được sử dụng trong nhận dạng tiếng nói Tuy nhiên mạng neuron có hạn chế về khả năng mô hình hóa sự biến thiên của tiếng nói theo thời gian

Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ thống lai ghép mạng neuron và mô hình Markov ẩn

k )

Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp (syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ thuộc lân cận của một từ Các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp hình thức của ngôn ngữ

Trang 10

Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu:

) , (

) , (

) , (

ˆ

1 2

1 , 2 2

k k k k

k

w w b

w w w t w w

P

Trong đó hàm t(a,b,c) là số lần xuất hiện của bộ ba từ a,b,c (trigram) b(a,b) là

số lần xuất hiện của bộ đôi (bigram) a,b

Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các

bộ ba là quá lớn Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là 10.000 từ thì số lượng các bộ ba là V 3 Số lượng từ này rõ ràng là quá lớn, sẽ

có nhiều bộ ba không xuất hiện hoặc xuất hiện rất ít, chỉ một hoặc hai lần trong cơ sở

dữ liệu Với các trường hợp này, xác suất của các bộ ba là không tính được hoặc rất nhỏ

Mặc dù có khó khăn về tính toán như trên, mô hình ngôn ngữ vẫn chứng minh được là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng Trong các hệ thống nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng phổ biến [Young 1996] Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dạng [Béchet 2001, Estève2000]

1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI

1.3.1 Nhận dạng tiếng nói và viễn thông

Dựa vào mạng điện thoại công cộng, nhận dạng tiếng nói ngày càng được đưa vào ứng dụng trong hệ thống điện thoại Có hai nhóm chương trình ứng dụng của nhận dạng tiếng nói trong viễn thông [Roe 1993] Nhóm đầu tiên là các ứng dụng nhằm làm giảm giá thành, đó là các ứng dụng trong đó một người thực hiện một tác vụ trong hệ thống viễn thông thông qua một nhân viên phục vụ (attendant) Trong ứng dụng này độ chính xác nhận dạng của các hệ thống nhận dạng thay thế nhân viên phục vụ là một yếu

tố quan trọng, do vậy người dùng sẽ khó thông cảm cho các lỗi của hệ thống nhận dạng

Trang 11

Ví dụ về các hệ thống nhận dạng loại này là:

• Tự động hóa các dịch vụ có sự tham gia của nhân viên Hệ thống này đang được nghiên cứu và phát triển bởi AT&T và Northen Telecom

• Tự động hóa các dịch vụ danh bạ điện thoại

Nhóm chương trình ứng dụng thứ hai là những chương trình sản sinh giá trị gia tăng Trong nhóm này lợi ích của công nghệ nhận dạng tiếng nói nằm ở phía người sử dụng cuối Các giới hạn của độ chính xác nhận dạng có thể được thông cảm bởi người dùng Ví dụ về các chương trình này là:

• Các dịch vụ về ngân hàng (đang được phát triển bởi Nippon Telecom)

• Dịch vụ báo giá chứng khoán (đang được phát triển bởi Bell Northen Research)

Nói chung các ứng dụng nhận dạng tiếng nói trong viễn thông thường cho phép người dùng giao tiếp với máy tính thông qua các câu lệnh bằng giọng nói, thông qua đó máy tính thực hiện các câu lệnh của người dùng Mặc dù độ chính xác nhận dạng còn cần phải tiếp tục nâng cao, nhưng nhiều ứng dụng của công nghệ nhận dạng tiếng nói

đã được đưa vào sử dụng và đã được người dùng chấp nhận Sau đây là một vài ứng dụng hiện đang được khai thác

- Hệ thống xử lý cuộc gọi áp dụng công nghệ nhận dạng tiếng nói Voice Recognition Call Processing của hãng AT&T được triển khai vào năm 1991 Hệ thống này có thể nhận dạng một số lượng giới hạn từ vựng, nhận dạng tiếng nói độc lập với người nói,

có khả năng tự động một phần công việc thực hiện bằng tay bởi các nhân viên trực ca

Hệ thống này giảm được khối lượng công việc thực hiện bằng tay đồng thời tăng cường hiệu quả hoạt động của hệ thống xử lý cuộc gọi Hệ thống đã thu được thành công nhất định và đã được khách hàng chấp nhận

- Hệ thống dịch vụ danh bạ Directory Assisstance của hãng Northem Telecom Hệ thống này cho phép người dùng đọc phiên âm của một từ, từ đó hệ thống sẽ nhận ra từ

Trang 12

cần nhận dạng Nhờ cách này hệ thống có thể nhận dạng được hàng nghìn các từ khác nhau mà các từ này không cần phải được học trước Phương pháp này rất thuận tiện cho việc bổ sung một từ mới như tên một người vào trong hệ thống danh bạ

1.3.2 Hệ thống đọc chính tả bằng giọng nói

Mặc dù công việc đọc chính tả cho máy tính là một trong những bài toán khó khăn nhất của nhận dạng tiếng nói, một số phần mềm đọc chính tả đã xuất hiện trên thị trường Ví dụ như phần mềm Dragon có khả năng hiểu được 30.000 từ, hệ thống nhận dạng tiếng nói của IBM có khả năng nhận dạng được 20.000 từ

Các phần mềm này có khả năng hiểu được các phát âm liên tục của người nói Chúng đều có nguyên tắc hoạt động giống nhau, đó là đầu tiên người dùng cần phải đọc một đoạn văn để hệ thống có thể làm quen với giọng đọc Các phần mềm có khả năng chấp nhận tốc độ đọc khoảng 50 từ/1 phút Độ chính xác nhận dạng phụ thuộc vào giọng đọc của người nói, vào sự giống nhau giữa văn bản được đọc và mô hình ngôn ngữ được xây dựng trong hệ thống Tỷ lệ lỗi trong các hệ thống này có thể đạt tới 3-5%, mở ra khả năng cho phép con người dùng giọng nói để đọc chính tả cho máy tính Chức năng này được sử dụng rất hiệu quả cho những người tàn tật, khiếm thị

1.3.3 Nhận dạng tiếng nói trong các sản phẩm tiêu dùng

Nhận dạng tiếng nói đã được áp dụng vào trong một số sản phẩm tiêu dùng hàng ngày như điện thoại, trò chơi và điện thoại di động Các điện thoại di động hiện nay cho phép người dùng có thể quay số bằng giọng nói nhờ cách đọc tên người được gọi ở trong danh bạ Các sản phẩm tiêu dùng đều có đặc điểm là có vi xử lý nhỏ, do đó thuật toán nhận dạng tiếng nói chạy trong các sản phẩm thường không phức tạp nhưng vẫn đảm bảo tỷ lệ độ chính xác nhận dạng chấp nhận được

1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI

Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến

độ chính xác nhận dạng:

Trang 13

- Sự phụ thuộc vào người nói: Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào người nói (speaker Dependent) hoặc là độc lập với người nói (speaker independent) Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn

là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người, nhất là khi những người này có giọng nói tại những địa phương khác nhau Tỷ lệ lỗi nhận dạng tiếng nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận dạng tiếng nói phụ thuộc người nói tương đương [Tebelskis 1995]

- Kích thước của bộ từ điển: Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói có thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và nhiệm

vụ nhận dạng tiếng nói càng trở nên khó khăn

- Tốc độ nói, hiện tượng đồng phát âm: Trong một phát âm, một âm bị ảnh hưởng rất lớn của các âm xung quanh nó Các từ rời rạc được nhận dạng dễ dàng hơn là các từ trong một phát âm liên tục

- Sự biến đổi trong lời nói: Con người có thể hiểu được lời nói ngay cả khi nó bị xen lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “à, ờ” và lời nói với những từ được nhấn mạnh Tuy nhiên đối với máy tính các trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói

- Điều kiện môi trường: Tiếng nói có chất lượng thấp (bị méo tín hiệu, bị nhiễu kênh truyền, …) thường đặt ra rất nhiều vấn đề giải quyết cho các hệ thống nhận dạng tiếng nói Theo [Siohan 1995] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có SNR > 40dB (SNR – Signal to Noise Ratio) so với tiếng nói có SNR > 18dB tăng lên nhiều lần, có thể tới 10 lần

- Các phát âm tự nhiên và các phát âm liên tục: Hệ thống nhận dạng tiếng nói có thể làm việc với các phát âm được đọc từ các văn bản chuẩn bị sẵn hoặc với các phát âm

do người nói nói một cách tự nhiên (spontaneous) Nhận dạng các phát âm tự nhiên rõ ràng là khó khăn hơn nhiều so với các phát âm đọc sẵn Lý do là các phát âm tự nhiên

số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có

Trang 14

trong bộ từ điển Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát

âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm khác

- Các giới hạn về ngôn ngữ: Các hệ thống nhận dạng có thể làm việc với các câu với ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể Với các hệ thống này, nhiệm

vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể

về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop) nghĩa là bất kỳ một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển

1.4.1 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài

Công nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một

số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H Về lĩnh vực ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và Speech Works là các hãng phần mềm nổi tiếng Rất nhiều các trung tâm nghiên cứu đang tập trung nghiên cứu về nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft Research, CSLU, …

Độ khó của các ứng dụng nhận dạng tiếng nói phụ thuộc vào nhiều yếu tố Hình 1.4 miêu tả các ứng dụng của nhận dạng tiếng nói phụ thuộc vào hai yếu tố chính: kích thước từ vựng và kiểu phát âm Độ khó tăng từ thấp lên cao, từ trái sang phải

Trong các ứng dụng thực tế, có sự khác nhau lớn giữa môi trường thu âm tiếng nói nên cùng với một thuật toán các hệ thống nhận dạng có độ chính xác nhận dạng kém hơn nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng thí nghiệm Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được đọc bởi người bán hàng ở các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là 98% (so với 99,7% trong môi trường phòng thí nghiệm) [Stephen a] Sự khác nhau về

Trang 15

tỷ lệ lỗi nhận dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm trong môi trường phòng thí nghiệm và môi trường bên ngoài

20 200 2000 20000

Hình 1.4: Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói

Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so với khả năng nhận dạng của con người theo đánh giá của [Barbara 2001] Từ bảng ta thấy tỷ lệ lỗi nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng bằng máy tính Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc đối thoại thì tỷ lệ lỗi nhận dạng của máy tính cao hơn đến mười lần Với cơ sở dữ liệu tiếng nói có nhiều nhiễu thì sự khác nhau này có thể còn cao hơn nữa Do vậy có thể nói kỹ thuật nhận dạng hiện thời còn xa mới có thể đạt tới khả năng của con người

Ghi chép

Hệ thống đối thoại hạn chế

Quay số bằng giọng nói

Đọc chính tả trong văn phòng

Điền mẫu biểu bằng giọng nói

Ra lệnh bằng

danh bạ

Trang 16

Hệ thống nhận dạng Kích thước từ vựng Máy tính Con người

Giọng nói chất lượng tốt của WSJ 5000 4,5% 0,9%

Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng của máy tính và con người

với một số hệ thống nhận dạng

Ngoài ngôn ngữ Châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng Bắc Kinh và tiếng Quảng Đông), tiếng Thái Lan cũng đã được nghiên cứu Với tiếng Trung Quốc, rất nhiều nghiên cứu đã được tiến hành, nhiều hệ thống nhận dạng tiếng nói tiếng Trung Quốc đã được công bố và các hệ thống nhận dạng tiếng Hán với kích thước từ vựng lớn cũng đã được xây dựng [Fu 1996] Một số phần mềm nhận dạng tiếng nói tiếng Trung Quốc cũng đã được bán ra thị trường Bảng 1.2 trình bày các hệ thống nhận dạng tiếng nói tiếng Bắc Kinh (tiếng Hán) được công bố trong các bài báo khoa học theo thống kê của [Stephen b]

Phương pháp Kích thước bộ từ điển Độ chính xác HMM + modification of initials and finals 5000 syllables 93%

Time Delayed Neural Network Complete vocabulary 85%

Hierarchical Neural Network Complete vocabulary 90,14%

Bảng 1.2: Các hệ thống nhận dạng tiếng Hán

Với ngôn ngữ Thái Lan, hầu hết các nghiên cứu tập chung vào nhận dạng các từ rời rạc [Sornlertlamvanich] Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96,89% với cơ sở dữ liệu thu âm trong nhà [Thubthong 2000a] Với hệ thống nhận dạng liên tục kích thước lớn tiếng

Trang 17

Thái Lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu Đã có một số nghiên cứu

về nhận dạng thanh điệu tiếng Thái [Thubthong 2000b]

1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt

Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt đang được tiến hành với các bước đầu tiên, các bài toán cơ bản về nhận dạng tiếng nói Về nguyên tắc, tiếng Việt cũng như các ngôn ngữ có thanh điệu khác, hệ thống nhận dạng bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không có thanh điệu và nhận dạng thanh điệu [Zhang 2000] Hình 1.5 dưới đây miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt:

Hình 1.5: Hệ thống nhận dạng ngôn ngữ có thanh điệu

Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS Nguyễn Thành Phúc [Phúc 2000] Trong luận án tiến sỹ của mình TS Nguyễn Thành Phúc đã dùng bộ công cụ CSLU để tiến hành nghiên cứu và thực hiện các công việc sau:

- Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà:

• Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15 người nói Các câu đều được gán nhãn bằng tay

• Cơ sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu

• Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phần vần là EO gồm 350 câu

- Nghiên cứu quá trình xây dựng một cơ sở dữ liệu tiếng Việt, đề xuất bảng ký hiệu âm

vị tiếng Việt dùng để phiên âm các âm vị

Nhận dạng các từ không dấu

Nhận dạng thanh điệu

Trang 18

- Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu

- Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều kiện thu âm trong nhà Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận dạng,… Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ

Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS Nguyễn Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại học Grenoble tại Pháp [Cường] Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng mô hình Markov ẩn đối với từ rời rạc Đây là một trong những công trình đầu tiên nghiên cứu về nhận dạng thanh điệu tiếng Việt Các thử nghiệm được tiến hành trên cơ

sở dữ liệu gồm 9720 từ, do 18 người nói đến từ ba miền Bắc – Trung – Nam, thu âm với tần suất lấy mẫu 16kHz, biến đổi A/D 16 bit Kết quả thu được tỷ lệ nhận dạng chính xác thanh điệu đạt 91,6%

Ngoài ra trước TS Nguyễn Thành Phúc có một số công trình nghiên cứu đã được công bố Theo [Phúc 2000] các công trình trên bao gồm:

- Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học – ngữ âm học của TS Nguyễn Anh Tuấn Kết quả của công trình như sau:

• Hình thức hóa được ngôn ngữ hình học của các từ tiếng Việt, cho phép nâng cao độ tin cậy của phân đoạn hóa các từ thành từng đoạn tương ứng với phần đầu, phần vần và thanh điệu của âm tiết tiếng Việt

• Nghiên cứu và hình thức hóa những đặc trưng của sáu thanh điệu tiếng Việt cho phép xác định tự động kiểu thanh điệu tiếng Việt

• Thông qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên

âm và bán nguyên âm tiếng Việt Các đặc trưng này có thể sử dụng để phân loại các nguyên âm

• Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm tiếng Việt

Trang 19

• Trên cơ sở các thông số đặc trưng của các âm tiết đã tìm được, đã tìm được một thuật toán nhận dạng các từ tiếng Việt rời rạc bao gồm mười chữ số tiếng Việt Hệ thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95% không phụ thuộc vào giọng nói

- Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin Đại học Bách Khoa Hà Nội thực hiện hòan thành vào tháng 6/1998 đã áp dụng phương pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (F0-F5 và tương quan F1-F2) của các nguyên âm tiếng Việt: „„a, â, ă, e, ê, i, o, ô, ơ, u, ư‟‟

- TS Đặng Văn Chuyết và KS Ngô Đức Bình đã áp dụng phương pháp phân tích cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh

- TS Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để nhận dạng các từ rời rạc cho tiếng Việt Các tham số được sử dụng là các F1 và F2 Hệ thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: „„a, e, i, o, u”, mười chữ

số tiếng Việt và các từ điều khiển: „„tiến, lùi, phải, trái, sau, dừng” Độ chính xác nhận dạng mười chữ số tiếng Việt rời rạc trung bình là 78,47%

Trang 20

CHƯƠNG 2: CÁC KHÁI NIỆM VỀ NGỮ ÂM TIẾNG VIỆT

2.1 NGÔN NGỮ TIẾNG VIỆT

2.1.1 Đặc điểm âm tiết tiếng Việt

Âu [Thuật 1999] (trong ngôn ngữ Châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp phân tích phổ) Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi

âm tiết được viết tách ra thành một từ riêng biệt

Có thể nói so với các âm tiết Châu Âu, tiếng Việt có tính độc lập cao hơn hẳn Trong các ngôn ngữ Châu Âu thường gặp các hiện tượng nối âm (liaison), ví dụ như:

Les amis

Trong tiếng Việt không có hiện tượng nối âm như vậy

2.1.1.2 Có khả năng biểu hiện ý nghĩa

Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa Gần như toàn bộ các âm tiết đều hoạt động như từ Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với ranh giới của hình vị [Tho 1997] (hình vị là đơn vị có ý nghĩa nhỏ nhất trong một ngôn ngữ) Chính vì vậy trong một phát âm, số lượng âm tiết trùng với số lượng hình vị)

Trang 21

2.1.1.3 Có cấu trúc chặt chẽ

Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 2.1:

Thanh điệu

Hình 2.1: Cấu trúc âm tiết của tiếng Việt

Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối

Âm tiết tiếng Việt có cấu trúc gồm hai bậc: Bậc một bao gồm các thành tố trực tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học Bậc thứ hai bao gồm các yếu tố của phần vần chỉ có chức năng khu biệt thuần túy Quan hệ giữa các yếu tố ở bậc một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ Các thực nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra

ở chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh của âm tiết Trong khuôn khổ mỗi loại hình thanh điệu, các âm tiết có một trường độ cố định Âm đầu không tham gia bảo đảm trường độ cố định ấy mà chính âm phần vần lại đảm đương với bất kể số lượng và phẩm chất của những yếu tố làm thành phần của nó Trong phần vần, việc rút ngắn các nguyên âm ở những vị trí nhất định được bù lại bằng

sự kéo dài các âm cuối [Thuật 1999]

Theo GS Bảng và cộng sự [Bảng 2001] số lượng âm tiết trên lý thuyết của tiếng Việt là 18.958 So với các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào khoảng 3000-5000, tiếng Trung Quốc có số lượng âm tiết trên lý thuyết là 1620, trên thực tế là 1255 Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, chính vì thế ít

có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết Theo [Thuật 1999], trong tiếng Việt có 6 thanh điệu, 21 âm đầu, 155 phần vần và phần vần đóng vai trò khu biệt lớn hơn cả so với các yếu tố khác trong Bậc 1

Trang 22

Hình 2.2: Cấu trúc bậc hai của tiếng Việt

2.1.2 Âm vị tiếng Việt

Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa Về mặt xã hội của ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức năng trong ngôn ngữ đó gọi là âm vị

Có một cản trở khi nghiên cứu âm vị tiếng Việt là chưa có một qui định chính thức về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ âm về một chuẩn tiếng Việt Có thể quan niệm tạm thời coi “tiếng Việt chuẩn như một thứ tiếng chung được hình thành trên cơ sở tiếng địa phương của miền Bắc với trung tâm là Hà Nội mà cách phát âm của nó là cách phát âm Hà Nội với sự phân biệt /ʈ -c/, /ʂ -s/, /ʐ -z/ và các vần ưu/iu, ươu/iêu” [Tho 1997]

Thanh điệu được hình thành bằng sự rung động của dây thanh, tùy theo sự rung

đó nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các thanh điệu khác

Âm tiết

Bậc 1 Bậc 2

Trang 23

nhau Thanh điệu tiếng Việt thuộc loại thanh lướt, có nghĩa là các thanh điệu phân biệt với nhau bằng sự di chuyển cao độ từ thấp lên cao hay từ cao xuống thấp

Hình 2.3: Các thanh điệu tiếng Việt 1 Không dấu,

2 Huyền, 3 Ngã, 4 Hỏi, 5 Sắc, 6 Nặng

Theo các nhà ngôn ngữ học thì thanh điệu có ảnh hưởng bao trùm lên toàn bộ

âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần

Tiếng Việt có sáu thanh điệu Nếu chia thang độ của giọng nói bình thường thành 5 bậc thì ta có thanh điệu tiếng Việt được miêu tả như trong Hình 2.3

tế việc sử dụng các âm vị /p,r/ vẫn được người Việt Nam dùng trong các trường hợp tên riêng nước ngoài như Rumani, Pakistan, …

Âm vị / ˀ /, âm tắc thanh hầu được liệt kê trong một số sách giáo khoa tiếng Việt như một phụ âm đầu Trong những âm tiết như: “ai, ơi, ăn, oản, uống, oanh, uyên”

có hiện tượng khép khe thanh lúc mở đầu, khi chúng được phát âm lên Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm Thừa nhận tồn tại âm tắc thanh hầu

(3)

(2)

Trang 24

đưa đến xây dựng được một mô hình tổng quát của âm tiết tiếng Việt cân xứng hơn với

ba thành tố luôn có mặt: thanh điệu, âm đầu, âm vần [Thuật 1999]

Tuy nhiên âm tắc thanh hầu không được thể hiện trên chữ viết Sở dĩ như vậy vì bản chất âm tắc thanh hầu vốn yếu, trong một số điều kiện nào đó không dễ được người bản ngữ nhận ra Thử thí nghiệm phát âm các âm tiết trên có tắc thanh hầu hay không có tắc thanh hầu, người Việt Nam vẫn không nhận ra sự khác biệt và coi như là một từ Theo [Tho 1997] sự xuất hiện của âm tắc thanh hầu trong thực tế thường là tùy tiện, không theo qui luật, thậm chí là vắng mặt (68%) nhiều hơn là có mặt (32%) Trong biểu đồ phổ và biểu đồ sóng, âm tắc thanh hầu cũng xuất hiện như một khoảng trắng năng lượng giống như trường hợp của âm đóng Vì lý do trên trong hệ thống nhận dạng tiếng Việt, âm tắc thanh hầu không nên đưa vào như một âm vị đóng vai trò

âm đầu trong từ

Tiếng Việt có 21 âm đầu, 6 thanh điệu, 2 âm đệm, 16 âm chính và 8 âm cuối Vậy so với các yếu tố cấu tạo âm tiết thì âm đầu có chức năng khu biệt lớn hơn cả

2.1.2.3 Âm đệm

Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hóa

âm tiết và khu biệt âm tiết này với âm tiết khác Khác với âm chính luôn nằm ở đỉnh

âm tiết, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết Âm đệm không xuất hiện trước các nguyên âm tròn môi /u,o,ɔ /, nó chỉ xuất hiện trước các nguyên âm hàng trước Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm-âm chính đi sau

2.1.2.4 Âm chính

Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định âm sắc của âm tiết Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi

Âm chính âm tiết có thể chia thành 4 nhóm:

- Nhóm nguyên âm đơn, hàng trước, không tròn môi Âm sắc của nhóm này thường là bổng Có thể dài và thể ngắn Thể ngắn có sự biến dạng ít nhiều về trường độ, âm sắc, cường độ, phát âm căng và ngắn

Trang 25

- Nhóm nguyên âm đơn, hàng sau tròn môi Âm sắc trầm Có thể dài và thể ngắn Sự thể hiện thể ngắn có cấu âm không giữ đều

- Nhóm nguyên âm đơn, hàng sau, không tròn môi Âm sắc trầm vừa

- Nguyên âm đôi, phát âm yếu dần, yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó âm sắc của nguyên âm đôi là do yếu tố đầu quyết định Nguyên âm chỉ có một thể dài và không bị biến dạng về âm sắc và trường độ

2.1.2.5 Âm cuối

Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu

âm tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ) Do đó có sự khác biệt lớn giữa âm [t] trong phát âm hai từ “at” và “ta” Trong khi phát âm từ “ta”, lối thoát của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo thành một tiếng động đặc thù Trong khi phát âm từ “at”, bộ phận cấu âm ở nguyên vị trí cấu âm và không khí không được thoát ra ngoài [Tho 1997]

Trong nhiều trường hợp phụ âm cuối hầu như chỉ là một khoảng im lặng Ví dụ như âm vị /k/ trong từ “tác” Trên dạng phổ âm vị /k/ chỉ thể hiện bởi sự biến đổi formant của âm vị /a/ theo một hướng nào đó (locus), trên đồ thị dạng sóng, âm vị /k/ chỉ thể hiện bằng một vài xung nhỏ không rõ ràng Do vậy âm vị /k/ được nhận diện chủ yếu làm biến đổi âm sắc của âm chính đi ở giai đoạn cuối

Bán nguyên âm cũng không thường xuyên được thể hiện rõ rệt mà chỉ được nhận diện bằng việc biến đổi âm sắc của âm chính Về mặt này thì bán nguyên âm còn

có tác dụng mạnh hơn là phụ âm cuối

2.1.3 Sự phân bố của các âm vị tiếng Việt

Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp với nhau theo những quy luật Sau đây là Bảng 2.1 Tổng kết sự phân bố giữa nguyên

âm âm chính và các âm đệm và bán nguyên âm cuối [Tho 1997]

Trang 26

Âm chính

Bảng 2.1: Phân bố giữa nguyên âm âm chính và các âm đệm và bản nguyên âm cuối

Bán nguyên âm cũng không thường xuyên được thể hiện rõ rệt mà chỉ được nhận diện bằng việc biến đổi âm sắc của âm chính Về mặt này thì bán nguyên âm còn

có tác dụng mạnh hơn là phụ âm cuối

2.2 BẢNG KÝ TỰ PHIÊN ÂM

Mỗi cơ sở dữ liệu sử dụng một phương thức để phiên âm chính tả và phiên âm ở mức âm vị Để phiên âm chính tả tiếng Việt các phát âm được ghi bằng tiếng quốc ngữ thông thường Tuy nhiên do tiếng Việt các nhiều dấu và các ký tự đặc biệt không phải

mã ASCII chuẩn, việc ghi theo các bộ mã tiếng Việt hiện đang sử dụng như TCVN3,

Trang 27

VNI, … sẽ tạo ra các tệp văn bản có mã đặc biệt và khó dùng trong môi trường lập trình máy tính

Với mỗi một ngôn ngữ, đều có một bảng ký tự phiên âm thống nhất (phonetic notation) để gán nhãn các âm vị Với tiếng Việt, hiện tại các sách giáo khoa tiếng Việt

sử dụng bảng phiên âm ngữ âm quốc tế IPA (International Phonetic Association) để biểu diễn các âm vị Bảng phiên âm IPA đã được sử dụng rộng rãi từ lâu như phương thức thống nhất dùng phiên âm các ngôn ngữ trên thế giớị Tuy nhiên bảng ký tự IPA chứa các ký tự không phải la mã ASCII chuẩn, do vậy khó sử dụng trong hệ thống máy tính Bảng ký tự Worldbet [Hieronymus 1993] được Hieronymus, J.L phát triển nhằm khắc phục nhược điểm nàỵ Tuy vậy bảng ký tự Worldbet viết cho tiếng Việt có nhiều điểm khác so với các qui tắc ngữ âm được miêu tả trong các sách giáo khoa tiếng Việt Một dạng phiên âm ngữ âm quốc tế khác đang được phát triển cho các ngôn ngữ trên thế giới dùng các ký tự ASCII là SAMPA, tuy nhiên rất tiếc là chưa có bảng ký hiệu

âm vị SAMPA cho tiếng Việt

Trong luận án tiến sĩ kỹ thuật, tác giả Nguyễn Thành Phúc [Phúc 2000] đã đề xuất cách phiên âm chính tả và bảng ký hiệu âm vị như sau:

- Với phiên âm chính tả, các từ tiếng Việt được phiên âm theo cách bỏ dấu thông dụng với các ký tự: “^, ?, \, +,‟,” Ví dụ như câu “nhận dạng tiếng nói” được ghi lại thành

“nhận dạng tiê‟ng no‟i” Tác giả cũng đề nghị một phương thức ghi âm chính tả thay thế kiểu Telex

- Với phiên âm âm vị, tác giả dùng cách ghi giống như trong bảng ký hiệu Worldbet dùng cho tiếng Việt, trong đó có sửa đổi lại các bất hợp lý của bảng ký hiệu này cho phù hợp với các sách giáo khoa tiếng Việt

Tuy nhiên cách phiên âm theo kiểu Worldbet khó nhớ và còn xa lạ đối với tiếng Việt Ngoài ra giữa cách ghi chính tả và ghi âm vị không có mối liên hệ thống nhất

Trong quá trình nghiên cứu, để tiến hành xây dựng cơ sở dữ liệu và xây dựng các hệ thống nhận dạng, học viên đã xây dựng một phương thức phiên âm chính tả và

Trang 28

bảng ký hiệu âm vị thống nhất dùng mã ASCII, Phương thức ghi âm chính tả và ghi âm

âm vị này được xây dựng phỏng theo phương thức gõ Telex, vốn đã thông dụng và được sử dụng rộng rãi

Với ghi âm chính tả Các từ được ghi lại giống như phương thức gõ Telex với một số qui ước như sau:

- Chữ “ư” chỉ được ghi một cách duy nhất “uw” Ví dụ từ “từ” được ghi thành “tuwf”

- Các từ bỏ dấu được đặt vào cuối từ Ví dụ câu “sắc huyền ngã” được ghi thành

“sawcs huyeenf ngax”

Ngoài ra trong quá trình phiên âm chính tả một số qui tắc được dùng như sau:

- Không dùng dấu chấm, dấu phẩy, …

- Chỉ bao gồm chữ thường, không có chữ hoa (kể cả tên riêng)

Với phiên âm âm vị, các âm vị cũng được ghi âm giống như phương thức gõ Telex Nếu có sự khác nhau giữa cách ghi chính tả của các âm vị, chúng sẽ được qui định theo một cách thống nhất Các âm vị phiên âm IPA được biểu diễn dưới dạng các chữa cái ASCII Bảng chi tiết ký hiệu âm vị tiếng Việt được trình bày chi tiết trong phần phụ lục

2.3 GÁN NHÃN BẰNG TAY

2.3.1 Giới thiệu

Nếu ghi âm chính tả chỉ dừng ở việc ghi lại nội dung của các phát âm theo một phương thức nào đó, không bao gồm các nhãn thời gian thì quá trình gán nhãn đòi hỏi mất nhiều thời gian hơn Các phát âm được ghi lại dưới dạng một dãy các âm vị, mỗi âm vị được gắn với các nhãn thời gian biểu thị thời gian bắt đầu và kết thúc của

âm vị đó

Gán nhãn âm vị đóng một vai trò quan trọng trong quá trình xây dựng cơ sở dữ liệu tiếng nói Tất cả các hệ thống xử lý tiếng nói đều giả thiết rằng đơn vị cơ bản của tiếng nói là các âm vị Hầu hết các hệ thống nhận dạng tiếng nói liên tục đều định

Trang 29

nghĩa các từ bằng các âm vị Các hệ thống tổng hợp tiếng nói tổng hợp lên một từ xuất phát từ các âm vị tương ứng Các hệ thống mô phỏng nét mặt cũng dựa vào các đơn vị gọi là “âm vị nhìn thấy được” (visible phonemems) Do vậy các nghiên cứu về tiếng nói thường được tiến hành trên một hệ cơ sở dữ liệu tiếng nói mà các phát âm đã được gán nhãn tại mức âm vị Ví dụ sau đây là nội dung của một tệp phiên âm ở mức âm vị của một phát âm trong cơ sở dữ liệu TIMIT

đồ phổ của phát âm tương ứng Gán nhãn tự động được thực hiện bởi hệ thống nhận dạng bằng quá trình gán nhãn cưỡng bức

Các nghiên cứu cho thấy các nhãn thời gian do hai người gán nhãn chuyên nghiệp thực hiện trên cùng một cơ sở dữ liệu có sự sai số tương đối lớn [Cole 1997, Lander 1997b]: tới gần 30% các nhãn khác nhau Như vậy có thể nói là không tồn tại một dãy các nhãn âm vị chính xác cố định cho mỗi phát âm, một phát âm có thể được phiên âm theo nhiều cách phụ thuộc vào người gán nhãn

Tuy có sự khó khăn trong việc đánh giá độ chính xác của gán nhãn, các nghiên cứu cho thấy độ chính xác của gán nhãn bằng tay thường cao hơn so với gán nhãn tự động Theo Ljolje [Ljolje 1984] thì “do những hạn chế về tham số hóa tín hiệu tiếng nói cũng như cấu trúc mô hình tiếng nói, độ chính xác của gán nhãn tự động kém hơn

Trang 30

so với gán nhãn do người gán nhãn thực hiện” Các hệ thống nhận dạng được xây dựng trên cơ sở dữ liệu gán nhãn bằng tay cho độ chính xác cao hơn so với hệ thống nhận dạng với cùng một cơ sở dữ liệu mà được gán nhãn tự động [Hosom 2000a] Một hệ thống nhận dạng được coi là không bị ảnh hưởng với các nhãn thời gian sai khác nhau một giá trị là 5ms [Hosom 2000b]

2.3.2 Các nguyên tắc chung về gán nhãn bằng tay

Thông tin về âm học trên biểu đồ sóng được dùng để xác định nơi đặt các ranh giới Đối với các âm có tần số cao, biên độ thấp thì việc đọc thông tin trên biểu đồ sóng tương đối khó khăn, khi đó biểu đồ phổ sẽ được sử dụng Sự biến đổi trên biểu đồ sóng nói chung là đáng tin cậy hơn sự biến đổi trong biểu đồ phổ, đặc biệt là trong các trường hợp có sự chuyển dịch từ biên độ thấp sang biên độ cao

Tai người không phải là nguồn căn cứ tin cậy dùng để xác định các ranh giới giữa các đơn vị được gán nhãn Người gán nhãn nghe các đơn vị ngữ âm trong ngữ cảnh (context) của nó, khi mà hiện tượng nối âm (coarticulation) giữa các đơn vị này xảy ra làm cho nó khác đi so với trường hợp các đơn vị này được phát âm riêng biệt

Việc xác định và so sánh độ chính xác của nhãn thời gian là tương đối khó khăn

do trở ngại của việc xác định chính xác ranh giới (boundary) giữa các âm vị Đối với các phát âm liên tục, nhiều ranh giới được nhận thức bởi người nghe nhưng không tồn tại nếu chúng ta phân tích chúng dưới góc độ âm học, nhiều âm vị bị trùng khớp và dính liền vào nhau Do vậy ranh giới giữa các âm vị chúng ta xác định trong quá trình gán nhãn có thể được hiểu như là nhân tạo [Lander 1997a] Các trường hợp mập mờ được giải quyết bằng một số luật được qui ước chung để đảm bảo tính nhất quán và bền vững

2.3.3 Các âm tắc

Tiếng Việt có các âm tắc: /b, d, t, t́ , ʈ , c, k, p/ Khi phát âm một âm tắc, cơ quan phát âm sẽ khép lại và luồng không khí từ phổi đi ra sẽ bị cản trở hoàn toàn Âm

Trang 31

tắc được hình thành khi luồng hơi phát vỡ sự cản trở và bật ra thành một tiếng nổ (do vậy âm tắc cũng được gọi là âm nổ, plosive)

Các âm tắc được nhận diện trên biểu đồ phổ bằng một sự tăng đột biến năng lượng trong một khoảng thời gian ngắn trên khoảng tần số rộng tạo thành một hình cột dựng đứng gọi là burst Do các cơ quan phát âm đóng hoàn toàn trước khi phát âm một

âm tắc nên trên biểu đồ phổ của một phát âm liên tục, trước âm tắc thường có một khoảng trắng năng lượng và được gọi là âm đóng (closure)

Việc gán nhãn một âm tắc được dựa vào sự thay đổi trong biểu đồ sóng, đặc biệt khi chúng đứng sau một ngắt giọng (short pause) hay một âm đóng Các âm tắc có bật hơi (aspirated) mạnh rất dễ được đánh dấu Các âm tắc không có bật hơi có thể dễ nghe hơn là được nhìn thấy trên biểu đồ phổ Gán nhãn các âm tắc này được dựa vào một xung (pulse) ở biểu đồ sóng mà biên độ thấp hơn nhiều so với biên độ của nguyên âm theo sau

Trong phát âm nhanh, các âm tắc thường được bật ra rất nhẹ với rất ít hoặc không có áp lực (pressure) Nếu burst không xuất hiện rõ ràng trong biểu đồ phổ hay biểu đồ sóng thì có thể coi là chúng không tồn tại Có một phương pháp dùng để xác định các burst như sau:

- Đặt chế độ phân giải nhỏ hơn trên biểu đồ sóng Với độ phân giải 0.25ms/1 pixel việc gán nhãn sẽ dễ dàng hơn trong trường hợp này

- Quan sát formant theo sau các âm đóng Nếu có đoạn formant nằm ngang và sau đó bắt đầu chuyển sang vị trí của nguyên âm đứng đằng sau thì đặt ranh giới vào phần formant mà nằm ngang đó

2.3.4 Âm đóng

Ranh giới trái của âm đóng thường được xác định khi năng lượng của âm trước

đã hết Người nói thường tạo ra một lượng tạp âm nhỏ khi di chuyển các bộ phận phát

âm của họ vào vị trí của âm đóng Khi điều này xuất hiện, sẽ có một xung nhỏ trên biểu

đồ sóng hoặc biểu đồ phổ Ranh giới trái của âm đóng được xác định bằng điểm này

Trang 32

Nếu không có biểu hiện âm học về điểm bắt đầu của âm đóng thì âm đóng được gán biên giới trái 50ms nếu âm đóng đứng trước một âm tắc và 100ms từ khi năng lượng ở biểu đồ phổ kết thúc nếu âm đóng đứng cuối một từ

Âm tắc hữu thanh (ví dụ như /d/) theo sau một âm mũi thường không có âm đóng Đó là bởi vì âm đóng thường rất ngắn, vòm miệng được đóng lại chỉ ngay trước burst để cho tăng áp lực tạo thành các burst khi phát âm âm tắc Thời gian này rất ngắn

và có thể không cần thiết phải gán nhãn

Có đôi khi âm tắc không xuất hiện trong các phát âm liên tục và nhanh Tuy nhiên âm đóng vẫn tồn tại và vì vậy có hai trường hợp có thể xảy ra: “âm đóng + âm tắc + nguyên âm” và “âm đóng + nguyên âm”

Hình 2.4 Biểu đồ sóng và biểu đồ phổ của hai từ “tám bốn”

Hình 2.4 cho ta thấy hình ảnh âm tắc, âm đóng trên biểu đồ sóng và biểu đồ phổ

Âm tắc /t/ có hình ảnh phổ là một burst dựng đứng, đằng sau một khoảng trắng năng lượng là âm đóng /tc/ Âm tắc /b/ bao gồm các xung tuần hoàn biên độ thấp, mang F2, F3 mờ ảnh hưởng của nguyên âm hai bên Không có âm đóng /bc/ đứng trước do sau khi phát âm phụ âm mũi /m/, cơ quan phát âm đã đóng hoàn toàn Âm tắc /b/ chỉ bật một tiếng nhẹ, không đủ năng lượng để tạo thành burst

Trang 33

2.3.5 Âm xát

Tiếng Việt có mười âm xát (fricatives): /f, v, s, z, ˀ, ʐ , χ, ɣ , h, l/ Đặc trưng của âm xát là tiếng cọ xát phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn phải lách qua một khe hở nhỏ và trong khi thoát ra như vậy cọ xát vào thành của

bộ máy phát âm Trên biểu đồ phổ, âm xát có hình dáng là một vùng năng lượng ở tần

số cao với sự phân bố năng lượng ngẫu nhiên

Các âm xát được định ranh giới tại nơi có sự thay đổi gốc trên biểu đồ sóng Nếu không có hoặc rất ít sự thay đổi trên biểu đồ sóng thì ranh giới được xác định là điểm có sự tăng năng lượng trên biểu đồ phổ

Trên hình 2.6 ta thấy hình ảnh của âm vị /s/ có biên độ thấp không tuần hoàn trên biểu đồ sóng và một hình chữ nhật với năng lượng phân bố ngẫu nhiên tại vùng tần

số cao trên biểu đồ phổ

2.3.6 Âm mũi

Tiếng Việt có bốn âm mũi: /m, n, ɲ , ɳ / Âm mũi phát sinh do luồng không khí

từ phổi bị đóng hoàn toàn ở đằng miệng, đi ra ở đằng mũi và nhận được sự cổng hưởng của khoang mũi Âm mũi được nhận biết trên biểu đồ sóng bởi các sóng đi lên hoặc đi xuống với tính tuần hoàn cao, biên độ thấp trên biểu đồ sóng Trên biểu đồ phổ các âm mũi thường mang các formant cùng với các formant của các âm đứng xung quanh nhưng với màu nhạt về màu sắc và cường độ trong biểu đồ phổ

Tại cuối của một phát âm, âm mũi thường giảm dần, kéo dài đều đặn cho đến khi không phân biệt được với môi trường hoặc tín hiệu nhiễu Ranh giới phải của âm mũi là điểm kết thúc của formant F1, điểm này thường phải trùng với điểm kết thúc trên biểu đồ sóng Trên hình 2.4 ta thấy hình ảnh của các âm mũi /m/ và /n/ Các âm mũi là các sóng biên độ thấp, giảm dần Hình ảnh phổ của hai âm mũi /m/ và /n/ là các formant F2, F3 có độ sáng yếu, trùng với các formant F2, F3 của các nguyên âm đứng trước

Trang 34

2.3.7 Nguyên âm đơn, nguyên âm đôi và bán nguyên âm

Tiếng Việt có mười ba nguyên âm đơn : /i, e, ɛ , ɛ̆ , u, o, ɔ , ɔ̆ , ɤ , ɯ , ɤ̆ , a, ă/, ba nguyên âm đôi: /ˀie, uˀo, ɯ ˀɤ / và hai bán nguyên âm cuối /u̯ , i̯ /

Nguyên âm có đặc điểm chung là có các formant nằm ngang song song với các trục hoành (thường là F2, F3) trong tất cả khoảng thời gian tồn tại của nó Việc xuất hiện của nguyên âm đứng đằng sau một âm mũi hoặc một âm tắc có thể được đánh dấu xuất hiện hay tăng độ đậm của formant trên biểu đồ phổ và bởi tăng biên độ (có thể là tuần hoàn) ở biểu đồ sóng Ranh giới của nguyên âm được xác định là điểm thay đổi gốc trên biểu đồ sóng

Khi hai nguyên âm đi liền nhau, hay một bán nguyên âm đi sau một nguyên âm, ranh giới giữa hai âm vị thường rất khó phân biệt Ranh giới được xác định là sự thay đổi về hình dáng tuần hoàn của sóng trên biểu đồ sóng, và đó cũng trùng với ranh giới

có sự thay đổi về formant trên biểu đồ phổ Nếu ranh giới này khó xác định bằng mắt thường, điểm ranh giới được đặt tại giữa phần chuyển dịch của formant

Hình 2.5 Biểu đồ sóng và biểu đồ phổ của hai từ “hạt mưa”

Nguyên âm đôi có các formant không bằng phẳng và chúng đi lên hoặc đi xuống trong suốt thời gian tồn tại của nguyên âm đôi Formant sẽ di chuyển từ độ cao các formant của nguyên âm trước đến nguyên âm sau Trên Hình 2.5 nguyên âm đôi /wa/

có các formant F2 đi lên và F3 đi xuống từ âm /w/ sang nguyên âm /a/ Với trường hợp

Trang 35

của nguyên âm đơn /a/ ta thấy các F1, F2, F3 đều là các đường nằm ngang song song với trục hoành Trên biểu đồ sóng âm vị /a/ có biến đổi lớn hơn âm xát /h/ đứng trước

2.3.8 Phụ âm cuối

Tiếng Việt có ba phụ âm cuối là các phụ âm tắc: /p, t, k/ và ba phụ âm cuối là phụ âm mũi: /m, n, ɳ / Trong trường hợp phụ âm cuối là các âm tắc, khi phát âm cơ quan cấu âm di chuyển vào vị trí phát âm của phụ âm cuối tương ứng, bộ máy phát âm đóng hoàn toàn Nhưng trên thực tế phát âm không có giai đoạn buông, do đó phụ âm cuối không bao giờ thực sự được phát ra Đây là một đặc điểm riêng biệt của tiếng Việt Vì vậy trên biểu đồ phổ hình ảnh của phụ âm cuối loại này là một khoảng trắng năng lượng và chúng được xếp vào cùng loại với âm đóng Trên Hình 2.5, kết thúc từ

“hạt” là khoảng trắng năng lượng và đây là âm tắc /tc/ Vai trò của âm đóng được nhận thấy bằng sự biến đổi âm sắc của âm vị /a/ đứng trước, đoạn cuối formant F2, F3 của

âm vị /a/ bị thay đổi và không còn hoàn toàn song song với trục hoành nữa

Đối với phụ âm cuối mũi, hình ảnh trên biểu đồ sóng và biểu đồ phổ tương tự như trong trường hợp các phụ âm mũi đứng ở đầu câu Các phụ âm cuối âm mũi thường mang formant F2, F3 của nguyên âm đứng trước nó nhưng với độ sáng kém hơn

Trên hình 2 chúng ta thấy hình ảnh của phụ âm cuối /tc/ trong từ “hạt”, trong đó

âm vị /tc/ xuất hiện như một khoảng trắng năng lượng giữa nguyên âm /a/ đứng trước

và phụ âm mũi /m/ đứng sau Hình ảnh của phụ âm cuối mũi /ng/ được quan sát trong Hình 2.6, trong đó hình ảnh âm vị /ng/ là một vệt sáng đậm ở tần số thấp sau nguyên

âm /oo/ Biên độ của âm vị /ng/ giảm dần cho đến khi trùng với sóng của môi trường

2.3.9 Âm tắc thanh hầu

Âm tắc thanh hầu (glottal stop) / ˀ / được liệt kê trong một số sách giáo khoa tiếng Việt như một phụ âm đầu Trong một số âm tiết có hiện tượng khép khe thanh lúc

mở đầu Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm

Trang 36

Trên biểu đồ phổ, âm tắc thành hầu được nhận biết bằng một khoảng trắng năng lượng đứng đằng trước một số từ như: “ai”, “ơi”, “ăn”, “oản”, “uống”, “oanh”, “uyên” Trên biểu đồ sóng âm tắc thanh hầu khó nhận biết do nó trùng với hình ảnh của môi trường hoặc nhiễu

Hình 2.6 Biểu đồ sóng và biểu đồ phổ của hai từ “ai sống”

Trên Hình 2.6, ta thấy hình ảnh âm tắc thanh hầu /gs/ mở đầu bằng một xung nhỏ trên biểu đồ sóng, đây là tạp âm do bộ phận cấu âm phát ra khi khe thanh khép lại Hình ảnh phổ của âm tắc thanh hầu là một khoảng trắng năng lượng giống như trường hợp của âm đóng

Trang 37

Âm đệm không xuất hiện trước các nguyên âm tròn môi /u, o, ɔ /, nó cũng chỉ xuất hiện trước các nguyên âm hàng trước Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm đi sau

Trên biểu đồ phổ, âm đệm thường có hình ảnh là các formant gắn liền với các formant của nguyên âm đứng sau nhưng không bằng phẳng Hình 2.7 cho ta thấy hình ảnh phổ của hai từ “toán” và “tán” Âm đệm /w/ có hình ảnh là các F2, F3 uốn thấp đằng trước các F2, F3 bằng phẳng của nguyên âm /a/ Trong khi đó với từ “tán” ta thấy các F2, F3 của nguyên âm /a/ không bị thay đổi hình dáng và là các vệt song song với trục hoành

2.4 GÁN NHÃN TỰ ĐỘNG

2.4.1 Giới thiệu

Mặc dù như đã trình bày ở trên, gán nhãn bằng tay tuy có độ chính xác cao hơn

so với gán nhãn tự động, việc gán nhãn bằng tay cho cả một cơ sở dữ liệu lớn sẽ là một khối lượng công việc khổng lồ và mất nhiều thời gian và tốn kém Công việc gán nhãn bằng tay đã được tính toán là cần một thời gian là từ 11ms tới 30ms với mỗi âm vị [Hosom 2000b] Ngoài việc tiêu tốn thời gian, gán nhãn bằng tay còn có nhược điểm là

có sự khác nhau đáng kể giữa những người gán nhãn do ý chủ quan của mỗi người

Do những lý do trên gán nhãn tự động là một yêu cầu tất yếu khi xây dựng một

cơ sở dữ liệu Gán nhãn tự động được thực hiện bởi một hệ thống nhận dạng được gọi

là quá trình gán nhãn cưỡng bức (force-alignment) Quá trình gán nhãn cưỡng bức tương tự như một quá trình nhận dạng Đối với quá trình nhận dạng, với dữ liệu vào là một phát âm liên tục, hệ thống phải nhận dạng ra các từ của phát âm đó Trong quá trình gán nhãn cưỡng bức, các từ của một phát âm đã được biết trước và với mỗi dữ liệu vào là một phát âm liên tục, hệ thống nhận dạng cần tìm ra các nhãn thời gian tương ứng với các âm vị của các từ đó

Trang 38

Khi nghiên cứu về gán nhãn tự động, tiến sĩ Nguyễn Thành Phúc trong luận án tiến sĩ của mình đã đề nghị phương pháp gán nhãn tự động để xây dựng cơ sở dữ liệu tiếng nói gồm các bước như sau:

- Gán nhãn một phần cơ sở dữ liệu bằng tay Dựa vào thông tin về thời gian của một phát âm, số lượng âm tiết trong phát âm đó được biết từ phiên âm chính tả của phát âm, chia đều thời gian một phát âm thành các phần đều nhau để nhận được phiên âm âm tiết với nhãn thời gian của các âm tiết Hiệu chỉnh thủ công các tệp phiên âm này Sau

đó từ các âm tiết, chia đều các âm tiết thành các âm vị tương ứng Quá trình gán nhãn kết thúc bằng hiệu chỉnh thủ công một lần nữa tệp phiên âm âm vị với nhãn thời gian Như vậy quá trình sản sinh các tệp phiên âm âm tiết và âm vị được tự động hóa Từ các tệp này tiến hành chỉnh sửa bằng tay các tệp này vị trí các nhãn thời gian

- Xây dựng hệ thống nhận dạng từ phần dữ liệu được gán nhãn bằng tay

- Dùng hệ thống nhận dạng đã được huấn luyện để gán nhãn cưỡng bức cơ sở dữ liệu còn lại

Phương pháp gán nhãn tự động trên dựa vào bộ công cụ CSLU, dùng mạng ANN, do đó quá trình huấn luyện hệ thống nhận dạng bắt buộc phải cần có sẵn các phiên âm âm vị của các phát âm Do đó phương pháp trên vẫn phải cần một giai đoạn gán nhãn thủ công một phần cơ sở dữ liệu

Sau đây là phương pháp gán nhãn tự động cơ sở dữ liệu mà không cần tệp phiên

âm âm vị Tất cả quá trình đều được thực hiện tự động Phương pháp này dùng bộ công

cụ HTK

2.4.2 Gán nhãn tự động cơ sở dữ liệu

Phương pháp gán nhãn tự động cơ sở dữ liệu bao gồm các bước sau:

Bước 1: Xây dựng hệ thống nhận dạng dựa trên cơ sở dữ liệu với tập dữ liệu huấn luyện là toàn bộ các phát âm

Trang 39

Quá trình xây dựng hệ thống nhận dạng sẽ dừng ở mức xây dựng hệ thống nhận dạng với các âm đơn Quá trình này dùng bộ công cụ HTK gồm các bước đã được miêu tả trong Chương 3 như sau:

- Lập từ điển phiên âm của hệ cơ sở dữ liệu, trong đó các từ được phiên âm thành các

âm vị

- Khởi tạo các tham số của các mô hình âm đơn bằng công cụ Hcompv

- Huấn luyện các âm đơn bằng công cụ nhúng Herest

Bước 2: Dùng hệ thống nhận dạng được xây dựng ở bước trước để gán nhãn cưỡng bức toàn bộ cơ sở dữ liệu

HTK cung cấp công cụ là Hvite vừa có thể dùng để nhận dạng vừa có thể dùng

để gán nhãn tự động Dùng công cụ này để gán nhãn tự động toàn bộ cơ sở dữ liệu với các âm đơn được huấn luyện trước đó

2.4.3 Kết quả thử nghiệm

Để tiến hành đánh giá phương pháp nhãn này, một thử nghiệm đã được tiến hành để gán nhãn một cơ sở dữ liệu Cơ sở dữ liệu được dùng bao gồm: 442 câu, 2340 từ, được trích ra từ hai cơ sở dữ liệu tiếng nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại Học Oregon, Hoa Kỳ Các câu trong cơ sở dữ liệu tiếng nói được thu âm theo hình thức phỏng vấn qua điện thoại từ 213 người nói (135 nam,

78 nữ)

Tất cả các câu trong cơ sở dữ liệu đã được gán nhãn bằng tay và các thông tin nhãn thời gian tạo bằng tay được coi là chuẩn dùng để so sánh với các nhãn thời gian tạo bằng máy

Bảng 2.2 dưới đây cho ta kết quả so sánh giữa các nhãn thời gian được tạo bằng tay và các nhãn thời gian tạo bằng máy Các nhãn thời gian tạo bằng tay có độ chính xác với đơn vị là 1ms, ngược lại do kích thước khung tín hiệu trong hệ thống nhận dạng là 10ms, nên đơn vị nhãn thời gian tạo bằng máy là 10ms Bảng 2.2 miêu tả tỷ lệ

Trang 40

trùng khớp (agreement) ranh giới của các âm vị Đơn vị đo được tính là % các ranh giới trùng khớp nhau trong khoảng cho phép là 5ms, 10ms, 15ms và 20ms

Bảng 2.2 Tỷ lệ trùng khớp các âm vị với giới hạn cho phép

lỗi cao là âm đóng, sau đó theo thứ tự thấp dần là: âm xát, âm mũi, nguyên âm và âm tắc

Bảng 2.3 Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau

Ngày đăng: 26/02/2015, 01:34

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Các hệ thống nhận dạng tiếng nói - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 1.1 Các hệ thống nhận dạng tiếng nói (Trang 5)
Hình 1.2: Khái quát về hệ thống nhận dạng - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 1.2 Khái quát về hệ thống nhận dạng (Trang 6)
Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng  nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ (Trang 7)
Hình 1.4: Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 1.4 Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói (Trang 15)
Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng của máy tính và con người - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Bảng 1.1 So sánh tỷ lệ lỗi nhận dạng của máy tính và con người (Trang 16)
Hình 2.2: Cấu trúc bậc hai của tiếng Việt - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 2.2 Cấu trúc bậc hai của tiếng Việt (Trang 22)
Bảng 2.1: Phân bố giữa nguyên âm âm chính và các âm đệm và bản nguyên âm cuối. - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Bảng 2.1 Phân bố giữa nguyên âm âm chính và các âm đệm và bản nguyên âm cuối (Trang 26)
Hình 2.4. Biểu đồ sóng và biểu đồ phổ của hai từ “tám bốn” - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 2.4. Biểu đồ sóng và biểu đồ phổ của hai từ “tám bốn” (Trang 32)
Hình 2.5. Biểu đồ sóng và biểu đồ phổ của hai từ “hạt mưa” - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 2.5. Biểu đồ sóng và biểu đồ phổ của hai từ “hạt mưa” (Trang 34)
Hình 2.7. Biểu đồ sóng và biểu đồ phổ của hai từ “toán tán” - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 2.7. Biểu đồ sóng và biểu đồ phổ của hai từ “toán tán” (Trang 36)
Hình 2.6. Biểu đồ sóng và biểu đồ phổ của hai từ “ai sống” - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Hình 2.6. Biểu đồ sóng và biểu đồ phổ của hai từ “ai sống” (Trang 36)
Bảng 2.3 miêu tả tỷ lệ lỗi các loại âm vị được gán nhãn tự động so với âm vị  gán nhãn bằng tay với các giới hạn cho phép khác nhau - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Bảng 2.3 miêu tả tỷ lệ lỗi các loại âm vị được gán nhãn tự động so với âm vị gán nhãn bằng tay với các giới hạn cho phép khác nhau (Trang 40)
Bảng 2.3. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Bảng 2.3. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau (Trang 40)
Bảng 2.6. Kết quả nhận dạng của hai hệ thống nhận dạng dùng - Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
Bảng 2.6. Kết quả nhận dạng của hai hệ thống nhận dạng dùng (Trang 42)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w