Mở đầu: Hiện nay với sự trợ giúp của các hệ thống máy tính có rất nhiều xu hớng nhằm áp dụng các mô hình ngôn ngữ trong các hệ thống sử dụng công nghệ nhận dạng tiếng nói, trong đó có th
Trang 1áp dụng thuật toán Dynamic Time wraping (dtW)
cho ứng dụng nhận dạng mẫu Tiếng Việt
ThS.Đoàn Phan Long Trung tâm Công nghệ thông tin
Tóm tắt: Tự động nhận dạng tiếng nói (Automatic Speech Recognition ASR) là một lĩnh vực nghiên cứu quan trọng để đa các ứng dụng tiếng nói vào nhiều ngành Một vấn đề liên quan cần nghiên cứu trong lĩnh vực này đợc dựa trên cơ sở lu trữ một hoặc nhiều mẫu tín hiệu cho mỗi từ cần nhận dạng Quá trình nhận dạng là quá trình thực hiện việc so sánh hai mẫu tín hiệu của cùng một âm để tím ra mẫu có sai số nhỏ nhất Bởi vì tín hiệu âm thanh đ ợc tạo ra tại các thời điểm khác nhau không bao giừo giống nhau hoàn toàn Nó luôn có sự sai lệch do các yếu tố về trọng âm, ngữ điệu, tốc độ, Vì vậy cần phải thực hiện só sánh hai mẫu theo các thuật toán biến dạng nhằm giảm thiểu sai số Thuật toán DTW (Dynamic Time Wraping)
là thuật toán hiệu quả nhất cho việc ứng dụng sao sánh hai mẫu tín hiệu có chiều dài khác nhau và cho sai số nhỏ nhất [4] Tuy nhiên việc ứng dụng DTW có nhiều hớng khác nhau và cho các kết quả khác nhau, việc lựa chọn phơng pháp áp dụng có hiệu quả đối với ngôn ngữ tiếng Việt là một vấn đề cần quan tâm
Mở đầu:
Hiện nay với sự trợ giúp của các hệ thống máy tính có rất nhiều xu hớng nhằm áp dụng các mô hình ngôn ngữ trong các hệ thống sử dụng công nghệ nhận dạng tiếng nói, trong đó có thể kể đến nh mô hình từ, âm tiết và mô hình âm vị, mô hình âm đầu+vần Việc lựa chọn các mô hình này để giải quyết các bài toán cụ thể phụ thuộc vào yêu cầu của các ứng dụng Nó quyết định đến độ phức tạp, tính bao trùm và chất lợng của hệ thống Hệ thống nhận dạng áp dụng các mô hình ngôn ngữ trên đều có thể sử dụng công nghệ nhận dạng mẫu theo từ, âm tiết, âm vị hoặc theo các âm đầu và vần Để có thể so sánh giữa tín hiệu đầu vào
và mẫu, ngời ta thờng pháp áp dụng thuật toán DTW
Thuật toán DTW đợc ứng dụng để giải quyết việc so sánh giữa hai mẫu tín hiệu có độ dài khác nhau theo thời gian Nh ta biết, kết quả của quá trình phân tích tính hiệu theo phơng pháp mã hoá dự báo tuyến tính (Linear Predictive Coding LPC) hay ngân hàng bộ lọc (Filter Bank) bao giờ cũng cho ta kết quả dạng chuỗi các véctơ đặc trng Độ dài của chuỗi véc tơ này phụ thuộc vào độ dài của của hai tín hiệu mà ta phân tích Nh vậy, quá trình so sánh hai tín hiệu sẽ tơng ứng với quá trình so sánh 2 chuỗi véc tơ đặc trng của hai tín hiệu Thuật toán DTW sẽ thực hiện việc so sánh 2 chuỗi véc tơ này theo một số luật sao cho tổng độ lệch giữa hai chuỗi là nhỏ nhất tơng ứng với đờng đi giữa các cặp véc tơ của hai chuỗi là tối u nhất Việc chọn lựa luật chọn đờng đi và giới hạn biên của các đờng đi sẽ cho ta kết quả tính toán
là nhỏ nhất và hiệu quả nhất
1 Khái quát về tiếng Việt
1.1) Các dân tộc và ngôn ngữ ở Việt Nam
Trong số 54 dân tộc ở Việt Nam thì dân tộc Việt (còn gọi là Kinh) chiếm số lợng tuyệt đối, tổng số dân lên tới trên 70 triệu ngời Dân tộc Tày có 1,2 triệu, dân tộc Thái trên 1 triệu, các dân tộc Hoa, Khơ me, Mờng, Cơ Ho, Chàm, Sán Dìu trên 900 nghìn ngời
Căn cứ vào ngôn ngữ, chữ viết ta có thể phân bố các thành phần dân tộc nh sau:
Tiếng Nôm - Khơme Gồm nhiều nhóm ngời ở Tây Bắc, Tây Nguyên, Quảng Trị vv
Tiếng Thái Gồm ngời Thái Tây Bắc, Thợng du Thanh Hóa, Nghệ An, khu Việt Bắc, Quảng Ninh Ngoài ra còn có nhóm ngời Giáy, Cao Lan, Lự vv
Tiếng Anh-đô-nê-diêng Gồm ngời Chàm, Gia rai, Ê-đê (Tây Nguyên)
Tiếng Mèo-Dao Gồm ngời Mèo Dao (Việt Bắc, Hòa Bình Thanh Hóa)
Tiếng Tạng - Miến: Gồm ngời Lô Lô (Hà Giang), Hà Nhì, La Khu, Cống, Xila (Tây Bắc)
Tiếng Hán: Ngời Hoa (Quảng Ninh), Sán Dìu (Bắc Giang, Bắc Cạn, Thái Nguyên vv )
Trang 2Tiếng Việt là ngôn ngữ cộng đồng của dân tộc Việt và cũng là công cụ giao tiếp chung cho các dân tộc sống trong nớc Việt Nam Nhiều công trình nghiên cứu theo phơng pháp lịch
sử so sánh đều đi đến kết luận các ngôn ngữ ở Việt Nam thuộc vào các họ Hán Tạng, Thái, Mèo-Dao, Nam Đảo, Nam á; riêng tiếng Việt thuộc họ tiếng Nam á Họ Nam á (austroasiatique) là một họ ngôn ngữ khá lớn bao gồm một phần ấn độ, một phần Malaysia, một phần Miến điện, phần lớn Campuchia, phần lớn Việt Nam Họ này lại phân thành nhiều nhóm: Việt-Mờng, Mông-Khmer, Khơ mú, Cơ tu, Bana, Mnông, Kađai
Họ Nam Đảo (austronesien hay malayo-polyesien) cũng là một họ lớn, với nhiều ngôn ngữ, trên một khu vực rộng bao gồm quần đảo Madagascar, Malaysia, Indonesia, Philippines, New Guinea, Taiwan và phía Nam Việt Nam Về ngôn ngữ thuộc họ này ở Việt Nam có Chàm, Raglai, Chru, Êđê, Giarai, tất cả đều thuộc nhóm Chăm
Họ Hán Tạng bao gồm tiếng Hoa và một số ngôn ngữ phía Tây nam Trung hoa và phần lớn Miến Điện Các ngôn ngữ thuộc họ này ở Việt Nam bao gồm Lô Lô, Phù Lá, Hà Nhì, La
Hủ, Cống, Si La thuộc nhóm Tạng-Miến, các tiếng Hoa, Sán Chỉ, Sán Dìu thuộc nhóm Hán
1.2) Vài nét về lịch sử phát triển của tiếng Việt
Theo một số tài liệu nghiên cứu thì tiếng Việt thời thợng cổ là thứ tiếng cha có thanh
điệu Hệ thống phụ âm đầu trong tiếng Việt có những phụ âm đơn và phụ âm kép nh bl, tl, pr,
pl Các âm cuối bị mất dần một số trong quá trình phát triển (nh âm cuối l mất đi, âm cuối r chuyển thành i), nói riêng âm h mất đi và xuất hiện dấu ngã trong tiếng Việt
Hệ thống thanh điệu đã xuất hiện dần Vào đầu công nguyên, tiếng Việt cha có thanh
điệu, đến thế kỉ VI xuất hiện ba thanh và đến thế kỉ XII mới có đủ sáu thanh nh hiện nay Sự biến đổi của âm đầu và cuối là nguyên nhân làm xuất hiện hệ thống thanh điệu trong tiếng Việt
Sự biến đổi trong hệ thống các âm đầu diễn ra tơng đối rõ hơn trong hệ thống nguyên
âm: âm vô thanh chuyển thành hữu thanh (p b, t d và k g) Các phụ âm kép kl, tl, bl, khl b, t d và k g) Các phụ âm kép kl, tl, bl, khl b, t d và k g) Các phụ âm kép kl, tl, bl, khl b, t d và k g) Các phụ âm kép kl, tl, bl, khl mất dần, làm xuất hiện các âm uốn lỡi tr và s (tlăm trăm (thế kỉ 17); blăng trăng (thế kỉ 18), b, t d và k g) Các phụ âm kép kl, tl, bl, khl b, t d và k g) Các phụ âm kép kl, tl, bl, khl khlông (thế kỉ 15) sông (thế kỉ 17), nhóm ml chuyển thành l hoặc nh b, t d và k g) Các phụ âm kép kl, tl, bl, khl (nlầm lầm, nhầm, mlẽ b, t d và k g) Các phụ âm kép kl, tl, bl, khl b, t d và k g) Các phụ âm kép kl, tl, bl, khl
lẽ, nhẽ)
Kho từ vựng tiếng Việt phong phú với những từ cơ bản có nguồn gốc Nam á và Tày Thái cổ Kho từ vựng trong quá trình phát triển còn tiếp nhận và thuần hoá cả về ngữ âm lẫn
ý nghĩa một bộ phận khá nhiều từ gốc Hán (nh đũa, đục, muôn, mũi, móc, mùa ).
Hệ thống ngữ pháp tỏ ra bền vững hơn hệ thống từ vựng, trật tự cú pháp, trật tự tổ hợp từ giữ
đặc điểm riêng của tiếng Việt
1.3) Một số đặc điểm của tiếng Việt
Tiếng Việt là loại hình ngôn ngữ đơn lập (ngôn ngữ không biến hình - amorphous) và
có thanh điệu Tiếng Việt là tiếng đơn âm có ranh giới cố định, mang thanh điệu, có cấu trúc
đơn giản, thanh điệu và có âm tiết trùng với hình vị, đơn vị nhỏ nhất có tổ chức mang ý nghĩa ngữ pháp Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-ấn, tiếng Việt có số lợng âm tiết hữu hạn với 17.000 vỏ ngữ âm và 6.900 âm tiết tồn tại thực [3]
Âm tiết, hình vị trong tiếng Việt là cố định, không biến đổi hình thái theo ngữ pháp
và thời, giống và số nh các ngôn ngữ khác Từ thờng có hai loại là đơn tiết và đa tiết Một phần rất lớn từ đa tiết là Hán Việt (kể cả từ mới) Trong các từ đa tiết th ờng có dạng láy âm hoặc ghép các từ đơn tiết Âm tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố
định trong thành phần âm tiết
Tiếng Việt là ngôn ngữ có thanh điệu, tiếng Việt có 6 thanh (tiếng Thái, Lào có 5 thanh, tiếng Hán 4 thanh, tiếng Miến Điện 3 thanh, Trung Quốc có 4 thanh) là ngang (không dấu), huyền, ngã, hỏi, sắc và nặng Mỗi thanh đều có thể tham gia vào việc cấu tạo từ và tạo nghĩa cho từ Thanh điệu tiếng Việt có tính nhạc, câu văn có vần, nhịp điệu, trầm bổng nhịp nhàng Mỗi âm tiết đều mang một thanh điệu nhất định Thanh điệu kết hợp với thành phần của âm tiết tạo thành các từ khác nhau, ví dụ nh /ma, mà, má, mả, mã, mạ/ Trong tiếng Việt không phải vần nào cũng phát âm đợc đủ sáu thanh Đối với âm tiết đóng chỉ có hai thanh là sắc và nặng
Âm tiết tiếng Việt ở dạng đầy đủ bao gồm 3 thành phần có mức độ độc lập khác nhau
là âm đầu (phụ âm), phần vần và thanh điệu Với phần vần bao gồm 3 thành phần là âm đệm
Trang 3(bán nguyên âm), âm chính (nguyên âm đơn hoặc nguyên âm đôi) và âm cuối (phụ âm đơn hoặc bán nguyên âm) Trong đó nguyên âm và thanh điệu là hạt nhân của âm tiết Trừ phụ
âm đầu, phần còn lại của âm tiết tiếng Việt đợc gọi là vần Tiếng Việt có 512 vần (Theo thống kê trong một số tài liệu của GS Hoàng Phê) Vần và thanh tạo nên sự hài hoà về ngữ
âm và ngữ nghĩa trong các từ tợng hình, tợng thanh
Từ song tiết chiếm phần khá lớn trong tổng số từ Từ ghép đa tiết chia ra thành các loại từ ghép nghĩa, từ láy, từ ghép tự do, các từ vay mợn nớc ngoài Vốn từ vựng tiếng Việt bao gồm các từ, các thành ngữ, thuật ngữ Một bộ phận từ tiếng Việt có gốc Hán
Phơng tiện biểu hiện ý nghĩa ngữ pháp trong tiếng Việt là trật tự các thành tố (từ và câu), ngữ điệu, dạng láy, ngữ cảnh Từ và cụm từ là các đơn vị cấu tạo nên câu
Ngôn ngữ nói và ngôn ngữ viết không cách xa nhau về qui tắc ngữ âm, ngữ pháp
1.4) Mối quan hệ giữa chữ cái, thanh và âm tiết, từ
- Chỉ các nguyên âm mới có quyền mang dấu thanh trong biểu diễn âm tiết hay từ
- Mỗi nguyên âm có thể đợc mang nhiều nhất là một trong các dấu thanh trên
- Các dấu thanh: huyền, hỏi, ngã, sắc đợc đặt ở phía trên của nguyên âm mang dấu Dấu nặng đợc đặt ở phía dới nguyên âm mang dấu
- Các âm tiết chữ Việt đợc tạo ra trên cơ sở biểu diễn hình ảnh cho các âm phát ra có mang thanh điệu Mỗi âm tiết đều đợc biểu diễn bằng việc viết liền các chữ cái mô tả cho
âm tiết đó và đợc mang nhiều nhất là một thanh, đặt trên một nguyên âm Các âm tiết tách lẫn nhau bằng dấu cách
- Thanh là thuộc tính của âm tiết, không phải là thuộc tính của nguyên âm Thanh đợc
đặt vào vị trí của nguyên âm để phân biệt trong cách phát âm
- Một từ trong tiếng Việt là một đơn vị ngữ nghĩa, mang một ý nghĩa nào đó, và bao gồm một hai, ba hay nhiều âm tiết
- Dựa trên cách biểu diễn chữ Việt theo chữ cái và thanh này, có thể nêu ra đ ợc các tập sinh khác cho chữ Việt, nh:
Tập sinh dới dạng tổ hợp của các phụ âm đầu và vần theo sau
Tập sinh với 33 chữ cái và 5 thanh
Tập sinh với các phụ âm đầu và khoảng 800 vần
- Mặc dầu cách biểu diễn theo phụ âm và vần có thể có một số ích lợi trong xử lí nhng ích lợi đó khó bù đợc cho những bất lợi mà nó đem lại nh:
Với đặc thù phát âm của tiếng Việt khó biểu diễn những tình huống có chen lẫn tiếng Việt và không phải tiếng Việt
Việc làm này đi ngợc với xu thế hoà đồng các ngôn ngữ trên thế giới, do đó khó khăn cho việc tiếp thu những tiến bộ công nghệ mới
1.5) Chữ viết
Theo các tài liệu lịch sử Đại Việt sử lợc, An nam chí nguyên, Việt sử thông giám tổng luận thì đều có chép thời Hùng vơng "chính sự dùng lối kết nút." Tuy nhiên cha có tài liệu nào cho biết rõ hơn về việc khi nào có chữ viết đợc bắt đầu dùng ở Việt Nam Việc sử dụng chữ Hán
đi kèm với việc văn hoá Trung quốc lan xuống phía Nam đến cùng với việc chinh phục và thôn tính đất đai của các triều đại phong kiến Trung quốc
1.6) Cấu trúc âm tiết trong tiếng Việt
Nh đã nêu trên, Âm tiết của tiếng việt ở dạng đầy đủ đợc tạo bởi 5 thành phần là phụ âm
đầu, âm đệm (bán nguyên âm), âm chính (nguyên âm đơn hoặc nguyên âm đôi) và âm cuối (phụ âm đơn hoặc bán nguyên âm) và thanh điệu Về cấu trúc, âm tiết tiếng Việt
có cấu trúc hai bậc Bậc một gồm ba thành phần là thanh điệu, phụ âm đầu và vần Bậc hai là các thành tố của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ âm hoặc bán nguyên âm cuối Các thành phần âm tiết đợc thể hiện ở hình 1
Thanh điệu
Âm đệm Âm chính Âm cuối
Trang 4Hình 1: Sơ đồ âm tiết tiếng Việt
1.6.1) Âm đầu
Phụ âm mở đầu âm tiết gồm có 22 vần Các phụ âm đầu đợc phân biệt theo các tiêu chí về phơng thức cấu âm (tắc, xát), về thanh tính (vang, ồn) phụ âm vang đợc phân biệt giữa phụ âm mũi và phụ âm bên (phụ âm không mũi) Trong phụ âm ồn đợc chia thành loại
âm vô thanh và âm hữu thanh Nh vậy phân theo lớp ngữ âm rông ta có thể chia phụ âm đầu tiếng Việt thành bảy loại theo hình 2 dới đây
ồn
Không bật hơi (p), t, tr, ch, k, c
Vang
Hình 2: Phân loại phụ âm đầu
1.6.2) Phần vần
Phần vần có 3 thành phần là âm đệm, âm chính và âm cuối Ví dụ âm tiết /toán/ có phần vần
là oan, trong đó âm vị âm đệm là /o/, âm chính là /a/ và âm cuối là /n/
- Âm đệm đóng vai trò làm biến đổi âm sắc của âm tiết nhng nó không tạo nên đỉnh của
âm tiết Âm đệm đợc viết bằng chữ cái /o/ khi đứng trớc 3 nguyên âm /e/, /a/, /ă/ và bằng chữ cái /u/ trong các trờng hợp còn lại Nếu đứng sau phụ âm đầu /k/ thì chỉ đợc viết là /u/
và /k/ đợc viết là /q/
- Âm chính là một âm trong hệ thống nguyên âm gồm 11 nguyên âm đơn là /a/, /ă/, /â/,
/e/, /ê/, /o/, /ô/, /ơ/, /u/, //, /i/ và 3 nguyên âm đôi là /iê/, /ơ/, /a/ Âm chính là yếu tố tạo nên đỉnh âm tiết, có biên độ và cờng độ lớn nhất trong các thành phần âm tiết
- Âm cuối là âm kết thúc âm tiết Nó biến đổi âm sắc của âm chính do tác động tác khép
lại của bộ máy phát âm Hệ thống âm cuối trong tiếng Việt gồm hai bán nguyên âm là /i/
và /o/ và sáu phụ âm Các phụ âm này là /m/, /n/, /ng (nh)/, /p/, /t/, /c/
1.6.3) Thanh điệu
Thanh điệu là loại âm vị siêu đoạn tính, nó đợc biểu hiện trong tiàn bộ phần hữu thanh của
âm tiết ở mức vật lý, phần thanh của thanh điệu chính là đờng nét của tần số âm cơ bản F0
Về cảm thụ, thanh điệu là sự cảm nhận về độ thay đổi cao độ tần số cơ bản F0 của âm tiết Sáu thanh điệu trong tiếng Việt đợc chia thành hai nhóm lớn là bằng và trắc Thanh không dấu và thanh huyền thuộc loại thanh bằng có đờng nét tơng đối đơn giản Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đờng nét thanh điệu phức tạp Các thanh ngang, sắc, ngã thuộc âm vực cao còn các âm huyền, hỏi và nặng thuộc âm vực thấp
Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trng phi điệu tính nh hiện tợng yết hầu hoá, thanh hầu hoá tạo thành các hệ thống các đặc trng phụ để phân biệt các thanh
điệu đặc biệt của thanh ngã và sắc, thanh hỏi và thanh nặng
1.6.4) Loại âm tiết
Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt đợc chia thành 4 loại nh sau:
Âm tiết mở: Là loại âm tiết không có âm cuối, kết thúc âm tiết bằng nguyên âm chính, ví dụ cha, mẹ
Âm tiết nửa mở: Khi âm cuối kết thúc âm tiết là một bán nguyên âm, ví dụ mai, sau
Âm tiết nửa đóng: Khi âm cuối là một phụ âm mũi /n/, /m/, /ng/, /nh/, ví dụ làm, ngành, mông
Trang 5 Âm tiết đóng: Khi âm cuối là một phụ âm tắc vô thanh /p/, /t/, /c/, ví dụ: tập, học, mệt
2 Đơn vị nhận dạng cơ bản cho các hệ thống nhận dạng lời Việt
2.1 Mô hình từ và âm tiết
Việc lựa chọn từ làm đơn vị nhận dạng là phơng pháp thông thờng và dễ dàng nhất,
nó bao trùm đợc tính biến thể âm vị Đối với một số ứng dụng nhận dạng tiếng nói cần số từ không lớn nh hệ thống điều khiển học, đếm số có thể áp dụng tốt mô hình từ để nhận dạng
do dễ dàng thu thập đủ số mẫu huấn luyện cho mỗi từ Xem hình 3 dới đây
Trong tất cả các ngôn ngữ, từ là đơn vị tự nhiên nhỏ nhất của tiếng nói và từ là mục tiêu của các hệ thống nhận dạng tiếng nói Tiếng Việt là ngôn ngữ đơn âm tiết Trong tiếng Việt, âm tiết là những đơn vị âm thanh nhỏ nhất và nh vậy âm tiết là mục tiêu của các hệ thống nhận dạng lời Việt Do vậy nó có thể đợc lựa chọn làm đơn vị nhận dạng tiếng nói cho các ứng dụng nhận dạng lời Việt Tuy nhiên, do trong tiếng Việt, số lợng âm tiết rất lớn trên 10.000 âm tiết nên rất khó có thể áp dụng cho các hệ thống nhận dạng tiếng việt cỡ lớn do việc thu thập mẫu tiếng nói cần thiết cho các âm tiết sẽ gặp nhiều khó khăn do só lợng mẫu quá lớn và thời gian xử lý so sánh, lựa chọn mẫu trong cơ sở dữ liệu lâu Ngoài ra , mỗi mẫu huấn luyện của một âm tiết chỉ có thể sử dụng để huấn luyện và so sánh lựa chọn cho chính
âm tiết đó chứ không thể sử dụng chung để huấn luyện và lựa chọn cho các âm tiết khác Xong bù lại, phơng pháp này có nhiều đơn giản do không cần phải sử dụng một số các phơng pháp để phân đoạn và gán nhãn
Hình 1.1 Số từ trong các ứng dụng cụ thể
Hình 3 Vốn từ trung bình theo các ứng dụng
2.2 Mô hình âm vị
Nhằm giảm bớt số lợng mẫu huấn luyện, nhận dạng và để sử dụng chung các mẫu này, mô hình âm vị thờng đợc sử dụng làm đơn vị nhận dạng cơ bản cho các hệ thống nhận dạng tiếng nói Trong tiếng Việt chỉ có 38 âm vị trong đó có 22 phụ âm và 16 nguyên âm đơn và
đôi [1], khi kết hợp với thanh điệu (huyền, hỏi, ngã, sắc, nặng, không dấu) thì tổng cộng có
228 âm vị có thanh điệu Với số lợng âm vị hạn chế nh vậy, hoàn toàn có thể xây dựng một mô hình nhận dạng tiếng Việt với từ điển cỡ lớn không hạn chế với khoảng 1.500 - 2000 câu huấn luyện Một đặc điểm nữa là các từ trong tiếng Việt có số lợng âm vị rất ít, nhiều nhất cũng chỉ tới 6 âm vị (ví dụ khuếch trơng) Tuy nhiên, mô hình âm vị có một số nhợc điểm chính:
- Các âm vị nh nhau ở các vị trí khác nhau không hẳn đã có đặc tính âm học, ngữ âm học nh nhau Một số âm vị vừa đóng vai trò âm chính, vừa đóng vai trò âm phụ
- Âm vị là đơn vị âm nhỏ nhất của một từ, việc xác định gianh giới của các âm vị rất khó, do đó việc phân đoạn và gán nhãn chính xác ở mức âm vị rất khó khăn nhng lại rất quan trọng và ảnh hởng nhiều đến chất lợng của hệ thống
2.3 Âm đầu +Vần
Tiếng Việt thông th ờng 300.000 Máy viết chính tả 20.000 - 50.000 Nói chuyện hàng ngày 8.000 - 20.000 Hội thoại cung cấp thông tin 500-2000
Điều khiển, vận hành máy móc 20-200
Đếm, số 10 + x
Điều khiển học (có/không) 2
Đồng hồ báo thức 1
Trang 6Tiếng Việt là ngôn ngữ đơn âm tiết Âm tiết tuy đợc phát âm liền nhng lại có cấu tạo lắp ghép và hầu nh theo một quy luật nhất định Điều này dễ thấy ở các em bé học đánh vần trong năm đầu đi học Mỗi từ trong tiếng Việt có 3 bộ phận chính là thanh điệu, âm đầu và vần Âm đầu có một âm vị tham gia cấu tạo, vần đợc cấu tạo bới âm đệm, âm chính và âm cuối Theo [4] thì trong tiếng Việt có 22 âm đầu và 155 vần Kết hợp với thanh điệu thì tổng
số âm đầu+vần có thanh điệu nhỏ hơn (22+155)*6=1062 vì có nhiều âm đầu, vần và thanh
điệu không kết hợp đợc với nhau Mô hình âm đầu+vần cho phép giảm bớt nhiều khó khăn cho việc phân đoạn, gán nhãn trong quá trình lập cơ sở dữ liệu và giảm bớt yêu cầu tính toán của máy khi phải phân đoạn từ thu nhận từ Micro
3 Vấn đề nhận dạng mẫu
Trong các phơng pháp nhận dạng mẫu, ngời ta thờng hay sử dụng nhận dạng mẫu cho các từ đơn lẻ Hệ thống khá đơn giản do không phải qua các công đoạn phân đoạn và gán nhãn Nh trên đã trình bày, phơng pháp này thờng chỉ áp dụng cho các hệ thống nhận dạng với th viện từ hạn chế Ta có thể áp dụng nhận dạng mẫu cho mô hình nhận dạng theo âm vị, hoặc âm đầu+vần Với phơng pháp này, các từ đợc phân đoạn, gán nhãn và tính toán các đặc tính Âm thanh thu đợc cũng sẽ đợc phân đoạn và so sánh với th viện mẫu và quyết định lựa chọn mẫu có đặc tính giống đoạn âm thu đợc nhất (hình 4) Do âm thanh đợc tạo ra tại các thời điểm khác nhau luôn có sự sai khác bởi các yếu tố trọng âm, ngữ điệu, tốc độ Do vậy
âm thanh thu đợc cần đợc so sánh với âm mẫu với thuật toán biến dạng DTW nhằm giảm thiểu sai số
Hình 4: Nhận dạng theo phơng pháp so sánh mẫu
4 Thuật toán Dynamic Time Wraping (DTW)
Cho chuỗi âm tiết đầu vào ww1,w2, w Lcó độ dài L và có chuỗi vector đặc tính
X 1, 2, , nhiệm vụ của hệ thống là phải nhận dạng xem chuỗi âm đầu vào là các
ký tự gì và trong quá trình xử lý cần phải giảm thiểu tối đa các sai số quyết định Mỗi tín hiệu
âm tiết đầu vào Wl sẽ đợc so sánh với các mẫu Yl Mỗi Yl là chuỗi các vector đặc tính của tín hiệu âm tiết Wl Nhằm tăng khả năng nhận dạng, mỗi âm tiết có một tập hợp các mẫu khác nhau: Y l,1, ,Y l,M l Quá trình quyết định âm tiết phù hợp với một mẫu dựa theo nguyên tắc sau:
) , ( min min
*
m l m
l
Y X D
l
Nh vậy âm tiết Wl* là âm tiết phù hợp nhất với mẫu Yl tìm đợc
Khoảng cách D(X,Y) giữa dữ liệu đầu vào và dữ liệu mẫu Y=y1….ys có độ dài thời gian khác nhau S T đợc xác định bằng tổng các khoảng cách cục bộ d ij d(x i,y j)trên cả đờng đi của quá trình biến dạng thời gian Khoảng cách tích luỹ D ij D(x1 x i,y1 y j)đợc xác
định theo công thức
D 1 , 1 , 1 , , , 1
min 0
I=J=0 I>0, J>0 Khác
Phân đoạn Gán nhãn
Đặc tính
Tính toán độ sai số D(X,Yl)
Wl*
Mẫu so sánh
Y1, , Yl
X Tín hiệu
âm thanh
vào
Trang 7Và khoảng cách tổng D(X,Y)=DTS
Giả sử cho hai chuỗi vec tơ tơng ứng với mẫu tín hiệu là a a1,a2,a3, a I
và
b b b b J
b 1, 2, 3,
Cho rằng tín hiệu mẫu
a có chiều dài lớn hơn mẫu b tức là giá trị (I
> J) Thuật toán sẽ thực hiện việc tìm đờng đi tối u của chuỗi b theo chuỗi a (tức là các vị trí
khác nhau giữa hai chuỗi theo thời gian) sao cho tổng chênh lệch giữa hai chuỗi vec tơ là nhỏ nhất
Để thực hiện đợc điều này thuật toán dùng ma trận lới các điểm hình 5
Hình 1: Lới ma trận Hình 5: Ma trận lới các điểm Hai chuỗi véc tơ sẽ tơng ứng với hai cạnh của ma trận Giả sử , véc tơ a theo trục x và véc tơ b theo trục y Các nút của ma trận tơng ứng với khoảng cách tính đợc của hai chuỗi véc tơ tại các thời điểm thứ i của véc tơ a tơng ứng thời điểm thứ j của véc tơ b tơng ứng nút
(i,j) Nh vậy, đờng đi tối u trong ma trận sẽ có dạng nh hình 6.
Việc xác định đờng đi tối u trong ma trận lới đợc thực hiện sao tổng khoảng cách sai lệch
giữa các cặp véc tơ của hai chuỗi là nhỏ nhất Ký hiệu, d(i,j) là độ chênh lệch của hai véc tơ a
và b tại thời điểm i và j tơng ứng
Yêu cầu của thuật toán DTW cho hai chuỗi vec tơ bất kỳ là cùng bắt đầu tại các vị trí (0,0) và kết thúc tại vị trí (I,J) Giá trị tại nút (0,0) xác định bằng 0.
Đờng đi đợc xác định theo các cặp nút liên tiếp (i k-1 ,j k-1 ) (i k ,j k ) Dùng ký hiệu i k để biểu
diễn chỉ số của véc tơ a tại thời điểm k và j k là chỉ số của véc tơ b tại thời điểm k Nh vậy
tổng khoảng cách giữa hai chuỗi véc tơ là :
) , ( ) , ( ) , (i k j k D i k 1 j k 1 d i k j k
Việc tìm giá trị min D(i,j) theo công thức sau:
* ( , ) min ( 1, 1) ( , )
k k k
k k
i
k m m
m
i d
0
) , ( min
Một số bắt buộc của DTW:
Hình 6: Hình dạng đ ờng đi trong ma trận
Trang 8- Chỉ số của i phải tăng đều tức là : i k - i k-1 =1
- Chỉ số của j tăng theo i với điều kiện: j k -j k-1 0
Giới hạn của đờng đi không thể tuỳ ý đợc vì nh thế nó sẽ gây ra kết quả sai lệch và làm tăng khối lợng tính toán (nếu xét trên toàn bộ ma trận điểm) Vì vậy, cần phải giới hạn phạm vi của đờng đi sao cho việc tính toán giảm và độ chính xác cao Phạm vi cho đờng đi đợc chọn
nh hình vẽ 7:
Hình 3: Đờng đi trong ma trận theo thuật toán DTW
Hình 7: Phạm vi cho đờng đi Luật đờng đi đợc lựa chọn theo nh hình 8 :
Hình 8: Luật đờng đi Giả sử vị trí hiện tại đang ở thời điểm ik-1 và điểm đi tiếp là ik Nh vậy các giá trị jk có thể là
jk, jk+1, jk+2 tơng ứng với các mũi tên trên ma trận
Kết quả:
Kết quả đợc so sánh với phơng pháp biến dạng khác là biến dạng tuyến tính theo thời gian hay còn gọi là đồng bộ theo thời gian với thuật toán biến dạng nh sau:
Chỉ số theo thời gian của tín hiệu b liên quan đến chỉ số theo thời gian của tín hiệu a là : i
I
J
j và kết quả cho nh trên hình 8
Trên hình vẽ thể hiện đờng đặc trng của âm số 2 (“hai”) có độ dài khác nhau (a) và (b) Với phơng pháp biến dạng tuyến tính thì giá trị thời gian chỉ số mẫu b đợc giãn đều theo chỉ
số thời gian của mẫu tín hiệu a Nh vậy, hai khoảng thời gian đợc kéo dãn bằng nhau song
các giá trị thì vẫn còn độ sai lệch lớn do tỷ lệ biến dạng là đều mà không có sự chọn lựa theo
giá trị hình (c) Thể hiện việc kéo giãn tại các điểm có đờng nối ngang giữa hai tín hiệu.
Trang 9Còn sử dụng thuật toán DTW ta thấy tỷ lệ biến dạng không đồng đều tại các thời điểm tuỳ thuộc vào giá trị tích luỹ từ trớc nên hai mẫu so sánh sẽ có độ chênh lệch là nhỏ nhất hình (d),
các đờng nối chéo thể hiện sự biến dạng không tuyến tính theo thời gian.
5 Kết luận
Trên đây là ứng dụng của thuật toán DTW cho hệ thống nhận dạng tiếng nói đang đợc nghiên cứu và triển khai ứng dụng luật đờng đi và cách xác định đờng giới hạn cho thuật toán DTW đã góp phần nâng cao chất lợng của bộ nhận dạng Tuy nhiên, luật đờng đi và giới hạn của đờng đi còn có thể có nhiều dạng khác cần nghiên cứu thêm, song với ứng dụng nhận dạng mẫu rời rạc thì luật đờng đi xác định theo phơng pháp trên là có chất lợng hơn cả
Tài liệu tham khảo
[1] Đoàn Thiện Thuật - Ngữ âm tiếng Việt, Nhà xuất bản Đại học và Trung học chuyên nghiệp, Hà nội 1977
[2] H.Sakoe and S.Chiba - Dynamic programming optimization for spoken word recognition 1978
[3] Hoang Tue and Hoang Minh, “Remarks on the phonological Structure of vietnamese”, Vietnamese Studies, Ha noi, 1979
[4] Lawrence Rabiner, Biing – Hwang Juang; Fundamentals of speech recognition 1999 [5] R M Gray, A Buzo, A.H.Gray, Jr., and Y Matsuyama - Distortion measures for speech processing 1980
Sơ lợc tác giả
Đoàn Phan Long, Tốt nghiệp Đại học tại trờng đại học tổng hợp Karl-Marx-Stadt –CHLB
Đức tại Thành phố Chemnitz khoa tự động hoá, chuyên ngành điều khiển học năm 1985,
Hình 8 Biểu diễn thuật toán biến dạng âm “hai”
(a)(b) Hai tín hiệu có chiều dài khác nhau.
(c) Biến dạng tuyến tính theo thời gian (d) Biến dạng DTW
(d) (c)
Trang 10hiện nay công tác tại Trung tâm Công nghệ Thông tin – CDIT, Học viện Công nghệ Bu chính Viễn thông – Tổng Công ty BCVT Việt nam Những vấn đề đang quan tâm bao trùm các lĩnh vực tự động nhận dạng tiếng nói, hình ảnh và tổng hợp tiếng nói áp dụng trong các
hệ thống cung cấp dịch vụ trong ngành Bu chính-Viễn thông