Đã có nhiều hệ thống tổng hợp tiếng nói nhằm đáp ứng những ứng dụng thiết thực trong xã hội, cụ thể như ứng dụng đọc văn bản trên một màn hình, hay trong một cơ sở dữ liệu trong khi tham
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học: TS NINH KHÁNH DUY
Phản biện 1: TS PHẠM MINH TUẤN
Phản biện 2: PGS.TS TRẦN CAO ĐỆ
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật, chuyên ngành Khoa học máy tính họp
tại Trường Đại học Trà Vinh vào ngày 16 tháng 9 năm 2017
Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học
Bách khoa
- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách
khoa - Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Chuyển văn bản thành tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan Đã có nhiều hệ thống tổng hợp tiếng nói nhằm đáp ứng những ứng dụng thiết thực trong xã hội, cụ thể như ứng dụng đọc văn bản trên một màn hình, hay trong một cơ sở
dữ liệu trong khi tham gia giao thông cho người khiếm thị,… Tuy nhiên, với sự phát triển của xã hội ngày nay thì trên các phương tiện thông tin, phương tiện truyền thông, mạng xã hội,… Chúng ta thường hay bắt gặp những từ có nguồn gốc từ tiếng Anh xuất hiện với tần suất ngày càng nhiều trên các biển báo giao thông, bảng hướng dẫn đường và các văn bản tiếng Việt khác,… Trong thời đại hội nhập quốc tế như hiện nay thì xu thế đó là không tránh khỏi Tuy nhiên, việc xuất hiện những từ tiếng Anh này cũng gây khó khăn cho các công nghệ nghiên cứu xử lý ngôn ngữ tự nhiên, xử lý văn bản và
xử lý tiếng nói ví dụ như hệ thống chuyển văn bản thành tiếng nói,
hệ thống nhận diện tiếng nói,… Trong một hệ chuyển văn bản tiếng Việt thành tiếng nói, các từ viết bằng tiếng nước ngoài cần được Việt hóa cách phát âm để máy tính có thể chuyển thành tiếng nói của người Việt Trong một hệ nhận dạng tiếng nói không giới hạn từ vựng dành cho người Việt, các từ không nằm trong tập từ vựng của
hệ (out-of-vocabulary words) cần được Việt hóa cách phát âm để máy tính có thể giải mã đoạn tín hiệu âm thanh của từ đó
Vì vậy, tôi đã tiến hành nghiên cứu để tìm “Giải pháp phiên
âm từ vựng tiếng Anh trong văn bản tiếng Việt” Xây dựng công
cụ phiên âm một từ vựng tiếng Anh bất kỳ thành từ tiếng Việt, hay nói cánh khác là Việt hóa cách phát âm các từ vựng tiếng Anh trong văn bản tiếng Việt
Trang 42 Mục đích và ý nghĩa đề tài
2.1 Mục đích
Mục đích nghiên cứu của đề tài:
- Nghiên cứu và đề xuất giải pháp phiên âm từ vựng tiếng Anh trong văn bản tiếng Việt
- Tích hợp giải pháp đề xuất vào một hệ thống phiên âm một
từ vựng tiếng Anh bất kỳ thành một từ tiếng Việt
2.2 Ý nghĩa khoa học và thực tiễn của đề tài
Đóng góp về mặt phương pháp luận và thực nghiệm vào lĩnh vực chuẩn hóa văn bản, một nhánh nghiên cứu của xử lý ngôn ngữ tự nhiên
Công cụ này sẽ Việt hóa các từ vựng tiếng Anh nên khi tích hợp vào hệ thống chuyển văn bản tiếng Việt thành tiếng nói trên máy tính sẽ giúp cho hệ thống này phát huy được hiệu quả hơn
3 Mục tiêu và nhiệm vụ
3.1 Mục tiêu
- Nghiên cứu, so sánh và đối chiếu một số vấn đề trọng tâm về ngữ âm của tiếng Anh và tiếng Việt
- Nghiên cứu, tổng hợp bộ âm vị tiếng Anh, tiếng Việt
- Nghiên cứu và xây dựng thuật toán tổng quát để ánh xạ từ
âm vị tiếng Anh trong từ điển CMU thành âm vị tiếng Việt
3.2 Nhiệm vụ
Để đạt được mục tiêu đề tài thì nhiệm vụ cần thiết phải làm là:
- Tổng hợp các tài liệu về ngữ âm của tiếng Anh, tiếng Việt
- Thống kê bảng âm vị tiếng Anh, tiếng Việt
- Từ những đặc điểm về ngữ âm tiếng Anh, tiếng Việt đề xuất thuật toán tách nguyên âm, thêm phụ âm đầu, thêm phụ âm cuối, bổ sung nguyên âm,…
Trang 5- Xây dựng ánh xạ âm vị tiếng Anh thành âm vị tiếng Việt
- Hệ thống các thuật toán tách nguyên âm, thêm phụ âm đầu, thêm phụ âm cuối, bổ sung nguyên âm,… thành một thuật toán tổng quát
- Cài đặt thuật toán và thực nghiệm với một số từ vựng xuất hiện nhiều trên các trang báo điện tử
- Dựa trên kết quả thực nghiệm để đánh giá kết quả của đề tài
4 Đối tượng và phạm vi nghiên cứu
- Các từ vựng tiếng Anh trong văn bản tiếng Việt
- Giải pháp phiên âm từ vựng tiếng Anh thành cách phát âm tiếng Việt
5 Phương pháp nghiên cứu
- Tìm, nghiên cứu và khai thác các công cụ phần mềm hỗ trợ
- Kiểm tra, thực nghiệm, nhận xét và đánh giá kết quả
Trang 6Chương 1 TỔNG QUAN
1.1 GIỚI THIỆU
Chuẩn hóa văn bản đóng vai trò quan trọng trong hệ thống tổng hợp văn bản thành tiếng nói Đã có nhiều nghiên cứu về vấn đề này trong những năm gần đây, nhưng chúng ta vẫn còn nhiều vấn đề cần phải giải quyết Chuẩn hóa văn bản là một quá trình quyết định xem làm thế nào có thể đọc được những từ không chuẩn chẳng hạn như Nato, Facebook,… Quá trình này sẽ quyết định chất lượng của một hệ thống tổng hợp tiếng nói Tuy nhiên, nhiều hệ thống tổng hợp tiếng nói chỉ chú trọng vào việc làm thế nào để tạo ra được âm thanh nhân tạo Như một kết quả tất yếu, họ giả sử rằng những văn bản đầu vào luôn luôn ở dạng có thể phát âm được Tuy nhiên, những văn bản thực tế thì lại không phải lúc nào cũng bao gồm toàn những từ ở dạng chuẩn có thể phát âm chính xác Ví dụ, chúng có thể là những
số liệu, những chữ viết tắt (như GD viết tắt cho “Giáo dục”), những cấu trúc biểu diễn thời gian (như 12h30), tên nước ngoài và tên địa danh (như New York), những chữ số La Mã, … Ở Việt Nam, đã có nhiều hệ thống tổng hợp tiếng nói đã đạt được nhiều kết quả như SAOMAI, HOASUNG, VOICE OF SOUTHERN, VieTalk, … nhưng hầu hết các hệ thống này vẫn chưa dành đủ sự quan tâm cho chuẩn hóa văn bản Những hệ thống này không thể đọc được những
từ không chuẩn, hoặc nếu đọc được thì chỉ đọc bằng một cách rất đơn sơ mà hoàn toàn sai Vì vậy, trong nghiên cứu này nhằm đưa ra giải pháp góp phần vào việc chuẩn hóa văn bản bằng xây dựng công
cụ phiên âm một từ vựng tiếng Anh bất kỳ thành một từ tiếng Việt Công cụ này rất hữu ích nếu được tích hợp vào một hệ thống chuyển văn bản thành tiếng nói tiếng Việt
Trang 7Trong quá trình nghiên cứu và xây dựng công cụ đã sử dụng
sự hỗ trợ từ một số công cụ như bộ từ điển CMU, công cụ t2p,…và căn cứ theo Bảng ký hiệu ngữ âm quốc tế IPA Với cách tiếp cận bằng việc nghiên cứu sự tương đồng về phát âm và ngữ âm giữa tiếng Anh và tiếng Việt cùng với các quy tắc ghép âm, thanh điệu, triển khai thuật toán tách chuỗi âm vị tiếng Anh thành âm tiết phát
âm được bằng tiếng Việt và ánh xạ một âm vị tiếng Anh trong CMU thành một âm vị tiếng Việt trong IPA Từ đó áp dụng các kỹ năng và
kỹ thuật lập trình để xây dựng thành công chương trình Việt hóa cách phát âm các từ vựng tiếng Anh trong các văn bản tiếng Việt Luận văn gồm có 03 phần chính trình bày quá trình nghiên cứu gồm những nội dung như giới thiệu ngữ âm tiếng Anh và tiếng Việt; dựa trên cơ sở sự tương đồng về phát âm, ngữ âm giữa tiếng Anh và tiếng Việt lập bảng Arpabet; trình bày và phân tích thuật toán tổng quát, thuật toán cơ bản về tìm biên nguyên âm, thêm phụ âm đầu,…; môi trường thực nghiệm và đánh giá; kết luận và hướng phát triển cho nghiên cứu
1.2 MỘT SỐ ĐỊNH NGHĨA VÀ THUẬT NGỮ
1.2.1 Arpabet
Arpabet là hệ thống mã sao chép âm vị phát triển bởi cơ quan Advanced Research Projects Agency (ARPA) như là một phần của
Dự án Thông hiểu tiếng nói (Speech Understanding Project) [3]
1.2.2 International Phonetic Alphabet
International Phonetic Alphabet (IPA) là một sản phẩm của International Phonetic Association (Hiệp hội Ngữ âm quốc tế) Mục đích của IPA là ghi lại và sắp xếp âm trong các ngôn ngữ trên thế giới dựa vào những quy tắc ngữ âm khớp nối (articulatory phonetics principles) [2]
Trang 8b Nguyên lý hoạt động
t2p sử dụng từ điển CMU và xây dựng Cây quyết định (Decision Tree) để tạo mô hình cho các từ Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules) Về bản chất thì giống như câu lệnh “if then else”
Trang 9Chương 2 NGỮ ÂM VÀ ÂM VỊ HỌC CỦA TIẾNG ANH VÀ
TIẾNG VIỆT
2.1 MỞ ĐẦU
Để tìm ra được giải pháp phiên âm từ vựng tiếng Anh trong văn bản tiếng Việt thì một trong những cơ sở lý thuyết quan trọng là nghiên cứu, phân tích về hệ thống ngữ âm, âm vị của tiếng Anh và tiếng Việt Từ đó, cho thấy giữa tiếng Anh và tiếng Việt có những điểm tương đồng về ngữ âm và âm vị Tuy nhiên, song song với những điểm tương đồng thì luôn tồn tại sự khác biệt giữa chúng như tiếng Anh có những âm vị mà không xuất hiện trong tiếng Việt và điều này cũng diễn ra theo hướng ngược lại
Để hiểu rõ hơn về những vấn đề đã nêu thì chương này sẽ trình bày, phân tích và so sánh cụ thể những nội dung liên quan đến ngữ
âm, cấu trúc âm tiết, âm vị, nguyên âm và phụ âm của tiếng Anh và tiếng Việt
2.2 TỔNG QUAN VỀ NGỮ ÂM
2.2.1 Ngữ âm là gi?
2.2.2 Đơn vị kết cấu ngữ âm
2.3 ÂM TIẾT TIẾNG ANH VÀ TIẾNG VIỆT
2.3.1 Khái niệm
2.3.2 Cấu trúc
2.3.3 Đối chiếu cấu trúc âm tiết Việt – Anh
2.4 ÂM VỊ TIẾNG ANH VÀ TIẾNG VIỆT
Dựa trên cơ sở sự tương đồng về phát âm, ngữ âm trong tiếng Anh và tiếng Việt xây dựng các bảng âm vị tương ứng như sau
2.4.1 Âm vị tiếng Anh
2.4.2 Âm vị tiếng Việt
Trang 102.5 NGUYÊN ÂM TRONG TIẾNG ANH VÀ TIẾNG VIỆT 2.5.1 Nguyên âm trong tiếng Anh
2.5.2 Nguyên âm trong tiếng Việt
2.5.3 Đối chiếu
2.6 PHỤ ÂM TRONG TIẾNG ANH VÀ TIẾNG VIỆT
2.6.1 Phụ âm trong tiếng Anh
2.6.2 Phụ âm trong tiếng Việt
2.6.3 Đối chiếu
2.7 KẾT CHƯƠNG
Từ những phân tích đặc trưng về cấu trúc âm tiết, âm vị, nguyên âm, phụ âm, quy tắc ghép âm vần và thanh điệu trong tiếng Việt và tiếng Anh cho thấy được những điểm tương đồng và khác biệt giữa 2 ngôn ngữ Dựa trên cơ sở đó tìm ra được phương pháp thực hiện hiệu quả nhất trong việc phiên âm một từ vựng tiếng Anh sang chuỗi âm tiếng Việt được mô tả cụ thể trong chương sau
Trang 11Chương 3 CÁC THUẬT TOÁN VÀ CÀI ĐẶT
3.1 MỞ ĐẦU
Khi phiên âm một từ vựng tiếng Anh bất kỳ thành chuỗi âm tiết tiếng Việt thực sự rất phức tạp và mơ hồ vì giữa 2 ngôn ngữ có nhiều điểm tương đồng nhưng bên cạnh đó lại có rất nhiều điểm rất khác biệt Ngoài ra, việc phiên âm cũng bị ảnh hưởng của vùng miền, giọng địa phương và mang tính chất cá nhân Vì vậy, một từ vựng tiếng Anh có thể được phát âm theo nhiều cách khác nhau nên trong chương này sẽ trình bày về các thuật toán nhằm giúp chúng ta Việt hóa cách phát âm một từ vựng tiếng Anh thống nhất [5]
3.2 THUẬT TOÁN TỔNG QUAN
Đầu vào:
Một từ vựng tiếng Anh Ví dụ: FACEBOOK
Chuyển từ vựng tiếng Anh thông qua công cụ t2p
Ví dụ: F EY S B UH KD
- Đánh dấu nguyên âm.Ví dụ: _EY UH_
- Thêm phụ âm vào trước các nguyên âm, ví dụ: 1FEY_1BUH_
- Thêm phụ âm vào cuối các nguyên âm, ví dụ: 1FEY_1BUHKD1
- Bổ sung nguyên âm, ví dụ: 1FEY1SAX1BUHKD1
Xử lý các ngoại lệ và ánh xạ sang chuỗi ký
hiệu có thể phát âm bằng tiếng Việt
Ví dụ: 1foUsji1soU1bu1t1
Chuỗi âm tiết tiếng Việt Ví dụ: phây xơ bút
Hình 3.1 Thuật toán tổng quát
Trang 12Các bước thực hiện của thuật toán:
Bước 1: Đầu vào là một từ vựng tiếng Anh, ví dụ nhập một từ
vựng là “FACEBOOK”
Bước 2: Sử dụng công cụ t2p chuyển một từ vựng tiếng Anh
thành chuỗi âm vị, ví dụ chuyển từ vựng “FACEBOOK” thành chuỗi
âm vị “F EY S B UH KD”
Bước 3: Trên cơ sở lý thuyết đã phân tích, vị trí nguyên âm
đóng vai trò chính trong một âm tiết nên cần xác định vị trí nguyên
âm đầu tiên, tiếp theo thêm phụ âm đầu, cuối và bổ sung nguyên âm nếu cần để hoàn thiện các âm tiết tương đối hoàn chỉnh Vì vậy, từ chuỗi âm vị như ví dụ trên sẽ cho kết quả là chuỗi âm vị
“1FEY1SAX1BUHKD1”
Bước 4: Từ chuỗi âm vị tiếng Anh ban đầu sau khi đã qua các
bước xử lý để được chuỗi âm vị mới có thể ánh xạ thành một chuỗi
ký hiệu có thể phát âm tiếng Việt, cụ thể như ví dụ trên là chuỗi
“1FEY1SAX1BUHKD1” khi ánh xạ chuỗi ký hiệu và xử lý các
ngoại lệ để đạt kết quả là chuỗi “1foUsji1soU1bu1t1”
Bước 5: Ánh xạ chuỗi ký hiệu có thể phát âm tiếng Việt thành
chuỗi âm tiết tiếng Việt Ví dụ: “1foUsji1soU1bu1t1” “phây
xơ bút”
Trang 133.3 THUẬT TOÁN TÌM BIÊN ÂM TIẾT DỰA VÀO NGUYÊN ÂM
Hình 3.2 Tìm biên âm tiết
Mảng a[n] gồm các chuỗi âm vị dưới dạng Arpabet
Ví dụ: a[n]={F, EY, S, B, UH, KD}
Trang 143.4 THUẬT TOÁN THÊM PHỤ ÂM VÀO ĐẦU ÂM TIẾT
Hình 3.3 Thêm phụ âm vào đầu âm tiết
a[i] là nguyên âm kiểm tra a[i-1]
có phải là phụ âm không?
Trang 153.5 THUẬT TOÁN THÊM PHỤ ÂM VÀO CUỐI ÂM TIẾT
Hình 3.4 Thêm phụ âm vào cuối âm tiết
Kiểm tra a[i-1] có phải là nguyên âm &&
a[i] là phụ âm cuối?
Trang 163.6 THUẬT TOÁN BỔ SUNG NGUYÊN ÂM ĐỂ TẠO ÂM TIẾT MỚI
Hình 3.5 Bổ sung nguyên âm vào âm tiết
Trang 173.7 XỬ LÝ CÁC TRƯỜNG HỢP NGOẠI LỆ VÀ ÁNH XẠ
Sau khi đã triển khai tách các âm tiết trong chuỗi âm vị, chuỗi
âm tiết được xử lý tuân thủ quy tắc ghép vần của tiếng Việt, sau đó ánh xạ sang chuỗi âm tiết có thể phát âm trong tiếng Việt
3.7.1 Tiền xử lý ngoại lệ
Chuỗi âm tiết thu được vẫn còn ngoại lệ cần được xử lý trước khi ánh xạ đó là trường hợp các cặp nguyên âm và phụ âm cuối không đi liền được với nhau Vì số lượng các nguyên âm và phụ âm cuối trong tiếng Việt là hữu hạn nên cần thống kê tất cả các nguyên
âm và phụ âm trong cột Arpabet, sau đó tổ hợp tất cả các trường hợp
có thể xảy ra để đưa ra kết luận và hướng giải quyết
Bảng 3.1 Tổ hợp các nguyên âm và phụ âm cuối
Phụ âm cuối
No coda*
Chú thích: 1: Cặp âm vị này có thể đi đôi với nhau
T: Cặp âm vị này cần được bổ sung thanh điệu (sắc hóa) 0: Cặp âm vị này không thể đi đôi với nhau
*No coda tức là nguyên âm đứng một mình, không đi kèm phụ âm
* Sắc hóa
Trong tiếng Việt, một âm tiết kết thúc bằng các âm bật hơi (k, p, t) thì luôn được thêm dấu sắc hoặc dấu nặng trong đó từ thêm
Trang 18dấu sắc chiếm đa số Chính vì vậy, trong trường hợp xuất hiện âm bật hơi ở cuối âm tiết, việc bổ sung thanh điệu (sắc hóa) sẽ đưa âm tiết về đúng quy tắc tiếng VIệt và có thể phát âm được
* Xử lý các cặp nguyên âm và phụ âm cuối không thể đi đôi với nhau
Trên cơ sở những đặc điểm tương đồng một cách tương đối về phát âm giữa các âm vị trong tiếng Việt, vấn đề này được xử lý bằng cách thay thế một trong hai âm vị bằng một âm vị có cách phát âm tương đồng Quy tắc như sau: AHAX (âơ); NG, ENGEN (ngn); AX, IX, ER, AXR, UH R AH (ơâ)
Trang 19Chương 4 – THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 MÔI TRƯỜNG THỰC NGHIỆM
Hình 4.1 Chương trình phiên âm
B2 Click vào đây
để chương trình thực hiện
Trang 20đích nhận dạng tiếng nói Từ điển gồm 133.031 dòng với mỗi dòng ứng với một từ hoặc ký tự trong tiếng Anh cùng với cách phát âm của chúng [9]
4.3 KẾT QUẢ VÀ ĐÁNH GIÁ
Dựa trên kết quả thực nghiệm của 100 từ tiếng Anh xuất hiện nhiều trên các báo điện tử và việc đánh giá của các giảng viên giảng dạy chuyên ngành tiếng Anh đánh giá kết quả đạt được là có thể chấp nhận
Bảng 4.1: Thống kê kết quả thực nghiệm chương trình
tiếng Anh
Kết quả từ công cụ t2p
Phiên âm tiếng Việt
Trang 21TT Từ tiếng Anh Phiên âm
tiếng Anh
Kết quả từ công cụ t2p
Phiên âm tiếng Việt
tơ