Microsoft Word Bao cao khoa hoc tong ket cap Nha nuoc doc VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN 18 Hoàng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨ[.]
Trang 1VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
18 Hoàng Quốc Việt, Hà Nội
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004
Chủ nhiệm đề tài: GS.TSKH Bạch Hưng Khang
HÀ NÔI, 12/2004
Bản quyền 2004 thuộc Viện Công nghệ thông tin Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng
với mục đích nghiên cứu
Trang 2VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
18 Hoàng Quốc Việt, Hà Nội
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004
Chủ nhiệm đề tài: GS.TSKH Bạch Hưng Khang
HÀ NỘI, 12/2004
Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện
Trang 3DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH
học vị
Đơn vị công tác
Nhiệm vụ thuộc đề tài
1 Bạch Hưng Khang GS.TSKH
NCVCC
Viện CNTT Chủ nhiệm đề tài
3 Lương Chi Mai TS NCVC Viện CNTT Chủ trì nhánh nghiên cứu
Chủ trì nhánh nghiên cứu
Đơn vị phối hợp
Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án
1 Trung tâm Ngữ âm học thực
nghiệm, Viện Ngôn ngữ học,
Trung tâm khoa học xã hội
âm, thanh điệu cho tiếng Việt:
- Phân tích phổ của các âm vị khó
- Nghiên cứu cấu trúc nguyên
âm
- Nghiên cứu cấu trúc âm tiếng Việt, tổng hợp giọng nói
2 Trug tâm nghiên cứu ứng
dụng quang điện tử, Viện
nghiên cứu ứng dụng công
nghệ
C6 Thanh xuân bắc,
Pháp - Việt / Việt – Pháp
4 Trung tâm kỹ thuật thông tấn
– TTXVN
5 Lý Thường Kiệt
Xây dựng công nghệ Coding ngữ nghĩa của âm thanh
Trang 45 Nhóm nghiên cứu triển khai
của Công ty NetNam 18 Đường Hoàng Quốc
Việt
Tích hợp công nghệ tổng hợp và nhận dạng tiếng Việt với các dịch vụ số của INTERNET thế
20000 N.W
Walker Road Beaverton,
OR 97006
Cung cấp công cụ và phương pháp nhận dạng bằng HMM và ANN, CSDL tiếng Việt qua mạng điện thoại
Phương pháp và mô hình Fujisaki cho các ngôn ngữ có thanh điệu
8 GS Hiroya Fujisaki, Frontier
Informatics, School of
Frontier Science, University
of Tokyo
7-3-1 Hongo Bunkyo-ku, Tokyo
113003 Japan
Phương pháp và mô hình Fujisaki cho các ngôn ngữ có thanh điệu
Trang 5Mục đích của đề tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là:
1 Nhận dạng và tổng hợp tiếng Việt
2 Nhận dạng chữ Việt in và viết tay có hạn chế
3 Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự nhiên tiếng Việt, nhằm tới mục đích dịch tự động)
Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh điệu, văn phạm tiếng Việt; kế thừa, phát triển các công cụ trong tổng hợp, nhận dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt Đề tài vừa phát triển một số giải pháp, phương pháp và công cụ cơ bản, vừa từng bước tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng Mỗi nhánh của đề tài đều
có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0, phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần mềm dịch tự động Việt – Anh EVTRAN 2.5 Ngoài những sản phẩm nói trên còn
có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương pháp và công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô hình từ điển điện tử cho xử lý ngôn ngữ tự nhiên Đề tài cũng đã đóng góp các bài nghiên cứu đã được công bố ở các tạp chí, hội nghị trong và ngoài nước,làm phong phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh điệu, một mảng chưa có thật nhiều kết quả trên thế giới
Trang 6MỤC LỤC
1 Lời mở đầu 7
2 Nội dung chính của báo cáo 7
2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước 7
2.2 Những nội dung đã thực hiện 10
2.2.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt 10
2.2.1.1 Các kết quả nghiên cứu 10
Khảo sát về ngữ âm tiếng Việt 10
Tổng hợp tiếng Việt 11
Nhận dạng tiếng Việt 12
2.2.1.2 Sản phẩm phần mềm 17
Hệ thống Tổng hợp tiếng nói VnVoice 2.0 17
Chương trình nhận dạng lệnh VnCommand 18
Chương trình đọc chính tả VnDictator .18
Chương trình xây dựng công nghệ coding ngữ nghĩa của âm thanh 19
2.2.1.3 Về triển khai ứng dụng 20
Ứng dụng của tổng hợp tiếng nói 20
2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và viết tay tiếng Việt 20
Nhận dạng chữ Việt in VnDOCR 3.0 22
Nhận dạng chữ viết tay có hạn chế 22
2.2.3 Nghiên cứu phát triển các kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt 24
2.2.3.1 Dịch tự độngViệt – Anh 24
2.2.3.2 Dóng hàng văn bản song ngữ Pháp-Việt 26
2.2.3.2 Mô hình từ điển điện tử 28
2.3 Tổng quát hoá và đánh giá kết quả thu được 28
2.4 Kết luận và kiến nghị 29
2.5 Tài liệu tham khảo 31
Trang 71 LỜI MỞ ĐẦU
Nhận dạng và xử lý ngôn ngữ nói và viết tiếng Việt là nhu cầu thiết yếu của phát triển và ứng dụng công nghệ thông tin ở Việt nam Giới nghiên cứu và công nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng chục năm qua, gần đây đã thu được nhiều thành tựu quan trọng Khác với các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, chữ viết và ngôn ngữ Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi thực hiện lâu dài Những năm qua trong khuôn khổ chương trình trọng điểm nhà nước, một số kết quả nghiên cứu và sản phẩm về nhận dạng và xử lý tiếng Việt - tập trung cho nhận dạng chữ Việt in - đã thành công và bắt đầu được sử dụng rộng rãi
Đề tài này nhằm theo đuổi những nghiên cứu và phát triển phải thực hiện lâu dài
về tiếng Việt trên máy tính với sự triển khai một số phương hướng mới Mục tiêu
của đề tài là nghiên cứu làm chủ các phương pháp, kỹ thuật tiên tiến trong một số lĩnh vực của trí tuệ nhân tạo và lý thuyết nhận dạng trên thế giới để xây dựng các
phương pháp hiệu quả cho nhận dạng tiếng nói, chữ viết, và xử lý ngôn ngữ tự nhiên tiếng Việt Đề tài vừa tiếp tục xây dựng các phương pháp và công cụ cơ bản
vừa từng bước tạo ra một số sản phẩm thiết thực nhằm giải quyết một số bài toán cấp bách trong phát triển và ứng dụng công nghệ thông tin ở Việt nam Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài là:
1 Nhận dạng và tổng hợp tiếng Việt
2 Nhận dạng chữ Việt in và viết tay
3 Xử lý ngôn ngữ tự nhiên tiếng Việt
2 NỘI DUNG CHÍNH CỦA BÁO CÁO
2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước
xu hướng tất yếu cho những máy tính thế kỉ 21 Trong vòng 50 năm qua, rất nhiều thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp tiếng nói Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh như IBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress Những phần mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói Gần đây nhất hãng Microsoft đã công bố việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface) truyền thống vào phiên bản hệ điều hành Windows thế hệ mới với mật danh
Trang 8Whistler Kết quả này có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao
tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản Nhận dạng và tổng hợp
tiếng nói có vai trò quan trọng đối với việc phát triển các hệ thông tin di động thế
hệ thứ 3 (3G), với các tính năng ưu việt tập trung trong chiếc máy điện thoại di
động mà một trong các dịch vụ điển hình là hệ thống thông điệp hợp nhất (Unified Messaging System - UMS) Sản phẩm về các bo mạch của Dialogic đã tích hợp các công nghệ tổng hợp và nhận dạng tiếng nói qua điện thoại cho nhiều ngôn ngữ
hệ Latinh Ngoài ra, một trong những ứng dụng điển hình và mang tính chất kinh điển từ trước tới nay của nhận dạng tiếng phục vụ cho điều khiển bằng giọng nói
và bảo mật, cho tự động hoá văn phòng, những ứng dụng rộng rãi trong viễn thông, bảo tồn văn hoá, hỗ trợ người khuyết tật
Về lĩnh vực nhận dạng chữ, các phần mềm thương phẩm nhận dạng chữ in cho các ngôn ngữ hệ Latinh và Slavơ đã đạt được chất lượng nhận dạng rất cao, ví
dụ như OMNIPAGE 11.0 của Caere (Mỹ), Fine Reader 7.0 của ABBYY (Nga), Yonde OCR của Aisoft và KanjiScan (Nhật) Để đạt tới các phiên bản với chất lượng cao như vậy, từ hơn 10 năm nay, các hãng phần mềm này vẫn phải liên tục cho phát triển hoàn thiện các chức năng nhận dạng cũng như tiền và hậu xử lý Nhưng đối với chữ viết tay trực tuyến hoặc gián tiếp, chất lượng nhận dạng thấp hơn nhiều và các phương pháp hiện nay mới chỉ nhận dạng được chữ viết tay có hạn chế Vì vậy trên các tạp chí chuyên ngành về nhận dạng, các chủ đề này vẫn còn đang được đề cập đến nhiều với các cách tiếp cận khác nhau, đề cập tới các phương pháp cải tiến để tăng chất lượng nhận dạng, tách và cắt chữ, và kết hợp với ngữ nghĩa của từng ngôn ngữ cụ thể
Xử lý ngôn ngữ tự nhiên là lĩnh vực nhằm làm cho máy tính có thể hiểu và
sử dụng được ngôn ngữ tự nhiên của con người (cả ngôn ngữ nói và ngôn ngữ viết), bao gồm các hệ dịch tự động, tìm kiếm thông tin, tổng hợp văn bản tự động, tính toán ngôn ngữ, v.v
Dịch văn bản từ một ngôn ngữ qua ngôn ngữ khác bằng máy tính là mơ ước
từ buổi đầu của công nghệ thông tin Với thành tựu nghiên cứu về xử lý ngôn ngữ
tự nhiên bắt đầu từ những năm 60, cùng với sự tiến bộ nhanh chóng của kỹ thuật tính toán, việc dịch tự động ngôn ngữ tự nhiên đang được từng bước ứng dụng Hiện nay trên thế giới đã có nhiều hệ dịch máy thương phẩm với chất lượng chấp nhận được (SYSTRAN, GLOBALINK, STYLUS, IBM, ) Các cặp ngôn ngữ đã được thực hiện chủ yếu là những ngôn ngữ Âu châu (bao gồm Anh-Pháp, Pháp-Anh, Anh-Đức, Anh-Tây ban nha, Anh-Nga, Anh-Nhật, Nhật-Anh, v.v và một số sản phẩm dịch một chiều khác) Các sản phẩm dịch tự động được sử dụng phổ biến
từ những phần mềm cho các hệ máy lớn, trạm làm việc và máy tính cá nhân đến những thiết bị dịch tự động chuyên dụng cầm tay Trên thế giới chưa có thương
phẩm nào biên dịch Anh-Việt hay Việt-Anh
Tình hình nghiên cứu trong nước:
Nghiên cứu về nhận dạng và ứng dụng đã được tiến hành ở nước ta từ khá sớm Các chương trình trọng điểm quốc gia về tin học, CNTT từ năm 1981 đến nay đều
có nội dung nghiên cứu về nhận dạng Đặc biệt từ năm 1991 đến nay, trong
Trang 9chương trình khoa học và công nghệ KC-01 (giai đoạn 1991-1995, 1996-2000), các vấn đề về Nhận dạng và xử lý thông tin hình ảnh đã được quan tâm và là nội dung nghiên cứu chính của đề tài KC-01-10, KC-01-07 Các đề tài đều được nghiệm thu đánh giá xuất sắc Tuy nhiên trong giai đoạn này mới chỉ tập trung nỗ lực vào vấn đề nhận dạng chữ (sản phẩm VnDOCR 1.0 và 2.0) và một phần về dịch tự động (sản phẩm EVETRAN 1.0), nhận dạng và tổng hợp tiếng nói mới là những nghiên cứu thử nghiệm Mặc dù trên thế giới đã có những bước tiến khá dài trong lĩnh vực nhận dạng-tổng hợp tiếng nói, và xử lý ngôn ngữ tự nhiên, ở Việt
nam vấn đề này chỉ mới được quan tâm và chưa nhiều người nghiên cứu Trong
khi đó nhu cầu giao tiếp với máy tính bằng tiếng Việt đang ngày càng cấp thiết bởi chúng ta không thể lúc nào cũng sử dụng các phần mềm nhận dạng và tổng hợp tiếng nói với ngôn ngữ là tiếng Anh Nhận dạng, tổng hợp tiếng nói Việt, nhận dạng chữ viết Việt, máy hiểu ngôn ngữ Việt không chỉ cần những nghiên cứu cơ bản và kỹ thuật chung, mà còn phải dựa trên các đặc trưng ngôn ngữ tiếng Việt Đã
có những bước đi ban đầu của một số cơ sở có tiến hành nghiên cứu về lĩnh vực này:
- Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin,
- Trung tâm MICA, Đại học Bách khoa, Hà nội
- Nhóm nghiên cứu của Bộ môn Khoa học Máy tính, Khoa CNTT, ĐHBK Hà Nội,
- Nhóm nghiên cứu của Khoa Công nghệ Thông tin, Trường Đại học Khoa học
Tự nhiên, TP Hồ Chí Minh,
- Công ty CDIT, Tổng Công ty Bưu chính Viễn thông Việt nam
- Softext, Viện ứng dụng công nghệ
và còn một số công trình của các cá nhân làm đề tài thạc sĩ và tiến sĩ
Về nhận dạng và tổng hợp tiếng Việt: Trước hết đây là vấn đề khó, đòi hỏi phải
có tập trung nghiên cứu trong thời gian dài Trong thời gian qua, các nghiên cứu
còn tản mạn, các kết quả tập trung chủ yếu vào thử nghiệm bước đầu tổng hợp
tiếng Việt dựa trên một số kỹ thuật cơ bản, và giải quyết các ứng dụng điều khiển bằng giọng nói với lượng từ vựng nhỏ để có thể triển khai nhanh, để minh họa và
thực tế là chưa khai thác đặc điểm riêng của ngữ âm tiếng Việt Trong đề tài 01-10, các nội dung về tổng hợp và nhận dạng tiếng Việt mới được tiến hành nghiên cứu ở hai năm cuối (1999-2000) Vì thế chưa có sản phẩm có khả năng ứng dụng rộng rãi chẳng hạn cho các ứng dụng văn phòng hay các ứng dụng trong viễn thông
KC-Về nhận dạng chữ Việt: Phòng Nhận dạng và Công nghệ tri thức Viện CNTT đã
bước đầu thành công trong lĩnh vực nhận dạng chữ Việt in, đã và đang phát triển phần mềm Nhận dạng VnDOCR 2.0 hiện đang thương mại hoá rộng rãi trên thị trường Cũng như bất kỳ một sản phẩm phần mềm nào, VnDOCR cần được hoàn thiện để giải quyết các yêu cầu cao hơn về chất lượng nhận dạng trên các văn bản đầu vào xấu hơn, các tài liệu cũ, v.v Ngoài ra, các khoa Công nghệ Thông tin của các trường đại học như Bách khoa Hà nội, Đại học Quốc gia, Đại học KHTN TP
Trang 10Hồ Chí Minh cho sinh viên làm luận văn cao học hoặc cử nhân về nhận dạng chữ, nhưng đều ở dạng tiếp cận kiến thức, chưa thành dạng thương phẩm Sản phẩm Image Scan của Công ty CadPro cũng có giới thiệu bước đầu trên thị trường Ngoài ra vấn đề nhận dạng chữ viết tay tiếng Việt cũng cần được đặt ra để giải quyết cho từng bài toán cụ thể
Về xử lý ngôn ngữ tự nhiên tiếng Việt: Các nghiên cứu hướng nhiều vào dịch tự
động Sản phẩm phần mềm EVTRAN (Phòng thí nghiệm Công nghệ Phần mềm máy tính, Trung tâm Công nghệ vi điện tử và Tin học) biên dịch tự động Anh Việt
đã có mặt trên thị trường Hiện nay đã có phiên bản EVTRAN 2.0 với nhiều tính năng trợ lý ngôn ngữ thuận tiện Đây cũng là thương phẩm duy nhất về dịch tự động Anh-Việt EVTRAN đã được phát triển trên mười năm (bắt đầu từ năm 1990) Sản phẩm đã góp phần hỗ trợ mọi người trong việc đọc hiểu văn bản tiếng Anh và biên dịch sang tiếng Việt Tuy nhiên chưa có hệ dịch cho chiều ngược lại (Việt- Anh) Cũng như hấu hết các sản phẩm dịch tự động hiện nay trên thế giới,
do vấn đề quá khó, EVTRAN còn phải được theo đuổi lâu dài để dần hoàn thiện Điều đáng chú ý là cần chú trọng hơn đến các nghiên cứu và công cụ cơ sở của xử
lý ngôn ngữ tự nhiên tiếng Việt, như từ điển điện tử, phân tích và hiểu tiếng Việt trên máy tính
2.2 Những nội dung đã thực hiện
2.2.1 Kết quả về Tổng hợp và Nhận dạng tiếng Việt
Khảo sát về ngữ âm tiếng Việt
Để có thể tiến hành nghiên cứu về tổng hợp cũng như nhận dạng tiếng Việt, đề tài ban đầu phải tập trung vào nghiên cứu các khía cạnh ngữ âm của tiếng Việt Tiếng Việt là ngôn ngữ đơn âm (monosyllable) và có thanh điệu (tonal) Tiếng Việt có 6 thanh theo truyền thống (thanh không, hỏi, ngã, nặng, sắc, huyền), và 8 thanh theo ngữ âm học, có khoảng 6.700 âm tiết có nghĩa (trong số hơn 19.000 âm tiết có thể) Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định Cấu trúc tổng quát của âm tiết tiếng Việt được trình bày như sau
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối Âm đầu thường là phụ âm, được gọi là phụ âm đầu Âm đệm nằm giữa âm đầu và âm chính làm thay đổi âm sắc của âm tiết Âm chính luôn luôn có mặt trong mọi âm tiết và có chức
Thanh điệu
Âm đầu Phần vần
Âm đệm Âm chính Âm cuối
Trang 11là phụ âm hoặc là bán nguyên âm, có chức năng là cơ sở để phân chia loại hình âm tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu Âm đầu, âm đệm và âm cuối
có thể khuyết trong một số trường hợp Thanh điệu luôn có mặt trong âm tiết và có chức năng khu biệt âm tiết về cao độ và thanh điệu là yếu tố siêu đoạn tính
Để xây dựng CSDL âm (cho hai giọng Nam và Nữ chuẩn Hà nội), chia phần vần thành các nhóm đặc trưng, thu mẫu âm thanh, đo số liệu Pitch bằng máy Sonagraph, từ đó rút ra số liệu đặc trưng cho 8 thanh tiếng Việt Đề tài đã tập trung phân tích âm tiết tiếng Việt, cụ thể phân tích ảnh hưởng thanh điệu của phụ âm dấu hữu thanh, nguyên âm chính, phụ âm cuối; phân tích các yếu tố âm như sự tắc họng, yếu tố định lượng như trường độ (duration)
Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và
155 phần vần không dấu, với các phân tích trên:
• 22 phụ âm đầu chia thành 4 nhóm:
+ vô thanh (stop, voiceless): p, t, k-c-q
+ âm xát (fricative): ph, x, kh, h, v, d, đ, ch, ng-ngh, g-gh, th
+ âm vang (resonant or cororal): m, n, nh, l
+ âm bật đầu lưỡi (retroflex): tr, s, gi, r
• 20 phần chính:
+ âm đệm (zero-/u/) + nguyên âm chính: a, ă, â, e, ê, i, ia, iê, o, oa, oe, ơ,
ô, u, uâ, uyê, uyu, uô, ư, ươ
vị âm cơ bản của ngôn ngữ (PSOLA – Pitch Synchronize OverLap Adding), là bước đầu nghiên cứu để tìm hiểu bản chất của âm tiết và có thể tạo ra sản phẩm nhằm đưa tới các định hướng ứng dụng cụ thể, đã tiến hành lựa chọn biểu diễn nhỏ nhất có thể cho tiếng Việt Với cách lựa chọn giải pháp trên, vấn đề đặt ra là nghiên cứu tổng hợp tiếng nói ở mức từ & cụm từ tiếng Việt Các vấn đề nghiên cứu và các công cụ sau đã được được thực hiện và phát triển nhằm giải quyết vấn
đề trên:
− Nghiên cứu các bộ đơn vị khác nhau cho tổng hợp tiếng Việt,
− Tìm kiếm từ và gán nhãn từ loại, tích hợp phần phân đoạn từ trong câu tiếng Việt,
Trang 12− Phân tích hiện tượng từ láy trong ngôn ngữ tiếng Việt,
− Lập bộ các mẫu của cặp các thanh điệu của một từ,
− Khảo sát ban đầu các quy luật về khoảng lặng giữa các từ, giữa các âm tiết,
− Phân tích hiện tượng biến thanh khi phát âm một từ đôi, từ ba,
− Đang tích hợp thuật toán kết nối các âm tiết trong một từ để thể hiện khả năng đọc dính âm
Kết quả của các nghiên cứu trên đã làm tăng chất lượng tiếng nói tổng hợp so với các phiên bản tiếng nói tổng hợp đầu tiên của đề tài Hiện tại chất lượng tiếng nói tổng hợp trong phiên bản hiện tại đã đạt khoảng 75-80% tiếng nói tự nhiên (xem đánh giá) Trong giai đoạn nghiên cứu tiếp theo, để có thể tiến tới giải quyết vấn
đề ngôn điệu (prosody), đề tài đang nghiên cứu mô hình Fujisaki, một mô hình đã được chứng tỏ có hiệu quả cho các ngôn ngữ có thanh điệu
− Ghi bộ dữ liệu âm cho tổng hợp tiếng Việt
• Lựa chọn các mẫu cộng tác viên (CTV) nói giọng Hà Nội (21 người đọc);
• Ghi âm theo tiêu chuẩn phân tích: 21 CTV x 3 lần người x 9 nguyên âm;
• Phân tích hệ Phooc măng của 21 CTV theo tần số (Hz)
• Tổng kết hệ Phooc măng của nguyên âm tiếng Việt phục vụ cho tổng hợp tiếng Việt bằng phương pháp Phooc măng
Sản phẩm phần mềm: Hệ thống Tổng hợp tiếng nói VnVoice 2.0
Phương pháp
Hệ thống tổng hợp tiếng nói (từ văn bản chữ in tiếng Việt thành tiếng nói) dựa trên
kỹ thuật PSOLA - Pitch Synchronize OverLap Adding với bộ đơn vị âm đủ nhỏ cho phép thực hiện nhanh việc tạo CSDL âm và có khả năng tích hợp vào các ứng dụng nhúng Với phiên bản VnVoice 2.0, CSDL âm bao gồm 19 phụ âm đầu có tính ngữ cảnh, 12 nguyên âm chính, hơn 700 vần với đầy đủ thanh, tổng số hơn
900 đơn vị Phiên bản VnVoice 1.0 có CSDL gồm 330 đơn vị, gồm 19 phụ âm đầu
có tính ngữ cảnh 12 nguyên âm chính và 163 vần không mang thanh hoặc vần mang thanh sắc cho các vần kết thúc bằng p,t,c-ch, với bộ đơn vị này chương trình phải thay đổi F0 để tạo các thanh khác nhau từ vần gốc
• Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương pháp PSOLA (khoảng 900 đơn vị) dung lượng bộ nhớ 6MB RAM
• Tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh nặng
• Đọc các khuôn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, tiền Việt, các đơn vị đo lường, các xâu viết tắt thông dụng
• Đọc tự động văn bản hỗn hợp Việt - Anh, hoặc thuần Việt, hoặc thuần Anh
Chức năng hoạt động
− Giao diện:
Trang 13• Đọc các văn bản từ các nguồn: trên clipboard, các khoản mục trên Menu của chương trình, văn bản từ bàn phím gõ vào, văn bản trên các Website, trong các ứng dụng Microsoft Word, Outlook Express
Phương pháp đánh giá độ hiểu và độ tự nhiên của phần mềm tổng hợp tiếng Việt VnVoice
− Để đánh giá độ hiểu của tiếng Việt tổng hợp, đề tài đã làm thực hiện những đánh giá và kết quả thống kê trên 100 đối tượng sau: Nhóm A (50 người, khác nhau về tuổi và giới tính) là những người nghiên cứu và sử dụng tiếng Việt, do vậy yêu cầu của họ khi nghe chương trình tổng hợp tiếng Việt là khắt khe hơn, Nhóm B (50 người, khác nhau về tuổi và giới tính) chiếm số đông trong xã hội, yêu cầu quan trọng nhất cho việc đánh giá tiếng Việt tổng hợp là mức độ hiểu của họ là bao nhiêu Kết quả cụ thể như sau (đề tài có bản thống kê so sánh chi tiết) :
- 48% nhóm A1 cho rằng giọng nói tổng hợp đạt tỉ lệ 90% so với tiếng nói thực, 36% nhóm A2 đánh giá giọng nói tổng hợp đạt tỉ lệ 50% so với tiếng nói thực
Đối với nhóm B, chia làm 2 nhóm nhỏ B1 (công chức) và nhóm nhỏ B2 (người khiếm thị):
Đánh giá hiểu khi nghe: nhóm B1 có 92% , nhóm B2 có 40%
Đánh giá giọng nói tốt, dễ hiểu: nhóm B1 có 4%, nhóm B2 có 36%
Nhận xét tổng quan:
− Về cơ bản giọng nói tổng hợp VnVoice đã thực hiện được một cách cơ bản chức năng chuyển văn bản sang giọng nói Giọng nói ở bước đầu đã đạt được ở mức độ rõ ràng, mạch lạc và người nghe có thể hiểu được đoạn văn bản.Trong giai đoạn đầu tiên, sản phẩm của đề tài chưa tập trung giải quyết vấn đề ngữ điệu mà chỉ tập trung giải quyết đọc rõ âm tiết và một phần tính đều trong câu,
do đã có áp dụng việc phân tích câu Tuy nhiên một số từ ghép chưa đảm bảo tính đều do giải quyết trường độ trong các cặp âm tiết với kết thúc bằng phụ âm
Trang 14tắc vô thanh p-t-c-ch chưa triệt để do cần có những nghiên cứu sâu sắc hơn Việc nghiên cứu mô hình Fujisaki (một mô hình đã được chứng tỏ có hiệu quả với các ngôn ngữ có thanh điệu như tiếng Trung, tiếng Thái) mà đề tài đang nghiên cứu và đã có những kết quả ban đầu nhằm giải quyết trong giai đoạn tiếp theo về ngữ điệu của câu tổng hợp và trường độ trong câu
− Các lỗi tập trung ở một số phụ âm đầu, thanh điệu (do dữ liệu âm thanh) và tốc
độ đọc chậm (xử lý thuật toán) Những lỗi này có thể sớm khắc phục được
− Vấn đề còn tồn tại lớn nhất là ngữ điệu trong câu: sự kết nối giữ các âm tiết, ngừng nghỉ sau các dấu câu kể cả trường độ của những âm tiết mang trọng âm câu
Có thể khẳng định giọng nói tổng hợp VnVoice của đề tài đã giải quyết căn bản vấn đề tổng hợp âm tiết tiếng Việt Những vấn đề thuộc phạm vi ngoài âm tiết: từ láy, ghép, cụm từ (thành ngữ, tục ngữ…) và câu còn cần tiếp tục hoàn thiện
2.2.1.2 Nhận dạng tiếng Việt
Mục tiêu của đề tài là nghiên cứu các phương pháp nhận dạng câu liên tục tiếng Việt với lượng từ vựng cỡ nhỏ và trung bình Sau khi đạt được những kết quả và kinh nghiệm trong tạo lập CSDL ngữ âm và đánh giá giải pháp, tiến tới nhận dạng câu liên tục với lượng từ vựng lớn Các vấn đề sau đã được giải quyết:
− Nghiên cứu, phân tích các đặc trưng ngữ âm, thông số của tiếng Việt, văn phạm tiếng Việt phục vụ cho nhận dạng tiếng nói, đặc biệt là các vấn đề liên quan đến thanh điệu và độ dài của các phụ âm đầu và vần
• Xây dựng module xử lý mô hình ngôn ngữ với phân loại nhóm từ và tính các bảng xác suất chuyển trạng thái âm tiết
− Nghiên cứu một số khía cạnh của ngôn ngữ tiếng Việt, đặc biệt về từ vựng học (lexicon), ngữ âm và văn phạm tiếng Việt (grammar)
• Xây dựng module phân tích văn bản tiếng Việt (VTA) chuẩn hoá văn bản, tìm kiếm kết thúc câu, phân lớp từ sử dụng mô hình ngôn ngữ n-grams với các phép làm trơn, phân lớp văn bản theo từng chủ đề, tìm kiếm từ khoá trong văn bản, phân đoạn từ và gán nhãn từ loại trong văn bản, xây dựng bộ văn phạm tiếng Việt (ứng dụng cho cả tổng hợp và nhận dạng tiếng Việt)
− Nghiên cứu để tạo lập CSDL các mẫu câu để tạo tham số huấn luyện cho mô hình 3 mức: âm tiết - âm vị - âm học
− Nghiên cứu bài toán nhận dạng tiếng nói liên tục trên CSDL từ vựng cỡ nhỏ, trung bình, tiến tới lớn CSDL lớn Các mô hình và giải pháp sau đã được khảo sát và áp dụng cụ thể để phát triển các chưong trình nhận dạng câu lệnh liên tục, các chữ số tiếng Việt phát âm liên tục:
• Nghiên cứu mô hình Markov ẩn và mạng nơ ron nhân tạo, các mô hình lai ghép giữa mạng nơ ron nhân tạo và mô hình Markov ẩn trong huấn luyện tham số nhận dạng tiếng nói liên tục
• Khai thác các bộ mã nguồn mở như CSLU Toolkit, HTK nhằm áp dụng phương pháp mô hình Markov ẩn và mạng nơ ron nhân tạo để nhận dạng trên bộ CSDL nhỏ và vừa
• Nghiên cứu các vấn đề làm trơn xác suất khi tính các bảng chuyển trạng thái xác suất của các âm tiết tiếng Việt rời
Trang 15− Nghiên cứu các cách tiếp cận nhận dạng tiếng nói trong thời gian thực, hướng tói các ứng dụng thực tế
− Khai thác các môi trường phát triển như MATLAB, PRAAT với các công cụ
về xử lý tín hiệu tiếng nói
− Xây dựng CSDL ngữ âm
• CSDL tiếng nói gồm 250 giọng với bộ từ vựng là chữ số, chữ cái, lệnh
• CSDL tiếng nói của 1 giọng với hơn 3000 mẫu vần, 3000 mẫu phụ âm đầu
• Thiết lập được CSDL văn bản gồm 265-800 câu tiếng Việt làm mẫu huấn luyện, CSDL câu và gán nhãn bằng tay để huấn luyện đơn vị âm trong ngữ cảnh
− Điều khiển máy tính thực hiện một số lệnh trong phần mềm ứng dụng phổ dụng
− Nhận dạng độc lập người nói một số lệnh của Internet Explorer bao gồm tích hợp các modul sau:
• Modul nhận dạng từ đơn lẻ trạng thái tĩnh
• Tập từ vựng
Trang 16Bảng lệnh Internet Explorer
In Tải lại trang
• Modul thu nhận tín hiệu tiếng nói từ các nguồn vào Audio, Headphone, File
• Tìm kiếm các diểm đầu-cuối của một từ (cụm từ) trong môi trờng thời gian thực
− Giao diện
• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm nhiều dịch vụ nền
• Cửa hội thoại cho phép thay đổi tham số nhận dạng, lấy thông số nền như
độ nhiễu của môi trường xung quanh
− Phạm vi ứng dụng :
• Ứng dụng cho các hệ thống điều khiển bằng giọng nói
• Số lượng từ vựng cho trước, có thể lên đến 200 khẩu lệnh (các lệnh có độ đồng âm thấp)
• Việc quyết định nhận dạng tương đối dễ dàng, cho phép nhúng vào các hệ thống với tài nguyên thấp (bộ nhớ, năng lực tính toán )
Đánh giá thực nghiệm module VnCommand
− Môi trường thu tín hiệu : văn phòng, trường học
− Thiết bị thu nhận tín hiệu: card âm thanh onboard trên máy NoteBook
− Số lượng giọng và mẫu huấn luyện: 200 người, 100 nam, 100 nữ giọng miền Bắc Mỗi người đọc 1 lệnh 1 lần trong đó số lượng âm tiết rời là 40, đọc rời rạc (có ngừng giữa các âm tiết ) hay dính âm
Trang 17− Số lượng giọng kiểm tra : 38, một số giọng không đọc đủ mẫu
− Kết quả nhận dạng : sai số 2/695 *100 (sai 2 lỗi trên tổng số 695 âm kiểm tra),
hệ thống cho độ chính xác là 99.7%
Nhận xét :
− Hệ thống huấn luyện từng tổ hợp âm là riêng rẽ, vì thế việc thêm một vài tổ hợp âm mới là dễ dàng và độc lập với những mô hình của các tổ hợp âm Tuy nhiên độ chính xác sẽ kém đi với những tổ hợp có sự đồng âm
− Mô hình là bất biến với tốc độ phát âm, có thể đọc nhanh hoặc đọc chậm một tổ hợp âm, độ chính xác vẫn khá cao
− Hệ thống là độc lập người nói, độ chính xác sẽ rất cao nếu có một cơ sở dữ liệu
cỡ 1000 giọng khác nhau Hiện tại chương trình đã xử lý 240 giọng trên một cơ
Phương pháp nhận dạng
Phương pháp nghiên cứu sử dụng hệ thống nhận dạng lai ghép giữa mạng neuron
và mô hình Markov ẩn HMM/ANN (Hidden Markov Model/ Artificial Intelligent Network) Đây là phương pháp nhận dạng tiên tiến, đã được sử dụng rộng rãi tại nhiều trung tâm nghiên cứu trên thế giới, tận dụng hai ưu điểm của HMM và ANN: khả năng phân lớp của mạng neuron và khả năng mô hình hoá thông tin thời gian của mô hình Markov ẩn
Có khá nhiều kiến trúc hệ thống lai ghép HMM/ANN đã được đề xuất, trong đó thông dụng nhất là kiến trúc dùng mạng MLP làm xác suất phát xạ quan sát trong các hệ thống mạng lai ghép Hàm bj(k) trong mô hình Markov ẩn không phải hàm mất độ xác suất mà là giá trị xác suất đầu ra của mạng ANN
Hình dưới đây miêu tả quan hệ giữa các mô hình HMM và mạng neuron ANN Mỗi nút ra của mạng ANN tương ứng với một trạng thái của mô hình HMM Trạng thái của âm vị /oo/ trong hai từ ”bốn” và ”một” có chung nhau một nút ra của mạng ANN Như vậy mỗi một category của một âm vị tương ứng với mỗi trạng thái
Trang 18Hệ thống lai ghép HMM/ANN được huấn luyện bằng huấn luyện nhúng (embedded) Tưng ứng với mỗi phát âm, các mô hình Markov ẩn của các đơn vị nhận dạng trong phát âm đó được nối ghép lại với nhau tạo thành một mô hình HMM lớn Thuật toán forward-backward được áp dụng để điều chỉnh các tham số của các mô hình lớn này Các giá trị output của mạng ANN được dùng làm xác suất phát xạ quan sát của mỗi trạng thái trong mô hình
Trong mỗi vòng lặp của huấn luyện forward-backward, thuật toán Viterbi được áp dụng để tìm ra dãy các trạng thái tốt nhất trong mô hình HMM lớn tương ứng với phát âm dùng để huấn luyện Từ dãy trạng thái này, tại mỗi thời điểm tương ứng với một khung thời gian tín hiệu tiếng nói, ta sẽ có giá trị output của mạng ANN Nút output tưng ứng với trạng thái hiện tại có giá trị là 1, các nút output khác có giá trị 0 Từ các giá trị output này, mạng ANN được huấn luyện lại bằng thủ tục truyền ngược sai số
Chức năng hoạt động
− Khai thác môi trường tín hiệu tiếng nói trên điện thoại, cụ thể khai thác và lập trình trên card Dialogic cho môi trường Windows Với card Dialogic JCT120LS cung cấp 12 kênh riêng biệt với các khả năng sau:
• Thu, mã hóa và nén âm thanh trong thời gian thực
• Phát những files âm thanh
• Phát / phát hiện các Tones như DTMF, MF
• Khởi động và nhận các cuộc gọi giao diện điện thoại, khởi động lặp vòng
• Thực thi việc phân tích tiến trình cuộc gọi
− Nhận dạng đạt độ chính xác 97,46% ở mức từ gần tương đương với các công
bố về nhận dạng mười chữ số liên tục trên thế giới như tiếng Anh, Ý, Tây ban nha (cao nhất là 98,01%)
Phương pháp và kết quả đánh giá
− Cơ sở dữ liệu tiếng nói được sử dụng được trích ra từ hai cơ sở dữ liệu tiếng nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại học Oregon, Hoa kỳ Đề tài đã có hợp tác với trung tâm này trong quá trình nghiên cứu triển khai nhận dạng mười chữ số liên tục
− CSDL tiếng nói bao gồm 442 câu, 2345 từ, 243 người nói (165 nam, 78 nữ), thu âm theo hình thức phỏng vấn qua điện thoại Câu dài nhất có 18 từ và câu ngắn nhất có 1 từ Các câu được thu âm theo PCM 8kHz, 8bit mã hoá Cơ sở
dữ liệu được chia thành ba tập: tập dữ liệu huấn luyện (training set) và tập dữ liệu kiểm tra (test set) Tập dữ liệu huấn luyện bao gồm 300 câu, 1686 từ, do
158 người nói (104 nam và 54 nữ) Tập dữ liệu phát triển có 74 câu, 342 từ do
38 người nói (27 nam, 11 nữ) , tập dữ liệu kiểm tra có 68 câu, 317 từ do 47 người nói (34 nam, 13 nữ) Để đảm bảo tính khách quan, người nói trong tập
dữ liệu kiểm tra là độc lập với người nói trong tập dữ liệu huấn luyện Độ chính xác 97,58% được thực hiện trên tập dữ liệu thử này
Trang 19− Người nói phát âm các câu bao gồm các chữ số như: số điện thoại, địa chỉ, số bưu điện, tuổi, Các câu được thu âm từ nhiều máy điện thoại khác nhau Kiểu của máy điện thoại và đặc tính của kênh thoại không được xác định Các câu thu được đa dạng và khác nhau về tốc độ phát âm; về độ to nhỏ; có câu được người nói nói trong văn phòng yên tĩnh, có câu có lẫn nhiều tạp âm như tiếng đài, ti vi xen vào khi người nói ngồi trong nhà, hay tiếng ô tô khi người nói đứng tại trạm bưu điện công cộng, Tất cả các câu trong cơ sở dữ liệu tiếng đều được phiên âm chính tả và gán nhãn bằng tay tại mức âm vị
Chương trình đọc chính tả VnDictator
Đánh giá thực nghiệm Module thử nghiệm VnDictator (chưa thử
nghiệm kết hợp mô hình ngôn ngữ)
Mục đích: Nghiên cứu, đề xuất các cách tiếp cận nhận dạng tiếng nói rời rạc hoặc
liên tục, phụ thuộc hoặc không phụ thuộc người nói với lượng từ vựng lớn (là tòan
bộ từ điển âm tiết, từ tiếng Việt)
Phương pháp nhận dạng:
− Có hai lược đồ đã thử nghiệm:
• Dựa trên từng khung tiếng nói (phương pháp frame-based)
• Dựa trên từng đoạn được gán nhãn (phương pháp segment-based), phát triển thêm mô hình tích hợp nhận dạng thanh điệu Các nhãn ở đây là phụ
âm đầu, nguyên âm chính, âm cuối của một âm tiết Kết quả nhận dạng riêng rẽ từng thành phần với kết quả đầu ra có thể nhiều hơn 1, sau đó kết hợp với từ điển âm tiết và mô hình ngôn ngữ để cho ra một câu có nhiều khả năng nhất
− Sử dụng mô hình Markov ẩn HMM kiểu cạnh tranh (Có tích hợp phương pháp học dựa trên sự khác nhau của từng cặp âm tiếng nói)
• Huấn luyện riêng rẽ từng đơn vị âm với mô hình HMM thông thường
• Chia các âm thành các lớp như với phụ âm đầu lớp âm mũi, lớp âm xát vô thanh, lớp âm xát hữu thanh, lớp âm tắc vô thanh, lớp âm xát hữu thanh
• Huấn luyện phân biệt theo từng lớp bằng cách chỉnh sửa đồng thời tất cả các mô hình trong cùng một lớp dựa trên các mẫu huấn luyện được đưa vào
− Mô tả thuật toán
Bước 1 Khởi tạo tham số cho bộ phân tích F0
Bước 2 Tải các tham số của 5 thanh điệu và các phụ âm đầu, nguyên âm,
âm cuối vào bộ nhớ
Bước 3 Xử lý buff bộ đệm trong thời gian thực, ta thu được các tham số đặc trưnng, mẫu tín hiệu, phần phân đọan các thành phần âm tiết
Bước 4 Nhận dạng âm tiết từ các thành phần nhận dạng âm đầu, nguyên
âm, âm cuối, tone và kiểm tra trong từ điển âm tiết
Kết quả thử nghiệm: Phương pháp segment-based
Trang 20− Thuật toán phân đoạn âm tiết rời thành các thành phần phụ âm đầu, nguyên âm chính, âm cuối dựa trên ngưỡng của năng lượng, trong đó phụ âm đầu và âm cuối có năng lượng thấp, khoảng 10%-15% so với năng lượng của thành phần nguyên âm
− Danh sách các đơn vị âm dùng trong chương trình:
• 19 phụ âm đầu: ng-ngh, nh, m, n, l, v, s, ph, kh, g, h, q-c-k, d-r, t, th, ch, đ,
b, không_phụ_âm
• 12 nguyên âm chính: i, ê, e, iê, ư, ơ, a, ươ, u, ô, o, uô
• 7 âm cuối: m, n, i, u, nh, ng, không_âm_cuối
• 8 thanh điệu
Đánh giá độ chính xác :
− Tập huấn luyện: hơn 3970 âm tiết
− Tập kiểm tra : 3500 âm tiết
− Trong phần này có sử dụng một số khái niệm về nhận dạng n-best nếu trong kết quả nhận dạng đưa ra n phần tử "tốt nhất" của phép quyết định Thường người
sử dụng chỉ quan tâm tới 1-best tức là buộc kết quả đầu ra là duy nhất, tuy vậy trong các bài toán nhận dạng tiếng nói, thường phải chia thành nhiều pha nhận dạng trước khi cho ra kết quả cuối cùng vì vậy người ta thường lấy 1, 2, 3 hoặc thậm chí 5-best ở các pha trước để chuyển tới pha quyết định tiếp theo
• Nhận dạng 19 phụ âm đầu: kết quả với 1-best đạt 88%, 2-best là 93%
• Nhận dạng nguyên âm đơn, đôi trong vần: đạt 95,75% cho 3-best,
• Nhận dạng phụ âm cuối đạt 91,7% cho 3-best,
• Nhận dạng thanh điệu: độ chính xác trung bình khoảng 95% cho âm tiết đọc rời, một giọng đọc phát thanh viên Với chỉ 5 thanh (phát thanh viên này có thanh huyền trùng với thanh hỏi) Phải kết hợp với các điều kiện khác để phân biệt thanh huyền và thanh hỏi
− Kết quả nhận dạng cụ thể vầ thanh điệu, 19 phụ âm đầu, 7 phụ âm cuối, 12 nguyên âm chính cho một giọng nữ được chỉ ra trong các Bảng 1 đến Bảng 4 sau:
huấn luyện
Số mẫu kiểm tra Kết quả
Trang 21Độ chính xác trung bình cho thanh điệu 95,75%
Bảng 1: Kết quả nhận dạng thanh điệu giọng nữ
Phụ âm đầu
Tỉ lệ mẫu sai 1-best và đúng tương ứng (%)
Tỉ lệ mẫu sai 2-best và đúng tương ứng (%)
Tỉ lệ mẫu sai 1-best(%)
Tỉ lệ mẫu sai 2-best (%)
Bảng 3: Kết quả nhận dạng 7 phụ âm cuối
Trang 22Nguyên
âm chính
Tỉ lệ mẫu sai 1-best(%)
Tỉ lệ mẫu sai 3-best (%)
Bảng 4: Kết quả nhận dạng 12 nguyên âm chính
− Tích hợp từ điển âm tiết: Lọc từ 18 khả năng tổ hợp âm tiết từ kết quả nhận dạng để rt gọ xuống 1-5best : chưa đánh giá độ rút gọn được là bao nhiêu phần trăm
− Tích hợp mô hình ngôn ngữ trên toàn bộ câu: chưa thực hiện được để tích hợp xác định lưới âm vị từ mỗi âm tiết để từ đó nhân ra 1 -3 câu tốt nhất có thể
Chức năng hoạt động
− Nhận dạng phu thuộc người nói (giọng của phát thanh viên đã được huấn luyện), lượng từ vựng đọc về cơ bản không hạn chế, thay thế cho việc người dùng gõ phím:
• Module huấn luyện tham số cho các mô hình nhận dạng
• Module nhận dạng thanh điệu thử nghiệm
• Module nhận dạng tiếng nói liên kết (connected speech)
• Module phân lớp người nói ứng dụng cho việc nâng cao chất lượng nhận dạng tiếng nói độc lập người nói và nhận dạng người nói
− Giao diện
• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm nhiều dịch vụ nền,
• Cửa hội thoại cho phép thay dổi tham số nhận dạng, lấy thông số nền như
độ nhiễu của môi trường xung quanh
Trang 23• Nhận dạng thanh điệu tiếng Việt
− Mỗi vấn đề trên đều có những đặc điểm khác cơ bản so với tiếng Anh và cả với các tiếng Trung, Thái gần với tiếng Việt Cụ thể:
• Các âm vị tiếng Việt ngắn hơn rất nhiều so với âm vị tiếng Anh, một số âm kết thúc với p, t, c-ch không có trong tiếng Trung, tiếng Thái,
• Thanh điệu tiếng Việt phức tạp hơn so với các ngôn ngữ có thanh điệu khác
− Không thể nhận dạng tốt một âm tiết (mặc dù chương trình đã nhận khá chính xác các âm tiết có phụ âm đầu b, d, đ, c, ch, kh , vì thế để nâng cao độ chính xác phải tích hợp mô hình ngôn ngữ dù là đang xét với câu đọc rời rạc so với câu đọc liên tục)
− Bắt buộc phải dùng mô hình ngôn ngữ trong mọi bài tóan nhận dạng từ điển lớn, tuy nhiên cách áp dụng là rất khác nhau giữa tiếng Anh và tiếng Việt, trong
đó âm tiết là một thành phần quan trọng để biểu diễn từ tiếng Việt Mô hình ngôn ngữ phải cải tiến cho các từ đôi, ba, …
− Không thể hoàn tòan giao phó cho việc lựa chọn câu tốt nhất dựa trên mô hình ngôn ngữ, vì nó có thể đưa ra các kết quả rất “ngớ ngẩn” trong một vài trường hợp, khi mà nếu tích hợp mô hình xử lý âm tiết vào ta có thể đóan nhận từng
âm tiết kết quả là gần với kết quả mong muốn hơn
− Huấn luyện phân biệt các đơn vị âm là yếu tố quan trọng để giảm sự ngẫu nhiên trong kết quả đưa ra của mô hình Markov ẩn thuần túy dựa trên thống kê
Đánh giá thực nghiệm Module thử nghiệm VnDictator (thử nghiệm kết hợp mô hình ngôn ngữ)
Mục tiêu: Xây dựng phần mềm nhận dạng kiểu đọc chính tả tiếng Việt các từ rời với lượng từ vựng không hạn chế thay thế cho người dùng gõ phím Phần mềm có khả năng nhận dạng tiếng nói của phát thanh viên, đọc chậm trong môi trường có
độ nhiễu nhỏ
Phương pháp nhận dạng
Phuơng pháp nhận dạng dùng Mô hình Markov ẩn trong công cụ HTK của Đại học Cambridge, xây dựng mỗi mô hình Markov cho một đơn vị nhận dạng (phone) Sử dụng phương pháp HMM cho huấn luyện nhúng, dùng 9/10 file dữ liệu âm thanh
Trang 24và phiên âm văn bản tương ứng cho huấn luyện, 10% còn lại dùng làm dữ liệu kiểm tra
− Trích trọn các đặc điểm
Hệ thống nhận dạng làm việc dựa trên các khung tín hiệu (frame) 10ms Phương pháp trích trọn đặc điểm PLP (Perceptron) được áp dụng cho mỗi khung tín hiệu tạo ra một vector gồm 39 đặc tính bao gồm: 12 giá trị hệ số PLP và giá trị năng lượng, 13 giá trị đạo hàm của các giá trị trên, 13 giá trị đạo hàm mức 2 của giá trị trên Phương pháp xử lý tín hiệu dùng kích thước cửa sổ Hamming là 25sm, số mạch lọc là 22, hệ số dùng để nhấn mạnh (pre-emphasis) là 0.97, phương pháp CMS được áp dụng để lọc bỏ nhiễu
− Mô hình Markov ẩn
Hệ thống nhận dạng dùng các mô hình Markov ẩn cho các đơn vị ngữ âm cơ bản là
âm vị Mỗi mô hình Markov chứa nhiều trạng thái, trong đó có một trạng thái khởi đầu và một trạng thái kết thúc là các trạng thái đặc biệt không phát sinh quan sát
(non-emitting), nghĩa là không có xác suất phát xạ quan sát b j (ot) kết hợp với các
trạng thái này
Mỗi mô hình Markov ẩn bao gồm năm trạng thái trong đó có trạng thái khởi đầu
và trạng thái kết thúc
Mô hình Markov ẩn dùng trong thử nghiệm
Đối với các trạng thái không phải là trạng thái đầu và trạng thái cuối, xác suất phát
xạ quan sát là một hàm mật độ xác suất được xây dựng trên cơ sở các hàm mật độ xác suất Gauss Hàm này bao gồm một hoặc nhiều các dòng (stream), mỗi dòng có thể có một hoặc nhiều thành phần trộn bao gồm các hàm mật độ xác suất Gauss Cấu trúc nhiều dòng cho phép hệ thống mô hình hoá nhiều dòng thông tin khác nhau Thông thường số lượng dòng tối đa là 4 dòng
− Định nghĩa từ điển
Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ vựng mà hệ thống
có thể nhận dạng được và các phiên âm của các từ này thành các âm vị của hệ thống Một từ điển bao gồm nhiều dòng, mỗi dòng tương ứng với một từ và phiên
âm của nó Một từ có thể có nhiều phiên âm khác nhau
Đối với các ngôn ngữ nước ngoài, các bộ từ điển dùng cho các hệ thống nhận dạng
đã được nghiên cứu kỹ từ lâu Mỗi trung tâm nghiên cứu tự xây dựng một bộ từ điển của riêng mình, ví dụ như các bộ từ điển phiên âm nối tiếng của tiếng Anh: bộ
Trang 25từ điển của CMU bao gồm 100 000 từ tiếng Anh; bộ từ điển Beep, bao gồm phiên
âm 250 000 từ tiến Anh
Đối với ngôn ngữ tiếng Việt, rất tiếc là cho tới thời điểm hiện nay chưa có một bộ
từ điển phiên âm với kích thước lớn nào được công bố cho các hệ thống nhận dạng Việc nghiên cứu để xây dựng một bộ từ điển bao gồm tất cả các âm tiết tiếng Việt là một vấn đề cần được quan tâm nghiên cứu
Để tiến hành xây dựng bộ từ điển gồm khoảng 4000 âm tiết cho hệ thống nhận dạng, chúng tôi xây dựng một chương trình tự động phân tích một âm tiết thành các âm vị tương ứng Sở dĩ có thể xây dựng một chương trình tự động như vậy là
do tiếng Việt có một cấu trúc bền vững, ổn định Sự kết hợp giữa các âm vị trong tiếng Việt để tạo thành từ có qui luật và có thể lập trình được
Để tiến hành phân tích một từ thành các âm vị, chúng tôi sử dụng các giao trình sách giáo khoa tiếng Việt, trong đó nếu có sự không thống nhất tạm thời giữa các giáo trình, chúng tôi sử dụng tài liệu của Nguyễn Thiện Thuật
Ví dụ về một phần từ điển như sau:
− Huấn luyện mô hình Markov ẩn
Đầu tiên các âm đơn gồm các đơn vị nhận dạng cơ bản được huấn luyện Sau một quá trình gán nhãn cưỡng bức, các âm đơn được huấn luyện lại một lần nữa trước khi các âm đơn này được sao chép thành các âm ba Chúng tôi sử dụng các âm ba giới nội từ (word internal), ngữ cảnh chỉ ảnh hưởng tới các âm ba trong một từ, các
từ được coi là cách nhau bởi một khoảng yên lặng Sau khi các âm ba được huấn luyện, có khoảng 400 âm ba không có đủ dữ liệu để huấn luyện Các âm ba này được buộc (tied) vào nhau để chia xẻ chung nhau dữ liệu huấn luyện
Để huấn luyện các mô hình Markov ẩn chúng tôi sử dụng hàm trộn gồm 8 hàm Gauss Đầu tiên các mô hình với một hàm Gauss được huấn luyện với một hàm Gauss, sau đó hàm này được sao chép thành 2 hàm Gauss Sau khi các âm ba được huấn luyện với các hàm vừa được tạo, chúng lại tiếp tục được sử dụng để sao chép
Trang 26tạo thành các hàm Gauss mới Quá trình lặp lại cho đến khi số lượng hàm Gauss đạt được như mong muốn
Trong quá trình nhận dạng chúng tôi sử dụng mô hình ngôn ngữ bigram để đưa các thông tin về mô hình ngôn ngữ vào trong quá trình tìm kiếm Viterbi Xác suất xuất hiện của các từ cũng như của cặp các từ được đưa vào trong mạng tìm kiếm
Chức năng hoạt động
− Thử nghiệm nhận dạng giọng đọc chính tả tiếng Việt, đọc chậm trong môi trường văn phòng độ nhiễu thấp
Kết quả đánh giá thử nghiệm
− CSDL tiếng nói bao gồm 23.434 câu thu từ các bài trên VOV (Voice of Vietnam ), quãng 28.000 âm tiết gồm giọng đọc của gần 30 phát thanh viên, trong đó có 4 giọng nữ Tổng cộng có khoảng 4.400 âm tiết khác nhau trên tổng số 6.700 âm tiết có nghĩa trong tiếng Việt Mỗi câu có trung bình từ 5 dến
15 âm tiết Các câu được thu âm theo PCM 16kHz, sử dụng 16 bit mã hoá Tất
cả dữ liệu được gán với văn bản
−
Nhận xét
Dù rằng một số giải pháp đã tích hợp vào hệ VnDictator mới chỉ là thử nghiệm nhưng nó đã chứng tỏ khả năng sử dụng được và sẽ đạt được nhiều kết quả hơn nếu được đầu tư nhiều hơn về thời gian
− Như đăng ký, chương trình nhận dạng đọc chính tả tiếng Việt là chương trình thử nghiệm, chỉ nhận dạng giọng đọc phụ thuộc người nói, (giọng của phát thanh viên) và môi trường văn phòng có độ ồn thấp Vấn đề còn sai số trong nhận dạng tự động là điều không thể tránh khỏi Trong phương pháp được sử dụng, ngoài mô hình nhận dạng còn kết hợp cả mô hình ngôn ngữ Kết quả nhận dạng trên câu chưa thật chính xác phụ thuộc cả vào hai yếu tố: dữ liệu huấn luyện cho nhận dạng còn thiếu, một trong những vấn đề then chốt trong nhận dạng là phải đảm bảo đủ dữ liệu huấn luyện, Việc xây dựng CSDL phải
là một dự án co qui mô lớn Ngoài ra, cũng dựa trên CSDL lớn mới có thể huấn luyện mô hình ngôn ngữ phong phú Trong chương trình thử nghiệm đăng ký trong đề tài, chỉ tập trung với một bộ dữ liệu huấn luyện (truyên Dế mèn phiêu lưu ký) nên sai số là điều không thể tránh khỏi Nhưng cách tiếp cận của đề tài bám theo những kết quả nghiên cứu về nhận dạng trên thế giới, kết hợp với đặc thù ngữ âm và mô hình ngôn ngữ tiếng Việt nên đảm bảo hướng đi đúng đắn trong các nghiên cứu tiếp theo
Nghiên cứu thử nghiệm xây dựng công nghệ coding ngữ nghĩa của âm thanh
Trang 27Ngoài hai nội dung nghiên cứu về tổng hợp và nhận dạng tiếng Việt như đã trình bày trong hai phần trên, một nhánh nghiên cứu khác của đề tài nhằm tập trung vào một giải pháp mới không kinh điển, với hy vọng tạo ra cách tiếp cận mới Nội dung nghiên cứu định hướng giải pháp theo ba lớp và cũng là ba giai đoạn nghiên cứu như sau:
− Lớp thứ nhất: Tìm hiểu quá trình biến đổi tín hiệu dao động âm thành tín hiệu điện mà các dây thần kinh thính giác truyền về não Qua đó xây dựng các thuật toán cụ thể tác động lên chuỗi âm thanh số để thu được các số liệu phản ánh tín hiệu âm tương tự như những tín hiệu mà cơ quan thính giác của con người nhận được
− Lớp thứ hai: Nghiên cứu để xây dựng các đối tượng và cơ sở dữ liệu nhận dạng tiếng nói từ các tín hiệu nói trên Hệ thống này cần tuân theo một số nguyên tắc của “phản xạ có điều kiện”
− Lớp thứ ba: Nghiên cứu quá trình dự báo ngữ nghĩa của tiếng nói, trên cơ sở
“đã nhận ra một số âm” Trong đó trọng tâm là tổng hợp và áp dụng các qui luật ngôn ngữ để lựa chọn dự báo ngữ nghĩa mà người phát âm muốn truyền đạt
Theo hướng này, đến nay, nhánh đề tài mới đạt một số kết quả thuộc lớp thứ nhất
và lớp thứ hai Lớp thứ ba định hướng cho giai đoạn nghiên cứu tiếp theo Cụ thể là:
Các kết quả về lý thuyết:
− Xác định tần số của các nốt nhạc đàn dương cầm bằng cách ghi âm số và ứng dụng thuật toán tính pitch Sau đó dùng giả thiết các nốt nhạc cách đều trên trục logarit của tần số, hiệu chỉnh các giá trị tần số của mọi nốt nhạc
− Đề xuất "Phổ sensor" trên cơ sở tìm hiểu giải phẫu học của cơ quan thính giác
và khả năng phân biệt nốt nhạc của nó Phổ sensor được xem như là bức tranh tín hiệu mà các dây thần kinh thính giác chuyển về não
− Xây dựng phương pháp toán để xác định các giá trị của phổ sensor, và phương pháp để xác định một hệ số thực nghiệm đề cập trong phương pháp toán
− Với qui ước âm cơ bản là âm tiết khi phát âm không đòi hỏi bất kỳ một chuyển động nào của khoang miệng, đã chọn ra 9 âm cơ bản trong tiếng Việt
− Chọn chiều hướng vi phân của phổ sensor theo tần số để hình thành “dạng phổ sensor” Việc so sánh ngữ nghĩa của các phổ sensor được thực hiện qua việc so sánh độ trùng nhau giữa các “dạng phổ sensor”
− Đề xuất một tệp dữ liệu bao gồm phổ sensor của các âm cơ bản (hoặc các dạng đặc trưng của nó) và các tham số bổ trợ với tên gọi là "nhận thức ngữ âm", làm
cơ sở để thực hiện nhận dạng tiếng nói Việc xây dựng tệp dữ liệu này tuân theo một số tiêu chí của phản xạ có điều kiện
Trang 28Do Re Mi Pha Son La Si 16.63 18.36 20.27 22.38 24.70 27.28 30.12 33.25 36.71 40.53 44.75 49.41 54.55 60.23 66.50 73.42 81.06 89.50 98.82 109.1 120.5 133.0 146.8 162.1 179.0 197.6 218.2 240.9
266.0 293.7 324.3 358.0 395.3 436.4 481.8 532.0 587.4 648.5 716.0 790.5 872.8 963.7
− Xây dựng tệp dữ liệu “nhận thức ngữ âm” của 9 âm cơ bản, theo phương pháp địa chỉ hóa từ dạng phổ sensor với 413 địa chỉ được dạy
Chương trình xây dựng công nghệ coding ngữ nghĩa của âm thanh
− Xây dựng thuật toán tổng hợp chuỗi tín hiệu âm tần, để tạo tín hiệu PCM của các âm tần chuẩn
− Xây dựng thuật toán phân tích Fourier và đánh giá mức độ chính xác của thuật toán thông qua việc dùng thuật toán này để phân tích các chuẩn PCM được tạo
ra bới thuật toán nêu trên
− Xây dựng thuật toán xác định pitch theo phương pháp Cepstrum
− Xây dựng thuật toán tính phổ sensor theo phương pháp nêu trên
− Xây dựng thuật toán tổng hợp chuỗi tín hiệu âm từ một bộ tần số hài, hoặc từ một nhóm các tần số cho trước, với biên độ bị điều tiết bởi một hàm phổ theo tần số và theo thời gian
− Xây dựng các thuật toán để tạo dựng tệp dữ liệu nhận thức ngữ âm
2.2.1.3 Về triển khai ứng dụng
Ứng dụng của tổng hợp tiếng nói
Trang 29− Nâng cấp Module đọc tiếng Việt trong hệ thống thông điệp hợp nhất (UMS) phối hợp với nhóm nghiên cứu phát triển của công ty NetNam
− Triển khai tích hợp Module đọc tiếng Việt kết nối với phần mềm JAWS đọc màn hình qua Microsoft SAPI cho người khiếm thị Modul tích hợp đang được thử nghiệm cho người khiếm thị tại Viện vệ sinh dịch tễ, khả năng sẽ được cung cấp cho Hội người mù Việt nam sau khi hoàn thiện Hiện tại đã có 8 đặt hàng của Hội người khiếm thị và bộ VnVoice đã được thương mại hoá
− Tích hợp module tổng hợp tiếng Việt 3i School Voice Portal: Chức năng truy cập CSDL học sinh như: nghe điểm các môn học, sự chuyên cần, khen thưởng,
kỷ luật, tình trạng đóng học phí, nghe họ tên người đăng nhập hệ thống:
• Chức năng studio: Thu âm thông báo của nhà trường, thay đổi tốc độ phát
âm trên điện thoại
• Chức năng hộp thư thoại, từ điển phát âm tiếng Anh trên điện thoại, thông báo của nhà trường từ văn bản, dùng module tổng hợp tiếng nói VnVoice
2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và viết tay tiếng Việt Mục tiêu
Nhu cầu tự động hoá văn phòng đã thúc đẩy sự ra đời của các chương trình nhận dạng văn bản, nhận dạng tiếng nói Chương trình nhận dạng chữ Việt in VnDOCR phiên bản 1.0 ra đời (trong khuôn khổ của đề tài thuộc chương trình KHCN01-10) nhằm đáp ứng nhu cầu nói trên Phiên bản nâng cấp VnDOCR 3.0 là một nội dung nghiên cứu của đề tài KC01-03, nâng cao chất lưọng nhận dạng
Phương pháp
Trong chương trình này, việc nhận dạng văn bản dựa chủ yếu vào các thuật toán nhận dạng và cho kết quả khá tốt đối với văn bản đầu vào rõ nét, sạch sẽ Mô hình của quá trình nhận dạng trong VnDOCR 3.0 được biểu diễn như sau:
− Khối nhận dạng OCR: thực hiện các thuật toán nhận dạng, đầu vào là ảnh của văn bản, đầu ra là văn bản thô, chưa sửa chính tả
− Khối tự động kiểm tra chính tả: Kiểm tra văn bản thô, tự động sửa những lỗi chính tả đơn giản, đánh dấu những cụm ký tự sai chính tả không tự động sửa được Khối kiểm tra chính tả bán tự động: cùng với người dùng, sửa những lỗi chính tả cuối cùng trước khi đưa ra văn bản hoàn chỉnh
Phương pháp nhận dạng
Nghiên cứu hai thành phần chủ yếu trong một thuật toán nhận dạng là trích chọn đặc tính (feature extraction) và phân loại (classification) dựa trên đặc tính:
Trang 30• Các đặc tính của ký tự được trích chọn bằng cách tiếp cận thống kê có kết hợp với cách tiếp cận cấu trúc đảm bảo tính nhận dạng không cần khai báo font (omnifont) và kích cỡ chữ Hai cách tiếp cận trên là những cách tiếp cận truyền thống trong nhận dạng, tuy nhiên các tác giả của sản phẩm đã đề xuất một cách tiếp cận tổ hợp (xem bài báo [7, 9, 10, 11]) và đã chứng tỏ tính hiệu quả của cách tiếp cận tổ hợp này trong chất lượng của phần mềm
Theo cách tiếp cận của chúng tôi, các ký tự ảnh được rút gọn vào khung m x n (đã thử nghiệm trên khung 8 x 8 và 16 x 16), sau đó thật toán phân loại được áp dụng trên các khung này
Ảnh bitmap của kí tự và ma trận mẫu tương ứng
Để biểu diễn bản chất của thuật toán do các kí tự được biểu diễn như một ma trận nhị phân kích thước m x n, dưới đây đưa ra một khái niệm cơ bản của thuật
toán về tính nhúng của một ma trận này vào trong một ma trận khác Từ mục tiêu đó cần có định nghĩa một ma trận nhỏ nhất trong một tập các ma trận, độ
khác biệt của hai ma trận và độ khác biệt của một ma trận so với lớp các ma trận Mục tiêu cuối cùng là phải tìm ra một ma trận có độ khác biệt nhỏ nhất so với tập các lớp ma trận mẫu
Gọi Tm x n = {tp}m x n là tập các ma trận nhị phân của các kí tự kích thước
m x n
Định nghĩa 1: Giả sử hai ma trận t1, t2 ∈ T Ta nói rằng t1 được nhúng trong t2
(kí hiệu bởi t1 t2) nếu t1[i, j ] ≤ t2[i, j] với ∀i = 1, 2, , m, ∀j = 1, 2, , n
Định nghĩa 2: Giả sử C ⊆ T, t ∈ C ta nói rằng t là ma trận nhỏ nhất trong C
nếu ti ∈ C: t ti
Định nghĩa 3: Giả sử hai ma trận t1, t2 ∈ T Độ khác biệt của t1 với t2 được định nghĩa như sau:
d(t1, t2') = card ({(i,j)⏐ t1[i,j] < t2[i,j] })
định nghĩa như sau:
d(t, Cq) = min d(t, t')
t’∈Cq
Định nghĩa 5: Giả sử ma trận t ∈ T, C1, C2, CK ⊆ T Ta nói rằng Cq, q ∈ {1,
2, ,K} là lớp mẫu đối sánh tốt nhất với t nếu:
Trang 31d(t, Cq) = min d(t, ,Cj)
1 ≤j ≤K
Tóm lại, nói một cách mô tả, bài toán nhận dạng đặt ra là giả sử tồn tại K lớp mẫu chữ Cj, j=1, , K, khi xuất hiện một chữ mới ta cần xếp nó vào một trong các lớp này sao cho thoả mãn định nghĩa 5
• Thuật toán phân loại mẫu học (tập các ký tự cần nhận dạng) được phân thành 2 giai đoạn với mục đích tăng tốc độ và độ chính xác:
- Thuật toán phân loại thô (dùng để phân nhóm các chữ đồng dạng về mặt cấu trúc)
- Thuật toán phân loại mịn (các hàm đánh giá và đối sánh phức tạp dần)
- Tiêu chuẩn đối sánh nhanh dựa trên nghiên cứu và đề xuất độ đo đồng dạng giữa hai ảnh ký tự
Phương pháp kết hợp kiến thức chính tả
Tuy nhiên, khi gặp các văn bản bị mờ khiến chữ bị đứt nét hoặc các văn bản nhoè khiến các chữ bị dính với nhau thì chất lượng nhận dạng vẫn còn chưa cao Việc phát triển các thuật toán nhận dạng để giải quyết vấn đề trên rất khó thực hiện và cũng chỉ có giới hạn nhất định Do đó, cần có thêm kiến thức về đối tượng được nhận dạng để cải tiến chất lượng nhận dạng Đối tượng đó chính là văn bản tiếng Việt Kiến thức về văn bản tiếng Việt phù hợp với việc áp dụng cho máy tính thực hiện là chính tả tiếng Việt Như vậy cần phải kết hợp kiến thức về chính tả tiếng Việt để góp phần làm nâng cao chất lượng nhận dạng Đây cũng là hướng tiếp cận của các chương trình nhận dạng văn bản nổi tiếng trên thế giới
Với khối tự động kiểm tra chính tả, yêu cầu của khối này là: 1/ Hạn chế tối đa việc sửa âm tiết đúng thành sai, 2/ Sửa được một số lượng đáng kể số lỗi trên văn bản thô, 3/ Thời gian thực hiện phải đủ nhanh sao cho người dùng nhanh chóng có được văn bản hoàn chỉnh hơn là hoàn toàn sửa lỗi bằng tay
Vấn đề là tìm được một cách tiếp cận sửa lỗi chính tả sao cho phù hợp với những yêu cầu đã đề ra Như đã trình bày ở trên, cách tiếp cận ở mức độ từ vựng và cú pháp, ngữ nghĩa hiện vẫn còn là những vấn đề khó, các thuật toán hiện thời đòi hỏi nhiều thời gian và độ chính xác chưa cao Với những gì đã trình bày ở mục 2 thì ta thấy cách tiếp cận sửa lỗi chính tả ở mức âm tiết đảm bảo thoả mãn điều kiện 1/
và 3/ so với hai cách tiếp cận còn lại Hơn nữa, trong thực tế số lượng các lỗi sai thực sự về mặt âm tiết ở văn bản thô đối với ảnh đầu vào chất lượng kém là khá lớn nên nếu được thực hiện tốt cách tiếp cận này sẽ đảm bảo thoả mãn được điều kiện 2/ Thông thường, lỗi chính tả được xử lý theo thứ tự: Âm tiết - Từ vựng - Ngữ nghĩa Sau đây là một số phương pháp được sử dụng trong VnDOCR 3.0
− Phát hiện sai: Các phương pháp phát hiện sai đều không thể hoàn toàn chính xác và đều có lỗi Lỗi sai gồm có 2 loại: âm tiết đúng được coi là sai và âm tiết sai được coi là đúng Như vậy, thuật toán phát hiện sai phải đề ra những tiêu
Trang 32chuẩn nhận biết các trường hợp trên, tránh việc sửa nhầm Tóm lại sử dụng những cách đoán nhận như trên ta vẫn phải chấp nhận một tỷ lệ sai nào đó Trong quá trình kiểm nghiệm thực tế có thể đưa ra thêm một số tiêu chuẩn mới hoặc điều chỉnh lại các tiêu chuẩn đã đề ra để giảm tỷ lệ lỗi đối với các loại văn bản thông dụng
− Sửa sai: Quá trình sửa sai gồm hai bước: 1/ Từ một âm tiết bị sai tìm ra các âm
tiết đúng tương ứng, các âm tiết đúng này là các ứng cử viên 2/ Chọn ra trong
số các ứng cử viên nói trên một ứng cử viên có khả năng là đúng nhất Các phương pháp sửa chủ yếu sử dụng luật cấu tạo âm tiết và sử dụng kiến thức liên quan đến vị trí và mối liên hệ giữa các ký tự Lựa chọn âm tiết đúng trong nhiều khả năng sử dụng điểm về n-gram của nó cao
Quá trình kiểm tra chính tả tự động được thực hiện tương đối đơn giản hơn và thực
tế là nó đã tiết kiệm được đáng kể thời gian xử lý của người dùng Tính hiệu quả của nó phụ thuộc vào các thuật toán phát hiện sai, sửa sai, và lựa chọn ứng cử viên Hướng phát triển tiếp theo của phần này là: tăng cường tốc độ thực hiện; cải tiến
độ chính xác của các thuật toán phát hiện sai, sửa sai; bổ sung thêm dữ liệu về các dạng sai, dữ liệu để xây dựng mô hình n-gram cho thật hoàn chỉnh; Xây dựng một
mô hình sửa lỗi chính tả hoàn thiện hơn mô hình hiện có
Mô hình áp dụng việc sửa chính tả được trình bày ở trên không phải là duy nhất
Ví dụ như có thể tích hợp quá trình sửa lỗi chính tả tự động vào trong quá trình nhận dạng Cách làm này có lợi điểm là thay vì làm việc với văn bản thô, quá trình sửa chính tả sẽ có nhiều thông tin hơn từ quá trình nhận dạng Hoặc quá trình sửa lỗi chính tả tự động không chỉ dừng ở mức âm tiết mà có thể thực hiện sửa lỗi ở các mức cao hơn như từ vựng, cú pháp
Chức năng của phần mềm Nhận dạng chữ Việt in VnDOCR 3.0
VnDOCR 3.0 là phiên bản nâng cấp chính thức của VnDOCR 2.0 sau hai năm phát triển các tính năng mới và sửa lỗi Phiên bản này có những tính năng mới nổi trội sau đây:
− Tự động phát hiện được bảng biểu
− Tự động kiểm tra chính tả tiếng Việt ngay sau khi nhận dạng xong, tự động thay thế những từ nhận dạng sai bằng những từ có trong từ điển với độ chính xác cao
− Nhận dạng đa luồng cho phép vừa nhận dạng vừa quét tài liệu, giúp giảm đáng
kể về cả thời gian lẫn công sức của người sử dụng
− Cho phép quét nhiều trang tài liệu mà không cần khởi tạo lại máy quét – việc khởi tạo lại máy quét sau khi quét một trang tài liệu thường thấy với các máy quét dòng HP – Tính năng này giúp cho việc quét sách báo với khối lượng tương đối lớn dễ dàng hơn rất nhiều
− Chất lượng nhận dạng trên 98% với các văn bản có chất lượng trung bình, in từ các máy in lazer, sách, báo, tạp chí phát hành hiện nay
Trang 33− Lưu văn bản hỗ trợ ba loại bảng mã tiếng Việt phổ biến nhất hiện nay là Unicode TCVN6990-2001, TCVN5712 (ABC), VNI
Phương pháp và kết quả đánh giá
CSDL văn bản test:
• Các dạng văn bản dùng để test:
- Văn bản dạng công văn, tài liệu in từ máy in Lazer với các kiểu phông chữ khác nhau: Arial, Avant, Helvetica, Time, Time New Roman, Courier, có kích thước của kí tự từ 8 đến 72 điểm
- Bài báo trên các loại báo như: Hà nội mới, Lao động, PC World Việt Nam, Tuổi trẻ TP HCM, Thể thao, Thời báo Kinh tế Việt Nam, Kinh doanh tiếp thị, Thời báo tài chính Việt Nam, Đầu tư, Thanh niên, Tièn phong, An ninh thue dô, Công an TP HCM, Công an nhân dân, Đại đoàn kết, Tuổi trẻ, An ninh thế giới, Lao động xã hội
• Tiêu chí để kiểm tra:
- Văn bản nên đặt thẳng, không bị nghiêng hoặc xoay Chương trình cho phép xoay văn bản một góc nghiêng nhỏ hơn 15o, tuy nhiên nếu không phải can thiệp sau khi quét, chất lượng nhận dạng thường đảm bảo hơn
• Số lượng văn bản test:
- Lựa chọn bất kỳ các văn bản trên các tài liệu đã nói trên
- Số lượng văn bản dùng để test: quãng 500 trang A4 và các cột báo
Trang 34viết tách rời nhau giống chữ in và viết trong các ô hình chữ nhật của các phiếu điều tra
(MarkRead - Phần mềm nhận dạng dấu quang học phục vụ nhập liệu tự động phiếu điều tra, kiểm phiếu, thi trắc nghiệm, kiểm tra, phiếu thăm dò ý kiến và các phiếu mẫu văn phòng khác chứa các ô hình vuông, chữ nhật, hình tròn, elip có đánh dấu)
Phương pháp
− Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế theo mô hình nhận dạng cấu trúc,
− Nghiên cứu phương pháp nhận dạng theo đối sánh mẫu,
− Nghiên cứu phương pháp nhận dạng bằng biểu đồ tần xuất (histogram),
− Nghiên cứu phương pháp nhận dạng tổ hợp
Phương pháp nhận dạng đối sánh mẫu
Chữ viết tay hạn chế trong hệ thống MarkRead là các chữ/số được viết riêng rẽ rời nhau và gần giống chữ in hoa, mực viết cần rõ ràng để khi quét vào máy quét giữ được hình ảnh các chữ rõ ràng Chúng tôi đã nghiên cứu nhiều phương pháp nhận dạng và đã cài đặt trong hệ thống nhận dạng MarkRead phương pháp nhận dạng theo đối sánh mẫu
Trích chọn đặc trưng: với một mẫu a, trích các thông số gọi là đặc trưng của mẫu đó Kí hiệu đặc trưng của mẫu a là Fa
Học mẫu: một tập mẫu được dùng để học bằng cách lưu đặc trưng các mẫu học
đó vào cơ sở dữ liệu, kí hiệu là L
Nhận dạng: với mỗi mẫu vào là x chưa biết, ta trích chọn đặc trưng tương ứng
Fx Tìm trong cơ sở dữ liệu đặc trưng Fb ∈L “gần giống” với Fx nhất theo nghĩa:
) F d(F, min ) F ,
L F x
Trang 35Xác định vùng chứa chữ: thông qua trọng tâm
Chuẩn hóa hóa các kí tự : chuẩn hóa thành ma trận 27¯27
Tính trọng số I ứng với ma trận ảnh kí tự T:
I[i][j] được tính bằng bình phương khoảng cách từ điểm (i,j) đến điểm đen gần nhất trong T
] z) - (j k) - [(i min z)]
(k, j), [(i, d min
B(T) z) (k,
2 B(T) z)
| [i][j]
I' - I[i][j]
| )
I' d(I,
U
Trong đó B(I), B(I’) là tập các điểm đen của I và I’:
ảnh phân ngưỡng T
Ma trận trọng số I
Trang 36B(I)={(i,j)| I[i][j]=0}, B(I’)={(i,j)| I’[i][j]=0}
Học đối với phương pháp đối sánh mẫu
Kí hiệu tập các mẫu để huấn luyện là K và C(Fa,L) là kết quả nhận dạng đặc trưng của mẫu a với tập dữ liệu học là L
C(x) là nhãn của mẫu x (tên của chữ)
Thuật toán học của phương pháp đối sánh mẫu được thực hiện như sau:
Vào: K – tập các mẫu cần huấn luyện
Ra: L – tập các đặc trưng mẫu đã được học
kí tự riêng rẽ, rồi chuẩn hóa thành ma trận 27x27
− Trong đó tập các số được dùng làm mẫu 14000 mẫu, trong đó tập huấn luyện gồm 10.000 và tập test 4000
− Tập các chữ cái gồm 42000 mẫu chữ chia làm 2 tập: tập huấn luyện gồm 30000 mẫu
và tập test 12000 mẫu
− Tập các mấu số của MNIST gồm 60.000 (20x20) chia làm 2 tập, tập học 50.000, tập test 10.000
Kết quả thực nghiệm ở mức kí tự riêng rẽ với độ chính xác như sau:
− Đối với các kí tự là chữ kết quả nhận dạng đạt 80%
− Đối với các kí tự là số kết quả nhận dạng đạt 85%
Một số kiểu mẫu gây ra nhận nhầm, sai:
ảnh các chữ số có nhiễu
Trang 37ảnh các chữ có nhiễu hoặc thiếu nét
Trang 38Kết quả nhận dạng trên các cách tiếp cận khác nhau:
− Nhận dạng bằng đối sánh mẫu, có tỷ lệ với chữ (số) là 80% (85%)
− Nhận dạng bằng cấu trúc xương ký tự, có tỷ lệ với chữ (số) là 75% (80%)
• Quét phiếu điều tra theo lô hoặc từng trang,
• Tiền xử lý: xoá nhiễu, tăng giảm độ dày, nối các nét đứt, phát hiện góc nghiêng trang tài liệu với góc nhỏ hơn 15o và hiệu chỉnh lề
• Chọn vùng chứa dấu hoặc cữ viết tay hạn chế trong các ô hoặc bảng một chiều
• Nhận dạng các ô được đánh dấu, kết hợp các ô để nhận dạng số/chữ viết tay hạn chế
• Ghi dữ liệu đã được nhận dạng ra các tệp của nhiều hệ quản trị CSDL phổ dụng
− Giao diện:
• Hình thức giao diện theo chuẩn của các phần mềm Microsoft, có các thao tác trên tệp, soạn thảo, hiển thị ảnh / kết quả nhận dạng, các thao tác trên các bản ghi, nhận dạng và trợ giúp, giao diện được thể hiện bằng tiếng Việt (font TCVN3 ABC), hoặc tiếng Anh
• Các chức năng được được thể hiện qua giao diện thực đon, thanh công cụ hoặc thực đơn động
• Chọn máy quét, chọn số trang/phiếu (bản ghi kết quả), số trang/hàng, ngưỡng nhận dạng, kích thước của các đối tượng chứa dấu
2.2.3 Nghiên cứu phát triển các kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt
Trang 39Do xu hướng toàn cầu hoá đi kèm với địa phương hoá, nhu cầu dịch trong tất cả các lĩnh vực không ngừng tăng lên Trong khi đó, lĩnh vực dịch tự động tuy đã ra đời từ hơn 50 năm trước, nhưng cho đến nay kết quả vẫn còn hết sức hạn chế Đề tài đã nghiên cứu một số cách tiếp cận khác nhau trong dịc tự động Một trong những kết quả chính của đề tài là dựa trên một số cách tiếp cận dựa trên cấu trúc văn phạm của các ngôn ngữ để tiến hành dịch tự động và tiếp tục phát triển phần mềm EVTRAN cho phần dịch Việt – Anh Đồng thời một xu hướng mới đã ra đời trong những năm gần đây nhằm tận dụng khai thác kho tàng khổng lồ các văn bản dịch trong nhiều thứ tiếng, thuộc đủ thể loại như văn học, báo chí, hàn lâm hay luật học Việc sử dụng kho tài nguyên gồm các bản dịch đa phần có chất lượng rất tốt này để xây dựng các bộ nhớ dịch hay các bộ từ vựng đa ngữ trong các hệ thống dịch máy có vẻ là một giải pháp hợp lí Cách khai thác kho văn bản dịch đa ngữ hay còn gọi là văn bản song song (parallel texts) này là thực hiện việc dóng hàng (alignment), tức là tìm kiếm tự động các tương ứng dịch trong các văn bản vốn được dịch ra từ cùng một văn bản gốc nào đó Các tương ứng dịch này có thể ở các mức độ chi tiết khác nhau: có khi chỉ đòi hỏi ít chi tiết là mức đoạn, phổ biến nhất
là ở mức câu, và chi tiết, lí tưởng hơn là mức ngữ đoạn hoặc từ Chính vì vậy ở 3 phần tiếp sau của, trình bày các nghiên cứu và kết quả về:
- Dịch Việt Anh theo cách tiếp cận dựa trên cấu trúc văn phạm
- Dóng hàng các văn bản song ngữ Phap- Việt, tiền thân của khuynh hướng dịch
tự động
- Xây dựng mô hình từ điển điện tử cho tiếng Việt, một công cụ thiết yếu cung cấp nguồn tri thức giúp giúp máy tính có thể hiểu được ngônngữ con người vF đóng vai trò nền tảng cho các nghiên cứu vè ngôn ngữ tự nhiên
2.2.3.1 Dịch tự độngViệt - Anh
Nghiên cứu
− Đề xuất văn phạm định biên (bound controlled grammar) – một dạng mở
rộng của mô hình văn phạm phi ngữ cảnh, chỉ ra một số tính chất của văn
phạm, trong đó chứng minh được rằng lớp ngôn ngữ định biên là bao đóng của
lớp ngôn ngữ phi ngữ cảnh đối với phép giao Điều đó có nghĩa rằng văn phạm định biên là sự mở rộng đủ và tối thiểu cho lớp ngôn ngữ phi ngữ cảnh để thành một tập hợp đóng kín đối với phép hợp và phép giao Ý nghĩa của văn phạm định biên là ở chỗ các kết quả lý thuyết và giải thuật trên lớp ngôn ngữ phi ngữ cảnh đều có thể áp dụng cho ngôn ngữ định biên Nói riêng, các giải thuật phân tích văn phạm phi ngữ cảnh cũng như độ phức tạp của chúng được giữ nguyên gần như hoàn toàn trong văn phạm định biên
− Đề xuất văn phạm cảm ngữ đoạn (phrase sensitive grammar) – một phát triển tiếp tục của văn phạm định biên cho phép mô tả được nhiều tính chất phụ thuộc ngữ cảnh của ngôn ngữ tự nhiên, đặc biệt, đề xuất khái niệm ngữ đoạn như một yếu tố ràng buộc trọng tâm trong định nghĩa các cấu trúc của ngôn ngữ
Một số tính chất của văn phạm:
Trang 40• Các phần tử từ vựng, cú pháp, ngữ nghĩa và tập quy tắc được tổ chức thành
hệ phân cấp (dàn đại số)
• Đưa vào khái niệm “phần tử được đánh dấu” để thể hiện những ràng buộc ngữ nghĩa trong quy tắc văn phạm, đặc biệt, để biểu diễn các nút có số nhánh biến thiên trong cây phân cấp ngữ nghĩa Bộ phân tích không dựng cây cú pháp mà dựng mô hình biểu diễn bên trong (cây phân cấp ngữ nghĩa)
của câu văn trên cơ sở áp dụng các quy tắc cảm ngữ đoạn
− Đề xuất phương pháp giải quyết nhập nhằng ứng dụng trong xử lý ngôn ngữ tự nhiên dựa trên sự phân cấp của hệ luật sinh sử dụng một mô hình logic mới, trong đó miền giá trị không phải là nhị phân (true, false – như trong logic cổ điển) hay một đoạn liên tục (các số thực từ 0 đến 1 – như trong logic mờ) mà là một dàn đại số Giải pháp đề xuất một mô hình hình thức cho sự “lập luận theo
lẽ thường” (common-sense reasoning) đối với tri thức ngôn ngữ
Mô hình phân cấp ngữ nghĩa áp dụng trong văn phạm cảm ngữ đoạn cho ta một công cụ để mô tả những quy tắc ngôn ngữ, vốn rất khó diễn đạt bằng toán học Với cách tiếp cận được đề xuất, mỗi luật sinh đều có một phạm vi tác dụng trong khuôn khổ một hệ phân cấp miền tác dụng của tập luật Tập các miền tác
dụng của bộ luật tạo nên một phủ trên toàn bộ ngôn ngữ
Những kết quả nghiên cứu này tạo thành nền tảng để xây dựng một giải pháp
dịch máy liên ngữ khả thi (hiện đang được phát triển tại Viện Ứng dụng Công
nghệ) Cách tiếp cận có các đặc trưng cơ bản sau:
• Bộ phân tích không dựng cây cú pháp mà dựng mô hình biểu diễn bên trong (cây phân cấp ngữ nghĩa) của câu văn
• Bước Tổng hợp là quá trình đơn ngữ, được thực hiện hoàn toàn độc lập với quá trình Phân tích Vì vậy, trong mô hình dịch máy được đề xuất, công đoạn tổng hợp văn bản khó hơn nhiều so với khâu phân tích, và văn bản được sản sinh ra sẽ tự nhiên, bản ngữ hơn, không phụ thuộc vào cách đặt
câu của văn bản gốc
− Phát triển giải thuật phân tích văn phạm cảm ngữ đoạn
Xây dựng mô hình xử lý nhập nhằng cho kho ngữ liệu được tổ chức theo mô hình phân cấp dựa vào logic trên dàn và văn phạm cảm ngữ đoạn Thuật toán
phân tích theo sơ đồ dưới lên và từ phải sang trái (bottom-up right-most
analysis) dựng cây phân tích ngữ nghĩa không phụ thuộc ngôn ngữ và họ các
bộ giá trị trạng thái liên ngôn ngữ
− Phát triển giải thuật tổng hợp văn phạm cảm ngữ đoạn
Xây dựng sơ đồ tổng hợp văn bản
− Ứng dụng một phần các kết quả lý thuyết và công nghệ được phát triển vào phần mềm dịch máy
− Ứng dụng một số heuristics nhằm cải thiện tốc độ cho giải thuật phân tích văn phạm và biên dịch văn bản
− Xây dựng hệ phân cấp từ loại tiếng Việt để đưa vào cơ sở tri thức tiếng Việt trên cơ sở mô hình ngữ nghĩa chung cho Hệ thống từ loại tiếng Việt, áp dụng lý thuyết dàn (lattice) làm mô hình ngữ nghĩa cho hệ thống từ loại tiếng Việt
− Khảo sát trên 400.000 mẫu câu song ngữ Việt-Anh thông dụng