Mục tiêu Đề xuất giải pháp hỗ trợ biên soạn dựng hình ảnh NNDH Việt từ văn bản tiếng Việt, ứng dụng trong xây dựng các chương trình thời sự hỗ trợ NNDH dành cho người khiếm thính.. Tính
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ
NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP TỰ ĐỘNG CHUYỂN BẢN TIN THỜI SỰ ĐÀI TRUYỀN HÌNH SANG NGÔN NGỮ DẤU HIỆU DÀNH
CHO NGƯỜI KHIẾM THÍNH
Mã số: B2013-16-31
Chủ nhiệm đề tài: PGS TS NGUYỄN CHÍ NGÔN
Cần Thơ, 12/2015
Trang 2Thành viên nghiên cứu và thực hiện đề tài:
Bộ môn Tự Động Hóa, Khoa Công Nghệ, Trường Đại Học Cần Thơ
KS Quách Luyn Đa
Trường Đại học Tây Đô
Bộ môn Kỹ thuật phần mềm, Khoa Công nghệ Thông tin và Truyền Thông, Trường Đại Học Cần Thơ
Bộ môn Hệ thống thông tin, Khoa Công nghệ Thông tin và Truyền Thông, Trường Đại Học Cần Thơ
Những sinh viên sau đại học được đào tạo:
1 Trần Bá Duy
Chuyên ngành Thạc sĩ Hệ thống thông tin K17, Khoa Công nghệ thông tin và Truyền Thông, trường Đại học Cần Thơ
2 Quách Luyn Đa
Chuyên ngành Thạc sĩ Hệ thống thông tin K19, Khoa Công nghệ thông tin và Truyền Thông, trường Đại học Cần Thơ
Đơn vị phối hợp chính:
Trung tâm Nghiên cứu Giáo dục Người khiếm thính (CED) 96/14A Duy Tân, Phường 15, Q Phú Nhuận, TP Hồ Chí Minh
Trang 3MỤC LỤC
DANH MỤC VIẾT TẮT 4
THÔNG TIN KẾT QUẢ NGHIÊN CỨU 5
1 Tổng quan tình hình nghiên cứu 7
2 Tính cấp thiết 7
3 Mục tiêu 8
4 Nội dung nghiên cứu 8
5 Kết quả nghiên cứu 8
5.1 Qui trình xây dựng bộ từ điển NNDH 8
5.2 Chuyển đổi câu tiếng Việt sang cấu trúc NNDH 10
5.3 Xây dựng cơ sở dữ liệu 10
5.4 Cây quyết định ID3 trong chuyển đổi cú pháp 12
5.5 EBMT trong chuyển trật tự từ trong NNDH 13
5.6 Giới thiệu chương trình 14
5.7 Thực nghiệm và đánh giá tại cơ sở 15
6 KẾT LUẬN 17
7 ĐỀ NGHỊ 18
TÀI LIỆU THAM KHẢO 18
Trang 4DANH MỤC VIẾT TẮT
NNDH : Ngôn ngữ dấu hiệu
HamNoSys : The Hamburg Sign Language Notation System
CED : Trung tâm nghiên cứu giáo dục người khiếm thính Tp.HCM
EBMT : Example-based machine translation
TER : Translation Error Rate
Trang 5THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung
- Tên đề tài: Nghiên cứu đề xuất giải pháp tự động chuyển bản tin thời sự đài
truyền hình sang NNDH dành cho người khiếm thính
- Mã số: B2013-16-31
- Chủ nhiệm: PGS TS Nguyễn Chí Ngôn
- Cơ quan chủ trì: Trường Đại Học Cần Thơ
- Thời gian thực hiện: 2013 – 2015
2 Mục tiêu
Đề xuất giải pháp hỗ trợ biên soạn dựng hình ảnh NNDH Việt từ văn bản tiếng Việt, ứng dụng trong xây dựng các chương trình thời sự hỗ trợ NNDH dành cho người khiếm thính
3 Tính mới và sáng tạo
Nghiên cứu tiên phong trong việc xây dựng công cụ tự động chuyển đổi văn bản tiếng Việt sang video mô tả NNDH dành cho người Việt khiếm thính, chưa từng được cộng đồng khoa học trong nước thực hiện Nghiên cứu đã đóng góp những điểm mới sau:
- Xây dựng mô hình ứng dụng dịch máy vào việc chuyển đổi cấu trúc câu tiếng Việt sang cấu trúc câu rút gọn của NNDH, với độ chính xác đạt 97,464%
- Xây dựng được quy trình diễn đạt NNDH Việt trong phần mềm mô tả nhân vật ảo HamNoSys, với bộ từ điển gồm 2.352 từ, đủ lớn để sử dụng trong thực tế và có công cụ cho người sử dụng bổ sung từ điển để mở rộng
- Xây dựng được phần mềm ứng dụng để chuyển văn bản tiếng Việt sang video diễn đạt NNDH
4 Kết quả nghiên cứu
Kết quả nghiên cứu cso thể tóm tắt như sau:
- Xây dựng được bộ từ điển NNDH Việt gồm 2.352 từ (đăng ký 1000 từ);
- Xây dựng được quy trình diễn đạt NNDH Việt trong phần mềm mô tả nhân vật ảo HamNoSys với các động tác chuyển động tay, vai và biểu cảm trên gương mặt gồm cưr chỉ miệng, mắt…;
- Xây dựng mô hình ứng dụng dịch máy vào việc chuyển đổi cấu trúc câu tiếng Việt sang cấu trúc câu rút gọn của NNDH, với độ chính xác đạt 97,464%;
- Xây dựng được qui trình và công cụ cho phép biên tập, bổ sung từ điển NNDH Việt;
- Xây dựng được phần mềm ứng dụng để chuyển văn bản tiếng Việt sang video diễn đạt NNDH, có thể tích hợp vào việc biên tập bản tin thời sự truyền hình
- Đã viết được các báo cáo khoa học gồm: báo cáo tổng kết đề tài và bài báo khoa học đăng trên tạp chí khoa học trong nước
Trang 65 Sản phẩm
6 Hiệu quả, phương thức chuyển giao kết quả và khả năng áp dụng
- Hiệu quả khoa học: Cung cấp cho ngành Khoa học máy tính và thông tin một giải
pháp để chuyển đổi văn bản tiếng Việt sang đồ họa vi tính NNDH
- Hiệu quả đào tạo: Bổ sung vào chương trình đào tạo bậc đại học và sau đại học các
ngành Hệ thống thông tin, Công nghệ phần mềm, Điện tử… tại Trường Đại Học Cần Thơ một công cụ hữu ích, có thể triển khai thực tập các học phần: Xử lý ảnh, Nhận dạng, Audio-Video, thực hiện đồ án môn học, luận văn tốt nghiệp… trên nền tảng của nghiên cứu này Ngoài ta, thông qua nghiên cứu này, năng lực nhóm sẽ được nâng lên một bước đáng kể trong kỹ năng phát triển phần mềm ứng dụng, năng lực giảng dạy cũng được tích lũy qua quá trình trao đổi trong nhóm
- Hiệu quả kinh tế: Cung cấp một giải pháp khả thi để tự động dựng đồ họa vi tính
NNDH cho đài truyền hình, giúp giảm thiểu thời gian và chi phí dựng phim bằng người thật
- Hiệu quả xã hội: Góp phần cụ thể hóa chính sách của Đảng và nhà nước trong việc hỗ
trợ người khiếm thính hòa nhập tốt hơn vào cộng đồng
- Phương thức chuyển giao: Chuyển giao cho Trung tâm nghiên cứu Giáo Dục người
khiếm thính – CED triển thử nghiệm trong công tác giảng dạy Sau khi nhận được góp ý và hoàn thiện sản phẩm, nhóm sẽ chuyển giao cho các đài truyền hình địa phương
1 Bộ dữ liệu chuyển
đổi từ và cụm từ
tiếng Việt mẫu sang
NNDH
Khoảng 1.000 từ và cụm từ thông dụng, đảm bảo người khiếm thính hiểu được nội dung hơn 95%
(2.352 từ, độ chính xác 97,464%;)
2 Phần mềm chuyển
đổi bản tin thời sự
đài truyền hình sang
NNDH dành cho
người khiếm thính
Đảm bảo người khiếm thính hiểu được nội dung cần truyền đạt với độ chính xác hơn 95%
(độ chính xác 97,06%)
3 Bài báo khoa học
đăng trên tạp chí
trong nước
Dự kiến chủ đề: “Một giải pháp XD phần mềm chuyển đổi bản tin thời sự truyền hình sang NNDH dành cho người khiếm thính”
Dự kiến tạp chí: Tin học và Điều khiển học – ISSN:
1813-9663
(T.B Duy và N C Ngôn, “Bước đầu NC xây dựng HT chuyển đổi văn bản tiếng Việt sang NNDH,” Tạp chí
KH ĐHĐN, số 1(62), trang 47-53 ISSN: 1859-1531)
4 Bài báo khoa học
đăng trên kỷ yếu hội
nghị khoa học quốc
tế (tổ chức tại Việt
nam)
Dự kiến chủ đề: “Bước đầu thực hiện việc chuyển đổi văn bản tiếng Việt sang đồ họa NNDH”
(đã viết và sẽ tham gia 2016, vì kết quả đạt được vào cuối năm nên hết hội nghị 2015)
5 Đào tạo thạc sĩ
ngành Hệ thống
thông tin
Bảo vệ thành công luận văn tốt nghiệp thạc sĩ
(1 sẽ bảo vệ 2/2016)
Trang 71 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
Cộng đồng người khiếm thính mỗi nước tự phát triển một hệ thống NNDH riêng theo điều kiện lịch sử, văn hóa và ngôn ngữ của họ Việc chuyển đổi từ văn bản sang NNDH được nhiều nhóm nghiên cứu trên thế giới quan tâm, chẳng hạn dự án xây dựng công cụ ViSiCast (ViSiCast, 2012), phần mềm SiSi – Say it Sign it System của IBM (Al-Ohali, 2010), phần mềm Vcom3D – Sign Smith Studio (Jason Stewart, 2012), công cụ Sign to
me của (Waterfall Rainbows, 2005),… Theo Stewart (2012), với việc ứng dụng các công
cụ Computer Character Annimation hay Virtual Signer là một cách tiếp cận tốt, mềm dẽo
và thuận tiện trong giải quyết vấn đề xây dựng đồ họa vi tính cho NNDH
Liên quan đến vấn đề nghiên cứu về ngôn ngữ tiếng Việt nhiều nhóm tác giả trong
nước đã quan tâm trong những năm qua, chẳng hạn nhóm Hồ Tường Vinh và ctv (2008),
nhóm Nguyễn Quốc Thể và cộng sự (2009), … Nổi bậc hơn hết, có thể kể đến đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" thuộc Chương trình Khoa học Công nghệ cấp Nhà nước KC01/06-10
đã rất thành công trong việc "Xử lí văn bản tiếng Việt" (VLSP, 2012; Hồ Tú Bảo, KC01.01/06-10) Tuy nhiên, qua tìm hiểu chúng tôi thấy rằng trong và ngoài nước hiện tại chưa có công trình nghiên cứu hay sản phẩm nào liên quan đến việc chuyển đổi văn bản Tiếng Việt sang NNDH Việt Các sản phẩm hiện có chỉ dừng lại ở việc xây dựng các
bộ từ điển, DVD dạy NNDH Việt dưới dạng video (Cao Thị Xuân Mỹ 2004, 2007; Nguyễn Thị Hoàng Yến, 2006), kể cả việc dạy NNDH trên đài truyền hình Việt Nam trong thời gian gần đây
Có thể nói, việc tự động chuyển đổi văn bản tiếng Việt sang NNDH cho người khiếm thính Việt Nam là một hướng nghiên cứu ứng dụng còn rất mới mẽ ở trong nước,
mà hiện tại nhóm nghiên cứu chưa tìm thấy được công bố nào thực hiện nhiệm vụ này Mục đích của nghiên cứu này nhằm chuyển đổi văn bản Tiếng Việt sang động tác tương ứng của NNDH tiếng Việt Các động tác của NNDH sẽ được một nhân vật ảo dạng 3D (virtual signer) thể hiện một cách mềm mại, sống động Kết quả của nghiên cứu là nền tảng để phát triển các ứng dụng liên quan như: xây dựng phần mềm hỗ trợ biên soạn các đoạn video thể hiện tin tức thời sự, clip giải trí dành cho người khiếm thính từ các văn bản tiếng Việt dùng trong truyền hình; xây dựng website cho phép thực hiện chuyển đổi trực tuyến; hay xây dựng phần mềm hỗ trợ học NNDH,…
2 TÍNH CẤP THIẾT
Theo số liệu của Tổng cục Thống kê năm 2009, Việt Nam có khoảng 6,7 triệu người khuyết tật, trong đó hơn 1 triệu người khiếm thính, chiếm khoảng 6,3% dân số Như vậy, dạng khuyết tật về thính lực chiếm tỉ lệ khá lớn trong các dạng khuyết tật nói chung của người Việt Đảng và nhà nước ta đã và đang ban hành các chủ trương, chính sách nhằm giúp người tàn tật hòa nhập cộng đồng Theo đó, Hội Người khuyết tật thành phố Hà Nội phối hợp với Viện Khoa học Giáo dục Việt Nam, Ban Khoa giáo Đài THVN đang tích cực phát triển chương trình "Dạy ngôn ngữ ký hiệu trên truyền hình" (Bảo Minh, 2012 – Báo Giáo dục và Thời đại)
Mặc dù bản tin thời sự Truyền hình Việt nam VTV2 có thông tin bằng NNDH Tuy nhiên, việc xây dựng bản tin truyền hình NNDH bằng người thật sẽ mất nhiều thời gian
và chi phí Vì vậy, một nhu cầu cấp thiết đặt ra là phải nghiên cứu và sử dụng nhân vật ảo cho mục đích này để khắc phục những hạn chế của việc dựng phim, giảm thiểu chi phí và
Trang 8thời gian sản xuất phim bằng người thật mà vẫn đáp ứng được yêu cầu truyền đạt thông tin đến đối tượng là người khiếm thính, giúp họ hòa nhập cộng đồng tốt hơn
3 MỤC TIÊU
Nghiên cứu nhằm đề xuất giải pháp hỗ trợ biên soạn dựng hình ảnh NNDH Việt từ văn bản tiếng Việt, ứng dụng trong xây dựng các chương trình thời sự hỗ trợ NNDH dành cho người khiếm thính
4 NỘI DUNG NGHIÊN CỨU
Các nội dung nghiên cứu mà đề tài đã đăng ký gồm có:
- Nội dung 1: Xây dựng công cụ ánh xạ 1:1 giữa bộ từ vựng tiếng Việt khoảng 1.000 từ, cụm từ thường dùng trong các bản tin thời sự địa phương và NNDH tương ứng
- Nội dung 2: Xây dựng giao diện người dùng để nhập bản tin thời sự và hiển thị đồ họa nhân vật ảo
- Nội dung 3: Phân tích ngữ nghĩa bản tin thời sự tiếng Việt và chuyển đổi sang
“ngôn ngữ trung gian” – cấu trúc rút gọn của NNDH
- Nội dung 4: Xây dựng nhân vật ảo và thư viện đồ họa NNDH cho nhân vật ảo
- Nội dung 5: Dựng đồ họa NNDH cho nhân vật ảo tương ứng với bản tin thời sự truyền hình được nhập vào cửa sổ văn bản của giao diện người dùng
- Nội dung 6: Thử nghiệm với bản tin thời sự truyền hình và đánh giá phần mềm
5 KẾT QUẢ NGHIÊN CỨU
5.1 Qui trình xây dựng bộ từ điển NNDH
Như trình bày ở chương 2, từ trong NNDH được cấu thành dựa trên 5 yếu tố: (i)Vị trí làm
kí hiệu, (ii)Hình dạng bàn tay, (iii)Chuyển động của bàn tay, (iv)Chiều hướng lòng bàn tay, và (v)Sự diễn đạt không bằng tay
HamNoSys đã cung cấp 200 biểu tượng bao gồm hình dạng, vị trí, cấu hình và chuyển động của bàn tay Thứ tự của các biểu tượng trong một chuỗi cố định, nhưng vẫn
có thể viết ra một dấu hiệu ở nhiều cách khác nhau Một từ trong NNDH gồm 1 chuỗi liên tiếp các hành động, chính vì vậy các trạng thái hình dạng, phương hướng và vị trí bàn tay so với các vị trí khác trên cơ thể tại một thời điểm này sẽ được chuyển đến hành động tương ứng ở một thời điểm khác sẽ sử dụng sự chuyển hướng bàn tay để thay đổi trạng thái, tạo sự liền mạch trong quá trình chuyển trạng thái của một từ Bên cạnh đó, Hamnosys còn cho phép sử dụng các dạng ký hiệu không bằng tay như:
- Khẩu hình miệng: Cung cấp 2 kiểu gán hành động:
o Dựa trên từ được đưa vào: Sử dụng 1 đơn vị từ được đưa vào và HamNoSys sẽ xây dựng hành động tương ứng với từ đó Tuy nhiên, hành động này trong tiếng Việt có độ chính xác tương đối thấp vì chương trình mới hỗ trợ cho tiếng Anh
Trang 9o Dựa trên hành động đã được HamNoSys xây dựng: HamNoSys cung cấp 71 hành động được chia làm 5 nhóm, được mã hóa theo chữ cái viết hoa và 2 số xác định đối với mỗi di chuyển
- Cử động cơ thể: là dấu mốc cho sự thay đổi trạng thái, có 10 mã cử động cụ thể
với các hành động tương ứng như: quay trái, quay phải, … Ví dụ: để diễn đạt từ cám ơn, cần phải gập người
- Cử động đầu: các hành động gật đầu, lắc đầu,…thể hiện một trạng thái kèm theo
một từ trong NNDH để diễn đạt được đầy đủ ý nghĩa của từ HamNoSys cung cấp 11 cử động để kèm theo quá trình diễn đạt từ trong NNDH
- Cử động vai: Nhìn chung, vai là một hành động ít được chú ý trong ngôn ngữ nói
và ngôn ngữ kí hiệu cũng vậy Tuy nhiên, một số từ thể hiện sự đồng ý hay không đồng ý cũng cần sự hỗ trợ của vai và cách di chuyển vai để thể hiện đầy
đủ nghĩa của từ HamNoSys cung cấp 9 mã cử động vai cụ thể
- Trạng thái mắt: Mắt đóng vai trò quan trọng trong việc diễn đạt ngôn ngữ, thể
hiện tình cảm mà người dùng muốn truyền đạt như: trố mắt để thể hiện sự kinh ngạc,…HamNoSys cung cấp 11 mã cử động vai
- Trạng thái chân mày: giận dỗi, cau có, … đều được thể hiện trên chân mày Tuy
nhiên, trong NNDH được diễn đạt trên truyền hình này không cần thiết HamNoSys cung cấp 4 mà chuyển động
- Trạng thái của mi mắt: Ít được quan tâm đối với nhân vật diễn đạt là người thật,
nhưng đối với nhân vật ảo cần tạo nét sinh động cho nhân vậy nên cần sự hỗ trợ của trạng thái này HamNoSys cung cấp 13 mã hành động cho trạng thái mi mắt Qui trình xây dựng NNDH trên một tay, được xác định như sau:
- Bước 1: Xác định hình dạng bàn tay, bao gồm các hình dạng cơ bản và kết hợp với vị trí ngón cái, vị trí mở rộng, kết nối với ngón cái và độ mở của ngón cái và các kí hiệu mở rộng Bên cạnh đó, độ mở của các ngón tay có thể thay đổi và thêm ngón Cuối cùng, muốn thể hiện ý nghĩa trung gian giữa 2 ký tự HamNoSys thì có thể sử dụng dấu “\”
- Bước 2: Lựa chọn phương hướng bàn tay, bao gồm 2 thông soosL hướng ngón tay và hướng lòng bàn tay Có 2 bước thực hiện: (i) đầu tiên, xác định hướng của trục bàn tay, (ii) tiếp theo, xác định việc định hướng bàn thay dọc theo trục thân người, và (iii) ký hiệu “\” được dùng để mô tả ký hiệu trung gian
- Bước 3: Xác định vị trí, tổng cộng có 41 biểu tượng, trong đó 17 biểu tượng tham chiếu bàn tay và ngón tay, 6 ký hiệu mô tả khoảng cách không gian Và ký hiệu
“\” được dùng để diễn tả sự trung gian giữa 2 vị trí
- Bước 4: Để chuyển đổi trạng thái, vị trí làm kí hiệu Các cách di chuyển gồm trực tiếp, gián tiếp, di chuyển thay thế, di chuyển theo đường thẳng, đường cong, đường vòng hay lặp lại Và quay lại bước 1
Ngoài ra, HamNoSys còn được thiết kế để sử dụng cho cả 2 tay với các kí hiệu trục đứng hay trục ngang, tay chiếm thế chủ động hay khác nhau, chuyển động đối xứng hay bất đối xứng Cuối cùng là sự lựa chọn các ký hiệu diễn đạt không bằng tay, như miệng, thân, vai, mắt, …
Nghiên cứu đã xây dựng được một tập dữ liệu gồm có 2.352 từ diễn tả NNDH
Trang 105.2 Chuyển đổi câu tiếng Việt sang cấu trúc NNDH
Trật tự từ trong NNDH gắn liền với các trật tự từ trong cụm danh từ, cụm động từ và các câu Với các câu được chia ra làm 3 loại:
- Trật tự từ trong câu khẳng định: với vị trí các cụm động từ, cụm danh từ và bổ ngữ được thể hiện ở các vị trí khác nhau
- Trật tự từ trong câu nghi vấn: được xác định dựa trên từ để hỏi nằm ở cụm danh
từ hay bổ ngữ để sắp xếp vị trí của từ trong câu
- Các loại trật tự từ trong ngữ trạng từ
Nhìn chung, các trật tự từ gắn liền với cụm từ và loại từ để xác định vị trí và loại câu Để phân tích được loại câu, chương trình dựa trên từ loại để xác định câu thuộc loại nào? Qua thống kê, kết quả nghiên cứu trong chương trình nghiên cứu JVnTagger phiên bản 1.6 được xây dựng trong khuông khổ đề tài cấp nhà nước VLSP của nhóm Hồ Tú Bảo và ctv (2006) với 9.229 câu với 15.2076 từ loại và 70.180 cụm từ (đã loại bỏ số cụm được xác định là dấu câu)
Cấu trúc câu của NNDH khác biệt lớn và hầu như không có quy luật, do vậy, nghiên cứu áp dụng 2 thuật toán: Khai phá dữ liệu cây quyết định ID3 và EBMT trong chuyển đổi cú pháp
5.3 Xây dựng cơ sở dữ liệu
Nghiên cứu tiến hành quá trình xử lý văn bản đối với 740 các câu đầu vào được định dạng như sau:
01 giáo viên thích nho
02 giáo viên thích những quả nho xanh
03 giáo viên ăn quả cóc xanh
Quá trình tiền xử lý văn bản, được thực hiện như sau:
Tách từ: Thực hiện bởi chương trình VnTokenizer, với kết quả có được dạng sau:
01 Giáo_viên thích nho
02 Giáo_viên thích những quả nho xanh
03 Giáo_viên ăn quả cóc xanh
Gán nhãn từ loại tiếng Việt: thực hiện bởi chương trình JvnTagger, kết quả dạng sau:
01 giáo_viên/N thích/V nho/N /
02 giáo_viên/N thích/V những/L quả/Nc nho/N xanh/A /
03 giáo_viên/N ăn/V quả/Nc cóc/N xanh/A /