1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh đề tài NCKH QG 07 47 pdf

110 323 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 110
Dung lượng 43,58 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cùníỉ với sự phát triên của công nghệ và thành công trong các lĩnh vực nahiên cứu trong nhiều năm qua, chúne ta đang tiếp cận dược nhừna cuộc hội thoại siừa người và máy tự nhiên hơn.. M

Trang 1

ĐẠI HỌ C Q U Ó C GIA HÀ NỘI

X â y d ự n g m ô hình các giao diện n g ư ò i d ù n g thân thiện dựa trên agent th ô n g minh

Trang 2

MỤC LỤC

1 Giới thiệu về hệ thống hội thoại dựa trên agent 2

2 Nội dung hội th o ạ i 3

3 Biểu lộ cảm xúc trong hội thoại trên khuôn mặt 3 D 7

4 Cử chi trong hội thoại 15

4.1 Ngôn ngừ đánh dấu cư c h i 16

4.2 Tông hợp neôn ngữ cứ chi tiêng Việt trono agent hội thoại 3 D 19

5 Nhập dữ liệu hội thoại thông qua nhận dạne chừ viết tay trực tu y ế n 22

5.1 Thuật toán lấy điểm m ẫu 26

5.2 Hệ thống nhận dạng 28

5.3 Thực nghiệm 29

6 Kết lu ậ n 32

Tài liệu tham k h a o 33

1

Trang 3

Các các bộ phối họp nghiên cứu

Trang 4

DANH MỤC HINH VẼ

Hình 1 M ô hình giao diện naười dùng dựa trên aaent hội thoại 2

Hình 2 Mầu file A 1 M L 6

Hình 3 Mô hình mặt theo C A N D ID E và G R E T A 8

Hình 4 Khuôn mặt biểu lộ cảm x ú c 10

Hình 5 M ô hình tương tác với hệ thốne 10

I lình 6 Giao diện tươim tác của hệ thong 15

Hình 7 Bảng chừ cái của ngôn ngừ cử chi tiếng V iệ t 16

Hình 8 Các khớp nối H-anim chúng tôi sư dụns trone aaent 3D đê tôns hợp naôn ngừ cử chỉ tiếng V iệ t 20

I lình 9 Tống hợp ngôn ngừ cử chỉ tiếng Việt trên agent hội thoại 3D 21

I lình 10 Aucnt 3D thể hiện câu "Sáng nay tôi di học” trons neôn ngừ cứ chi tiêns V iệ t 21

I lình 1 1 Agent 3D đánh vân từ "P EA C H " trona ngôn ngừ cư ch i 21

Hỉnh 12 Các thiêt bị câm tay màn hình cam ứng 22

I lình 13 Thể hiện xấp xi một nét băn 2 16 diêm và sau đó dược biên dôi ngược nhờ 16 tham số 25

1 lình 14 Sơ dồ thuật toán tính sổ điêm trên mồi n é t 26

I lình 15 Thế hiện điểm tương đương và sai sô cua một diêm 27

I lình 16 Thể hiện sự lây mẫu 16 điêm và các tham sô xâp xi cua biên đôi Cosine 27

I lình 17 Sơ đồ các bước của thuật toán và độ phức tạp tirơns ứn 2 với các bước 28

I lình 18 I lệ thốnu nhận dạns chữ viết tay tiếns V iệ t 29

I I inh 19 M ô hình chương trình nhộn dạna chữ viết tay tiếng V iệt trực truyền 3 1

I lình 20 Ví dự nhộn dạng chữ viết tay tiếng V iệ t 3 1

11

Trang 5

TÓM TẢT NHŨNG KÉT QUẢ CHÍNH CỦA ĐÈ TÀI NCKH

• 03 bài báo đăng tại kỷ yêu hội nehị quôc tê (đăng bơi IEEE CS)

rhe Duy Bui Duy Khuone Nguyen Tien Dat N«o "Supervising an

unsupervised neural netw ork" Asian Conference on Intelligent Inform ation and

Database Systems Quanii Binh Vietnam IEEE Computer Society Press.

Nmiyen Duy Khuong The Duy Bui "On the Problem o f Classifying

Vietnamese Online Handwritten Characters" ỈC A R C Ỉ' 2008: IEEE Computer

Society 2008.

Du\ Khuoim Nguyen I he l)u \ Bui "R ecoani/ina Vietnamese Online

Handwritten Separated Characters" A LP ÍT 200H: IF.F.H Computer Society

2008.

• 02 báo cáo tại hội nahị quôc tè

Trang 6

Da Phuc Phan, Thi Nhat Thanh Nguverh The Duy Bui , "A 3D Conversational

Agent for Presenting D igital Information for Deaf People" PRIMA2007.

Thi Duyen Ngo, The Duy Bui , "When and How to Smile: Emotional

Expression for 3D Conversational Aeents", PRIMA2007.

3.2 Ket quả phục vụ thực tế :

M ột hệ thông giao diện người dùne thư nehiệm dựa trên aaent thôna minh 3.3 K êt quả đào tạo (sô lượna sinh viên, học viên cao học nahiên cứu sinh làm việc trone dề tài):

- 02 cử nhân đã tốt nghiệp:

Đào Thanh Tuan, A SIFT-based Face Recognition Method, khỏa luận lòt

nghiệp trường Đại học Công Nghệ, 2008.

• Nguyễn Duv Khương, Các phương pháp nhận dạng chữ viết tay tiêng

Việt trực tuyến Khóa luận tôt nghiệp Trườna Đại học Công nahệ 2008.

- 02 thạc sĩ dã bảo vệ thành công:

Vũ Quốc Huy Xây dụng hệ thông agent hội thoại hiện thôn cho tirơMỊ

tác người-máy Đại học Công nghệ 2009.

• Đặng Tuân Anh Nghiên cứu nhân ban chuyên động khuôn mặt trên các

3.4 Kết quá Iiâng cao tiềm lực khoa học (nâne cao trình độ cán bộ và tăng cường, trana thiết bị cho dơn vị):

- Nâng cao năng lực chuyên môn cua cán bộ phòna thí nghiệm vè các lĩnh vực tro na tirơne tác người máy và agent thông minh.

Trang 7

Cùníỉ với sự phát triên của công nghệ và thành công trong các lĩnh vực nahiên cứu trong nhiều năm qua, chúne ta đang tiếp cận dược nhừna cuộc hội thoại siừa người và máy tự nhiên hơn Cụ thể với nhừne thành quả trons các lình vực khoa học như ngôn ngừ học phân tích cấu trúc câu phân tích tiên lì nói nhận dạns tiêna nói nhận dạng chừ viết, nhận đạrm cứ chỉ mà chime ta dã và đana xây dựne được nhĩnm

hệ thống hội thoại tươne tác giữa người và máy giôrm như siừa con im rờ i và con neười Những hệ thốim hội thoại như vậv sẽ làm cho quá trình giao tiêp gi lìa người và máv trở nên hiệu quá hơn một cách tự nhiên hơn Máy tính khônu chi dơn ihuân don nhận thông tin từ con naười qua các thiết bị như bàn phím, chuột, màn hình mà nó còn

cỏ thế chấp nhận dừ liệu từ nhiều cách thức khác nhau như âm thanh, hình anh các thiết bị khác Con neười có thè giao tiếp với máy tính bàng giọng nói băng cư chi bàna chữ viết Neược lại máy tính hồi đáp lại con nsười băng những cuộc hội thoại íiiốim như n 2 irò'i với người, bằna khuôn mặt 3D biêu lộ cam xúc cư chi điệu bộ ha\

có thè tồng hợp tiếns nói đề đối thoại lại với con nsirời Nhờ dặc diêm da cách thức dầu vào như vậy càns làm cho quá trình tươne tác giữa người và máy trở nên thân thiện, dề dàng hơn.

Trang 8

/ \

Hình ỉ Mô hình giao diện người dùng dựa trên agent hội thoại

Hệ thống giao diện người dùne dựa trên agent thône minh được xây dựng trone đề tài nàv dược thiết kế đê có kha năng tươne tác với neười SŨ' đụna thôrm qua nhiều hình thức khác nhau (xem Hình 1) Đây là một asent hội thoại thông minh với các mô hình SII\ iiíỉhĩ cảm xúc và tính cách Agent có thê nhận thông tin từ neười sư dụnu thôna qua chừ viết từ bàn phím, chừ viêt tay trực tuyên, nhận dạng tiêns nói \ à nhận dạno CU' chi Agent có thè truyên tai thông thôna tin dẻn nsười sử dụna thỏna qua \ăn ban tiêim nói tông hợp biêu lộ cảm xúc và chuyên độn 2 mỏi trên khuôn mặt 3D và cư ch 1 diệu bộ trên mô hình nmrời 3D I rone khuôn khô đê tài chúng tôi khôno tiên hành phàn nhận dạns tiêna nói và nhận dạne cứ chi.

Nuà> nay máy tính được mọi naười sử dụna n»à\ càna nhiêu khòna chi tại nơi lãm

\ iệc mà còn ờ nhà do \ậ> một môi trưừna thân thiện hơn cho việc tươnu tác Siiừa

1

Trang 9

người và máy trở là một nhu cẩu cẩn thiết Nếu con nsười có thể tươns tác với các máy tính một cách tự nhiên hơn thì công việc có thể được thực hiện nhanh hơn rất nhiêu Trong đa sô trường hợp con người tươna tác với nhau thôna qua lời nói chừ viêt và các cách thức phi ngôn ngừ như cứ chí nét mặt dáne điệu Trong tươne lai các máy tính cân có khả năng hiêu được ngôn nsữ để tươna tác tự nhiên thực sự với con người Không những hiểu ngôn ngừ mà nó còn có thế đưa ra các phan hồi một cách tự nhiên với người dùng thông qua ngôn từ Nhùng nhu cầu tất yếu này chính là dộng lực cho sự ra đời của aaent hội thoại.

Agent hội thoại là một agent thôna minh có thêm các chức năng hội thoại như hièu dược naôn ngữ tự nhiên và có kha nãno dáp ứng một cách thông minh với những yêu cầu người dùng Aíient hội thoại dược ứng dụng rất rộng rãi trona nhiều lĩnh vực như

là chăm sóc khách hàng, trong các trò chơi điện tư trong giai trí chăm sóc sức khoe

và nhiêu lĩnh vực khác Agent hội thoại tận dụng ngôn ngừ tự nhiên và nhừns kỹ thuật ngôn nmì sư dụ nu máy tính, sao cho máy tính giốne như con naười Chủng có thè hồ trợ một loạt các írim dụng trong đời sông như kinh doanh, uiáo dục chính phu \ tê và vui chơi giai trí:

• Dịch vụ khách hàng: Đáp ứng lại những câu hỏi chung chung cua khách hànu

về sản phẩm và dịch vụ ví dụ như tra lời các câu hởi về việc áp dụns cho việc mua xe ô tô trả góp hoặc việc thê châp nhà cưa.

• Công việc giấy tò' (H elp desk): Đáp ứng với nhừne câu hòi cua nội bộ nhân viên, ví dụ như tra lời các câu hoi nhân sự.

• H uó n g dẫn duyệt \veb: chi dẫn khách hàna đên phân có nội duns thích hợp của các trans web phức tạp.

• H iróng dẫn bán hàng: Cun 2 cắp các siai đáp va hướng dần trona quá trinh bán hàna đặc biệt là các sản phẩm phức tạp bán cho các khách hàn« mới.

• Hỗ trọ kỹ thuật: Đáp ứna với các vấn đề kỹ thuật, chũns hạn nhu chân đoan một vẩn dè về một san phàm hay điện thoại.

2 Nội dung hội thoại ■ ■ ■

Các hệ thống hội thoại thường, dược thiết kế dê có thê hièu dược dâu váo cua ninrời tlùns dưới đạim văn ban nhirns hàu hêt các chi dưới hình thức hoi đáp thônii qua việc quét các tù' khóa trono dừ liệu dược dưa vào và cho ra một tra lời phù hợp nhát với tư

->

j

Trang 10

khóa từ trong cơ sớ dừ liệu Các kỹ thuật để xây dựr )2 nội duns hội thoại bao 2 ồm: tìm mầu (pattern matching), tìm từ khóa (keyword matching), phân tích noôn naữ tự nhiên (natural language parsing) hay các kỹ thuật khác Trono đề tài này chúna tôi sư dụns một hệ thống hội thoại tiếng Anh, và sư dụng cơ sờ dừ liệu dưới dạna các tệp A IM L (A rtific ia l Intelligence Markup Language) Trong hệ thống này chúng tôi sư dụng thư viện A IM L B o t [2] hay còn có tên là Program# là một thư viện nhò thực thi nhanh và

dễ dạne bổ sung các tuy biến tương thích với các chuẩn của A IM L A IM L B o t dược sứ dụne trone các chương trinh Chatterbot viết băng c# A IM L B o t cũns đã được kiêm thử trên cá hai môi trường M icrosoft runtime và Mono trẽn Linux.

• Cuníì cấp AIM dơn giản và hợp lý hơn.

• I iồ trợ định dạng A IM L chuấn với tùy chọn cho các the mới.

• Kích thước rất nhò (khoàne 56k).

• Tốc độ thực thi nhanh (xư lý 30.000 chu đề chưa đốn một giây).

• Dược kiêm thứ toàn diện dựa trên nUnit.

• "B ộ não" cua bot được lưu trừ ơ dạng tệp nhị phân (Graphmaster.dat).

Phiên ban mới nhất cua A IM L B o t được xây dựng trên nền NET 2.0 cua M icrosoft và

có bốn lớp:

• Bot - Gỏi aọn các thao tác của một chatterbot.

• User - Dỏnu nói thôna tin và lịch SƯ cua người hội thoại.

• Request - M ô ta tat ca các loại thòng tin về một yêu cầu dược gưi tới chatterbot

xử lý.

• Result - Đóns aói các thòna tin về két qua tra vẽ cua chatterbot.

Quá trình xử 1Ý một vèu càu được mõ ta O' mức cao như sau:

4

Trang 11

1 Dữ liệu đâu vào thô sẽ được đóng gói vào một đối tượna kiểu Request và phân chia thành các câu hợp thành rồi chuân hóa đề tạo ra "path" cho bộ não cua bot.

2 M ồi "path được liên kết với một đối tượno SubQuery và nó thực thi đê có được kết quá là một tập hợp mẫu A IM L

3 Bât kỳ thẻ A IM L nào được tìm thây trong mâu sẽ được thône dịch và dừ liệu thô trả về được tạo ra.

4 Kêt quả được đóng gói vào một đổi tượne Result và tra về cho hot.

Trong dó thư mục A IM L Files chứa các tệp có định dạng A IM L phục vụ cho hội thoại (xem Hình 2).

A IM L là một dạng X M L được phát triên bơi Richard Wallace và cộng đồn 2 phần mềm tự do trên toàn thế giới từ năm 1995 đến nay A IM L được sư dụng đầu tiên cho chương trình chattterbot với tên gọi “ A L l.C E " (A rtific ia l Linguistic Internet Computer Entity) A I M L là tập hợp các mẫu đầu vào và phan hồi cho A LIC E

A IM I chứa các mẫu dữ liệu nhập vào và mẫu các phản hồi tương írne cho các chương trình chatterbot Các câu dừ liệu nhập vào sẽ được phân tích dê tìm ra mẫu thích hợp Irong tệp A I M L sau khi tim thây thì các phản hôi tưane ímtỉ sẽ dược trả lại cho neưỡi dùng Tệp A1M L đơn thuần là một file X M L cho nên rât dề dana dê thêm sưa xóa nội dune, nhờ dỏ có thế làm cho nội dung hội thoại trở nên phone phú và cuôn hút.

Trang 12

<pattern >WHAT l í YO'T ■ ' p a \ - •? r n •

<template>My name is John.< / template>

' / ra * e ỊO T y ■

Nlur vi dụ trên, khi chatterbot mà nạp nội dune the cateaor\ nà\ vào bộ nhớ thì bot sẽ phàn hồi lại câu hoi "W hat is your name” hàng câu " M \ name is John".

Nội dung của the pattern chứa một chuồi ký tự có nội duna phù hợp với một ha> nhiêu

dừ liệu dược người dùnu đưa \ ào Ví dụ với một mầu như dưới đây

WHAT I:’ YíXiị.

Thì chi lưonu ửim ch 1 một dữ liệu dầu vào là "what is Your name" Nhưna YỨi một mầu °ần oi ôn 2 VỘY mủ tíi sư đụnu k\ tự dụi diện như phícì dưới

WHAT IS YOUR *

6

Trang 13

thì nó có thê tương ứng với rất nhiều đầu vào như là "what is your name", "what is your shoe size” , "w hat is your purpose in life " và rất nhiều cảu kiểu như vậy.

Nội dung trong thé template là sự phàn hồi tươns ứne với một mầu Có thè chi đơn eiản với nội durm

My name is Hoa.

Hay với một mẫu sử dụne biến như

My name is <bot name= "name"

sẽ thay thế tên của chatterbot vào trone, câu Hoặc

You told me you are <get name= "jser-age"/> years old.

sẽ thay the tuổi của người dùng nếu chatterbot biết vào tro n a câu.

Nội dung của the template có thể đơn thuần là văn ban thuần túy hoặc cũnu có thê là câu diêu kiện hay một loạt câu phục vụ cho sự phan hôi neầu nhiên Thè template cũne

có thê dược định hưởng dên một mẫu khác băng việc sứ dụne the srai trono nó việc này thuận tiện đôi với các mau dâu vào có nội dung uiônu nhau.

< category •

<pa* te rn ■ Vi HAI IS V : :• torrt ■

< t e m p l a t e -My narr.e i ' r :a m t= " r.a iĩie " / ' < / • rnp 1 -J • •

3 Biểu lộ cảm xúc trong hội thoại trên khuôn mặt 3D

Bên cạnh các imhiên cửu \ c nội dung hội thoại, người ta còn quan tâm đòn một sô vân

dè khác như tính cách, cám xúc trí nhớ dế agent hội thoại trơ nên gần giông với con

ìm rời hon M ột tronu Iliu m í! thành phíin quan trọn ‘2 cua agent hội thoại la kha năim biêu lộ cam xúc trên khuôn mặt và chuyên động môi khi nói.

Khuôn mật cua con nmrời là rất dặc biệt, nó là một phân quan trọng cua cơ thô nhớ nỏ

mà có thè nhận ra dána vé bề naoài cua một con người [3], Trong sô hang trám khuôn

7

Trang 14

mặt, chúng ta vân có thê nhận ra một mặt quen thuộc Chúne ta cũng có khả năna phát hiện sự thay đối nhỏ cua nét mặt Khà năng này phát triền từ những ngày thơ ấu rất sớm cùa chúng ta và nó trang bị cho chúna ta côna cụ giao tiếp cơ ban.

Nét mặt con người đóng vai trò rất quan trọng trona hội thoại trực tiếp Chuyên độns của môi khi nói cung cấp một gợi V trực quan về những £Ì dans được nói Cohen và Massaro [4] đã cho thấy rans video chứa sự chuyển độna của môi cùng với âm thanh

sẽ tăne sự nhận biết âm ngừ hơn so với nếu chúng ta chi có âm thanh Sự chuyền dộna của môi là rất cần thiết cho người khiếm thính đê hiểu một cuộc đàm thoại Biểu hiện khuôn mặt trong hoàn cảnh giao tiêp phi ngôn ngừ thường ngụ Ý sự thay đồi năne dộng cùa nét mặt theo thời gian Tuy nhiên, như là hình ánh tĩnh cùa mặt cũns có thè bày tò cảm xúc, các mặt biểu hiện có thê được tĩnh M cặ c dù nếu không có n«ừ canh đi theo thi với chí hình ảnh nét mặt chúng ta có thể bị mơ hô và nhập nhănc Nét mặt thay dôi liên tục trong quá trình eiao tiếp Nét mặt có thê biêu lộ cám xúc và tâm trạng

Nó cũng có thể truyên tái thông tin vê nhân cách hay cá tính cua một người Thône tin này ấn bên trong cua con người mà không thê lây dược từ các kênh hãnu lời nói.

Gần đây sự quan tâm đổi với việc mô hình hoá kiêu dánu khuôn mật và mỏ hình hoá

đã được thúc đấy nhờ sự xuất hiện ngày càníí mạnh mẽ cua nhừnu nhân vật ao tronu phim, trone băng đĩa và các trò chơi máy tính Các írne dune có thê khác lù: đàm thoại 3D gửi thư điện tử 3D hoặc tán chuyện qua hệ thốne các máy tính được kết nòi với nhau Liên tục kê từ côna cuộc tiên phone của Parke [5] các cuộc rmhiên cứu dã cô âẳne, để tạo ra một kiểu dáng khuôn mặt và hình anh hoạt hoạ giônti như thật I linh 3 minh họa một mô hình mặt theo CAND1DE và GRETA.

Hìtih 3 Mõ hình mặt theo CAXDIDE vù (/RI:T l

8

Trang 15

Sự phức tạp của kỹ thuật giải phẫu khuôn mặt người và các biêu hiện tình cam tự nhiên thể hiện trên nét mặt làm nảv sinh khó khăn trone việc mô hình hoá diện mạo khuôn mặt người và những biêu hết sức tinh tế Mặc dù một vài nghiên cứu 2 ần đây [2 4, 6J đã mang tới những kết quả thực tế với nhữns bước tiến triển khá nhanh, quá trình tạo ra một mô hình đẩu người đặc biệt phù hợp với biếu hiện hoạt hoạ trên khuôn mặt thường đòi hỏi việc aia cône nhiều hơn cua con neười [6] nhìrno biểu hiện vật lý trên khuôn mặt [2], hay sự cần thiết cua một cơ sờ dừ liệu khồna lồ cua các khuôn mặt neười [4].

Hệ thống khuôn mặt 3D biểu cam của agent hội thoại trong đề tài có thể diễn ta được cảm xúc từ những cử chi nhăn trán, nhíu lông mày nơ nụ cười, hoặc to vẻ neạc nhiên Mặt khác, hệ thông mặt 3D này cũng có chức năng tône họp tiếna nói từ văn ban (xem

I linh 4).

Trong hệ thống chúng tôi sir dụng thư viện M B R O LA chịu trách nhiệm tôn 2 hợp tiêne nói M B R O LA dược sứ dụne rộng rãi cho nhiêu dự án trên the giới M B R O LA cìins cung câp nhiêu cơ sớ dừ liệu diphone cho các neôn nuĩr tự nhiên cua nhiêu nước I u\ dựa trên điphone nliưne chát lượng âm thanh cua M B R O LA được đánh íiiá cao hơn

so với các ehirơna trìn h tone hợp âm thanh khác Ngoài ra nó còn dễ tlane SU' dime và cài dặt cho írim dụng.

Trons hệ thống sư dụns ParleE thực thi mô hình cam xúc Parlcl{ là mô hình cam xúc cho aeent thône minh với kha năns linh động, định lượne và tươna thích cho aucnt hiện thân trong một môi trườn® có nhiêu aeent Mô hình này dược trièn khai dựa trên

mô hình suy nshĩ với bộ lập lịch xác suât và bộ đánh aiá sự kiện dựa trên quá trinh học ParleE dược dựa trên một số mò hình cám xúc có san ParieH được xã> dựno dựa trên m ô hình o c c

9

Trang 16

S a iln e s:; S a iln iỉs s " S H liM V i

H -iịi(in u - ss ' m m m 1 l,lịJ|IIIIISS 1 l» |l||j|lf’ SS

1 l.iịip v loe m m m m m 1 l<ip|iy 1(11 1 l.i|i|iy liir

Hình 4 Khuôn mặt biêu lộ cam xúc

Chúne tôi tích hợp hai thành phân sinh nội duns hội thoại và hệ thôn LI khuôn mặt 31) thông qua đường kết nôi mạng TCP (xem Hình 5) Tính thuật lọi cua uiái pháp nà\ dó

là 2 thành phần cua hệ thốna mane tính dộc lập cao cỏ thê tự do phát triên mà vần có the tích hợp dược vì dã chuân hóa dừ liệu trao đôi.

C-onsoliíBot

ỊI M L B o t

3D Í K ~ SỵStem

ỉ/ình 5 Mô hình I irony lúc với hệ ihôiiíỊ

Nsười dìnm nhập dữ liệu băna văn ban sư dụng bàn phim hoặc chừ \ iêt ta> trực tuyên Trona tirơna lai chúntì tôi sè tích hợp hệ thốna nhận dạng tièng nói Khi người dung nhập dữ liệu vào hệ thốn 11 sẽ xư lý dưa ra phan hôi tương ứng cùng với dó la gưi

10

Trang 17

thông tin phản hôi qua hệ thống khuôn mặt 3D để hệ thốne này phát ra tiếns nói và biểu hiện cảm xúc trên khuôn mặt.

Dữ liệu trao đổi qua hai hệ thốne là một nội duns X M L có dạn 2 như sau:

Trang 18

P H O N E M E : chứa các thông tin văn ban để cho khuôn mặt 3D tông hợp thành tiếng

nói Thông tin văn bán đó được đặt trone thuộc tính text, naoài ra còn có thuộc tính

time đế xác định mốc thời gian.

H E A D M O V E M E N T : chứa các thông tin để diêu khiên sự hoạt độn 2 cua đâu irony

the này bao gồm các thuộc tính: time, duration HHAD R O TA TIO N X IN C R 1.AS!\ HEAD R O TA TIO N X DECREASE H E A D R O T A T IO N Y 1NCREASH.

HEAD R O TA TIO N Y DECREASE IIK A D R O TA TIO N 7 INCR1.AM

HEAD R O TA TIO N Z DECREASE.

E M O TIO N D IS P LA Y : chứa các thôna tin điêu khiên sự bộc lộ cam xúc trên khuôn

mặt 3D Trong thẻ này aồm các thôna sô chính như:

o Sadness: aiá trị thê hiện cho sự buôn râu.

o Happiness: eiá trị thể hiện cho sự hạnh phúc.

o A nger: giá trị thè hiện cho sự tức eiận.

o Fear: eiá trị thể hiện cho sự sợ hãi.

o S urprise: Siiá trị thẻ hiện cho sự naạc nhiên.

o Hope: uiá trị the hiện cho sự hy vọng.

o H a p p yF o r

o Shame: íiiá trị thô hiện cho sự xâu hô

o P ride: oiá trị thô hiện cho nicm kiêu hãnh,

o Disgust: 21 á tri thò hicn cho SƯ cảm phân.

12

Trang 19

Tuy nhiên đế để cuộc hội thoại có khả năng bộc lộ cảm xúc thì chúns ta phai có phương pháp hoặc cách thức để thiết lập các mức độ cám xúc vào các câu trả lời cua

hệ thông sinh nội dung hội thoại Do vậy ở đây chúna tôi đã mở rộng the trona A IM L

để phục vụ cho điều này Bang việc mở rộng thêm the chúng ta có thế tạo thêm các tính năng cho hệ thống hội thoại.

Trong hệ thống này chúng tôi đưa các thông số cảm xúc vào cho các lời phan hồi cua agent Các câu phan hồi không có cảm xúc chúng tôi vần dê theo định dạne mặc định của A IM L , còn câu phán hồi khác chúng tôi thêm the <response> với các thuộc tính như sau:

o T e xt: Chứa thông tin văn bản phản hồi của asent

o Sadness: giá trị thể hiện cho sự buồn rầu

o Happiness: eiá trị thể hiện cho sự hạnh phúc,

o A nger: uiá trị thê hiện cho sự tức giận,

o Fea r: giá trị thê hiện cho sự sợ hãi

o S urprise: giá trị thê hiện cho sự ngạc nhiên,

o Hope: eiá trị thế hiện cho SỤ' hy vọns.

o H a p p yF o r

o Shame: aiá trị thê hiện cho sự xâu hô

o Pride: eiá trị thê hiện cho niềm kiêu hãnh.

o Disgust: siá trị thè hiện cho sự căm phan.

Thôna số cam xúc có giá trị trona khoane từ 0 dên ] tùy vào mức độ cam xúc cua hội thoại Việc xác định íiiá trị cho các thôna sô cảm xúc trona báo cáo nà\ dược \â \ dựni’ theo phirưna pháp chú quan Trong hội thoại thực tê ch ủn ° ta có thê dựa vào câu hoi

và câu trá lời để biết duực phần nào cảm xúc cua hội thoại Ví dụ nêu một 112 ười hoi ai

đó " H o w a r c y o u t o d a y ? " m à ncười k ia trà lời " I ' m f in e " till chúng ta có thê ƯỚC lưựno

oiá trị Happiness là cao eiá trị Sadness thấp, giá trị Anger thấp Tuy phương pháp ước lirơn« «iá tri này là chu quan và thu côna sons phàn nào cùng dưa ra dược giá trị các thôn ° số cần đúns với cám xúc trons các cuộc hội thoại dơn gian và pho bicn.

Ví dụ một phai hòi có kem theo tlioim tin cam xúc nlur đirới c!a\:

: <cate :ory ' •

Trang 20

<pattern>How are you today</pattern>

14

Trang 21

ou: yes, I g r o w u p there I like it

ỉ o t : T h i s was n o t ã y e s o r no q u e s t i o n I d o n ' t know a n y o n e nanedup

Hình 6 Giao í/iện tương lúc cua hệ thông

Hệ thống này được dựa trên AIM1 chuân nên có thê sir dụnu dược nhiêu cơ sơ dữ liệu

A IM L dược xây dựng từ các cộns dôna trên mạng, đòniỉ thời rùt linh dộnti và dề dàna

dê thèm các thè mở rộna phục vụ cho các phan hỏi kèm cám xúc.

4 Cử chỉ trong hội thoại

No ôn im ì cư chi tỉórm mỏt phần quan trọnu trona \ iệc giao tiôp tiiừa con nmrơi \ ói con im rờ i Tron ° cỏnn đồna nnirời khièm thính, nuòn ngừ cư ch 1 là phưưna tiện siao tiếp chính 11 7| T ro n 2 đề tài này clúm<: tòi trình bà} những thư nghiệm dê phân tích nhừn° cử chi trona naôn neữ cư ch 1 tièns Việt sao cho chúng có thê dễ dàn« dược tồno hạp trona aaent hội thoại 3D \ ói tập trung vào sinh ra cư chi dè phục vụ giao

15

Trang 22

tiếp với người khiếm thính Để mô tả cử chỉ trone naôn ngừ cư chì tiếne Việt, chúna tôi đê xuât một ngôn ngừ đánh dấu hoạt họa và dựa vào neôn naừ này chúne tôi thiết

kế một agent hội thoại 3D để đưa thône tin đa cách thức tới nsười khiếm thính Aaent 3D này có thê trợ giúp neười khiếm thính một cách dề dàng và tự nhiên hơn.

0 A

•3 /

1

o K

/ n ( y

s

h

I V T

ul-jLií<ì X

\ + ìỉ> >

W

Y

Iỉình 7 Bang chữ cái cua ngôn ngữ cư clu tiếng I 'iệl.

Ngôn ngừ cử chi tiếng V iệt được dựa trên ngôn \mữ cư chi cua nmrời Mỹ dã dược phát

triển kĩ lưỡng Do dó có trên 600 khái niệm tronu ngôn Iiiiừ cư chi tiône Việt, có thê phàn tách thành hình vị và âm vị [5] Với nhừnii khái niệm khác, chúng ta cỏ thò dựa vào cách đánh vần bàng naón tay cua các từ tiếng Việt giỏna nhu hệ thòng ngôn ngừ

cứ chi của người M ỹ Hình 7 thể hiện bans chừ cái cua 112011 ngữ cư chi tiêng Việt Mồi cử chỉ / h ìn h vị trona neôn nsũ' cứ chi tiêns Việt có thê là một hình dạng tĩnh hoặc là một cử chi độne M ột cử chi bẳt đầu bàng một hình dạng tĩnh tiêp đó là một chuvển độn? tay Nói chunti một cứ' chi / hình \ ị có the dược tông liựp thành những

âm vị: hình dạne bàn ta \ hướns lòng bàn tav vị trí tay và chuyên động bàn t a \

Hình dạng bàn tay

Có rất nhiều kiêu hình dáns cua bàn ta> trong ngôn ngừ cư chi tiêng Việt M ột sô hình dáne bàn tay diên hình là: nám mớ rộng, mớ hẹp chừ c ngón ta> chi móc càu Một cách trực quan, hình dánti bàn ta\ có thê dưực phân biệt bơi mức độ cong cua mồi naón tay và khoãna cách aiìra cá ngón ta> Chúng tôi dô xuãt 5 mức dộ uôn cong từ rât Iiliỏ đèn ràt lớn Nũm mức rùì\ lii till lie 1110 til cu chi tio iiu Ucny \ lọt Khoíinu cíich ojfra m ồi n °ó n ta \ là nhỏ hoặc lớn I lìn h dáng ban tu> cũng có thò được SƯ dụng dô mô

16

Trang 23

tả tư thế trong đánh vần bàng ngón tay Sau đây là cách mà chúno tôi mô ta một hình dáng bàn tay trong X M L :

<hand_shape>

<thumb> very small/ small/ medium/ big/ very big </thumb>

<index> very small/ small/ medium/ big/ very big </index>

<middle> very small/ small/ medium/ big/ very bia </middle>

<ring> very small/ small/ medium/ big/ very big </ring>

<pinky> very small/ small/ medium/ big/ very big </pinky>

<distance> small/big </distance>

hướng bên trái (đối với X) và -I nuhĩa là hướne ra no oài (đôi với /.) hướim xuònsi

dưới (đối với Y ) / hướng bèn phai (dối với X).

< h a n d _ p o s i t ion>

< t y p e > d e p e n d e n c e i n d e p - r d e r e e • ' t y p e >

< d e p e n d _ p o s t > u p / d c w r / ' e q u a l • / o - v : : e r c _ p : s '

Đ A I H O C J GiÃ* - A T :TRU NG T A M r ụ o \ G TIN TH j J E ' 117

Í ) T / q q - 4

Trang 24

< p o s t > h e a d / l _ h e a d / r _ h e a d / c h e s t / l _ c h e s t / r c h e s t / w a i s t /nose / e y e / m o u t h < / p o s t >

Chuyển động của bàn tay thì phức tạp hơn chuyên độne cua ngón lay M ột chuyên độna của bàn tay có thể được mô ta bởi độ cong (đường thăng, dường tròn), hướng (theo chiều kim đồnc hồ hoặc neược chiều kim đồng hồ), khoang cách (ngắn, trung bình, dài) và sổ lần chuyến động Dưới đây là cách mà chúng tôi mô ta chuyên dộng tay tron a X M I.:

<h a n d _ m c v e >

<type>lin e /circle sin <■ / type ■

<di sta nc e >sh ■ > r t / me : : i • m 1 Dn 3 • :i - star, re>

Trang 25

thể là ngẳn trung bình, hoặc dài; < d i r e c t i o n > biểu thị hướng cua chuyên độna trong đó có thế được tách thành 2 phần nho: trục của chuyện động và hướns cua chuyển động; và < tim e > biểu thị số lần chuyển động được lặp lại.

Dựa trên đê xuât về ngôn ngừ đánh dấu hoạt họa cho neôn ngừ cư ch 1 tiếns Việt, chúng tôi đề xuất một phương pháp để đưa ra thông tin đa cách thức cho naười khiếm thính sử dụng agent hội thoại 3D Thông tin được đưa ra cho người khiếm thính nhờ agent 3D ở một sô dạng: văn ban tổng hợp ngôn ngừ cư chi di chuyển cua môi và biếu lộ cảm xúc trên mặt Aeent 3D dược xây dựne dựa trên Java3D V R M L (ngôn neữ mô hình hóa hiện thực ao) và H-anim Mô hình 3D cua agent bao 2 ồm đàu và thân.

Biêu lộ cam xúc trên khuôn mặt được tạo ra từ mô hình cơ đề xuất hơi Bui [9], Sự di chuyến của thân người dược thực hiện với H-anim Dựa vào các đoạn và khớp nối II- anim hỗ trợ một tập các đặc ta đê tạo ra chuyên độns cua neười irons thê oiới ao Phàn thân người là sự kêt hợp một sô đoạn (như eăim tay bàn tay và chân) kêt nôi với nhau

hơi các khớp (như k h iiY u tay cô tay và m ăt cá chân) Như dược dê cập tron li mô la

chính thức, mục đích chính cùa H-anim là tạo ra một hình dánii cua niíirời \ ói tính tươrm thích, tính mềm deo và tính đơn giản Trong báo cáo này phàn thân người được xác định là sự phân cấp cua các đoạn và được kết nối ơ khác khớp: kích thước tương đối dược đề xuất bơi chuấn nhirníi khôns bắt buộc, cho phép dinh nghĩa và \â \ dựng hoạt họa eiốnạ nhu' một nhân vật Hình dán 2 neười trone chuân Il-anim có thê có các mức độ gắn kết khung xươns khác nhau Một đặc tinh khác cua chuan ll-anim la chúno ta có thề truv xuất đến các điêm trên cơ thê nsười dựa vào tên và vị trí thực sự trons khuna xươns cua chúng Hình 8 thè hiện tên cua khớp nổi mà chúng tôi sư dụng trone agent 3D dê tons hợp ngôn ngừ cư chi tiêng Việt.

I 1)

Trang 26

W r isr_Right W i ir-r l.eir

1 liuitib.Joint — Kighr 1 Iniml D.Ji jinr _ J.eir

1 tlllllll j.Joint 2 _Highr i'liuiiib.loinr 2 J eft Index 1 jiur _ Right index.) •'lint eft liKÌex.l jilIt _2 _li ighr Index < jinr _2 _ eft

Index.J jim 3 Highr Index oillt J) el't Middle loinr Higlir MuUlle I'jiiir l.etr Mir [rile.I'jinr 2 H Uhr Micelle I'jiiiT 2 Middle 1 • ji I It i HUIir Middle loiiir '■} Left

lí illg'.liJ i 11 r K U h r Hill ạ.i■jinr ].eft Hilii'.li jiur : 2 KUlit Hill 2 1 jiut 2 J.rir

H ìuịị-I'J i 11 r _ ụ i ư Kill ;.l jinT_o _].^fr IMnkv.l oilir K U h r Pink'.’ oillT l.et'r i’inkv.l 1 Jlllt 2 Hiạlir rinkv oillT 2 l.r-ir

H ìn h tV ( 'úc k h ớ p n ồ i H -anini c h ủ n g lủi sir d ụ n g tro n g

a g e n t 3 D đê tôiĩíỉ h ợ p n g ô n n ạ ữ c ư clu tiê n g I 'iệl

Quá trình tổng hợp ngôn 11 QŨ' cử chỉ tiẻng Việt dược mô ta trong Hình 9 Đâu vào cua quá trình là văn bán đã được phân đoạn là kct quá cua một sô mô đun phân tích ngon ngừ Các đoạn văn bản sau đó được kiêm tra xem nỏ có tồn tại trong từ điên cư chi khôna [11] Nếu có chuỗi X M L tương ứng cho cư chi này được sư dụng đê tạo ra hoạt họa trên aeent 3D Hình 10 mô ta agent 3D thê hiện CƯ chi cua câu "Sáng nay tôi di học" trona ngôn neừ cứ chI tiêng Việt.

2 0

Trang 27

Hình 9 Tỏng hợp ngôn ngữ cư chi tiêng I lệt trên agent hội thoại 3D

Hình 10 Agent 3D thê hiện câu "Sáng nay lói cỉi học " trong ngón ngừ cư chì liêng l 'iệl

Nếu đoạn văn bán khôns tồn tại trons từ điển cư chi đoạn văn ban sê được tách thành các kí tự sau đó được thể hiện hơi aeent 3D theo cách đánh vân ngón tay Hình 11 thê hiện cách mà agent 3D cua chúng tôi đánh vần từ "PEA C H " trong ngôn ngừ cư du.

> > I

Hình ỉ I.Aiỉơnt 3D thinh van lừ "PE-ỈCỈ:" troiĩịỉ ngón ngừ cư chi.

21

Trang 28

5 Nhập dữ liệu hội thoại thông qua nhận dạng chữ viết tay trực tuyến

Ngoài phương pháp sử dụng bàn phím, nhận dạn 2 chữ viết tav trực tu\ến là một phương thức nhập dừ liệu hiệu quá khác.

Tuy nhận dạng chừ in tiêng Việt dã thu được kết quá hết sức kha quan, I llu m e kết qua nhận dạng chữ viết tay tiếng Việt hiện nay còn nhiều hạn chế và được coi là khó hơn nhiều so với bài toán nhận dạng chừ viết tay tiếna Latin Neuyên do là một số nauvẻn

âm có phân dấu mũ nhở nên rất khỏ phân biệt và làm cho số lượng lớp cần phân biệt tăniì lẻn đáng kê.

ơ mức khái quát nhất, nhận dạng chừ viết tay dược chia làm hai loại: nhận dạng chừ viết tay trực tuyến và gián tuyến Nhận dạng chừ viết tay trực tuyển dược thực hiện tại thời điếm dang viết Nó yêu cầu sử dụna cône cụ dặc biệt, chărm hạn bane viết cam ứng đe ghi lại những nét bút cùa dầu hút khi mà chúna đana dược viết Thòna tin nét bút của người dùng được lưu lại thành một dãy các diêm dược nhi lại irons nhĩrim khoảng thời gian băng nhau Một thuận lợi khác trone dừ liệu viêt ta\ trực tuvên là biêt được nhữns nét bút và thứ tự cua chúng, còn dừ liệu chữ viẽt ta\ uián tu\ C'n khônii biết được điều này Tuy nhiên, sự phức tạp xuất hiện khi một nét bút dược thêm vào một kí tự sau khi các nét chính cua từ được viêt xone chãns hạn dâu nsaim cua ' t ' dấu chấm cua T và ' j \ và rất nhiều kí tự có dâu và mũ trong tiênu Việt Nhừno loại nét bút đó được aọi là nét trề.

Trona đề tài này chủng tôi sir dụns dù liệu đầu vào là dữ liệu trực tuyên, là dừ liệu thu dược từ các thiết bị có màn hình cam ứna (Hình 12) nó ghi lại thứ tự các nét bút và tọa độ các điểm trên các nét bút theo thời gian.

Hình 12 ( 'ác thiết hị cầm lay mủn hình cam ihiịỉ.

Hiên nav dà có một số nahiên cửu về nhận dạng chừ \ iêt tiêng Việt Dôi với chừ in dã

có kết qua tirơim đối cao Tu> nhiên, nhận dạng chữ viêt ta> tiêng Việt trực tiiNcn mới

Trang 29

thu được kết quả hết sức hạn chế Tuy có nhừns nét eiốna chừ viết tav Latin, nlurns chữ viết tay tiếng V iệt có những đặc thù riêng, chẳng hạn như tiếne Latin (tiếns Anh) chỉ có 26 kí tự trong khi nếu coi mồi chừ có dấu và mũ chăna hạn a ã â là một ki

tự mới thì chừ tiếng V iệt có đến 95 kí tự và có một số kí tự rất giốna nhau chi khác ư các phân dấu và mũ Hơn nữa chừ viết tay tiếng Việt vẫn chưa có một bộ cơ sơ đừ liệu chuân đế làm cơ sở cho việc đánh giá khách quan sự hiệu qua cùa các plurơne pháp nhận dạng Những điều này gây một khó khăn rất lớn trong nghiên cứu về nhận dạng chữ viết tay tiếng Việt.

Dựa vào sự khái quát trên, đê nhận dạng chữ viết tay tiếng Việt, chime tôi nhận thấ>

có thê áp dụng phép biến đổi bất biến khi bị xê dịch nhỏ và có sự tập trune năno lirợim vào một sô ít các hệ sô Hơn thê nữa các phép biến đối này phui có kha năng loại bo nhiễu và thỏa mãn hai kí tự có độ tương tự nào đó thì sau khi biến dôi sự phân bố các mẫu vê không eian phải gân nhau đê thuận tiện cho việc chia nho bài toán với số lớp lớn gồm 95 lớp Do vậy chime tôi SƯ dụng biến đôi Cosine rời rạc (Discrete Cosine transform D C T) dê làm phương pháp trích chọn đặc trưng cho chữ viêt ta\ tiênu Việt Polyakov và Ryleev I 10] đã dùnu biêu diễn Cosine (Cosine Descriptors) \ớ i sự tham

số hóa biên dôi lặp lại đê tạo ra cách biêu diễn hiệu qua dôi một nót bút dơn cua dữ liệu chừ viết tay bằng một vector sọi là các đặc trưiiíỉ cua nỏ Tuy nhiên, một sô ki tự trên thực tế không được viết bởi một nét mà bằng nhiêu nét Hơn nữa một nét khôim

đù dê nhận biết một kí tự Và người ta dã cố 2 ấns nhận dạne một kí tự thông qua một nét bans cách nôi các nét được nhận dạns đó thành kí tự hoàn chinh |9 10| Nêu tièp tục SU' dụne biểu diễn Cosine, có một vấn đề khó trong chừ viêt tiêng Việt là lam thê nào đè chọn ra nhìmiĩ điểm đẻ thè hiện toàn bộ chữ viêt đặc biệt là tại các nét bút ngăn nhưna quan trọng, (các thanh điệu, dấu m ù ).

Trong báo cáo này tỏi đề cập đến một phương pháp trích chọn dặc trưng hiệu qua sư

dụ no biến dôi Cosine rời rạc (Discrete Cosine transform DC I ) đô chuvcn iTìột dă\ CÍ 1 C tin hiệu tọa độ về một vector thè hiện tập hợp các dặc trưng cua nó Vector đó dược aọi là một biêu diễn Cosine tối LIU (Optimized Cosine Descriptor (O C I))) Quá trinh dó bao cồm hai bước chính:

Bước dầu tiên, từ thè hiện thô ban dầu dược biến đòi thành một lập hệ sô xới biến đổi Cosine rời rạc 18 Ị ).

2 3

Trang 30

- ơ bước thứ hai, tập các hệ sô đó được xử lý để thu được sự chuẩn hóa khôno thay đôi theo đơn vị đo sự di chuyên, sự xoay vòng, và cả đối với vị trí cua điểm bat đầu khi viết.

Một nét bút của dừ liệu chữ viết tay là một dãv các điểm được lấy theo thời eian (x(t) y(t)) Sự chuyến đối cua nét này bất dầu với một tham số khơi nhận được bans sự lấy mẫu lại với những điểm mầu của dữ liệu ban đầu và theo nhĩrne khoans cách bans nhau:

Trong đó điểm đâu tiên đồna thời là đỉnh bắt đầu của nét bút và điếm thứ N là đỉnh kết thúc của nét nút.

Tiến hành xâp xỉ hai tín hiệu rời rạc này theo biến dổi D C T-II M ỗi dãy tín hiệu dược

dặc trưng bang một tập các hệ sô (Fk, G/J của các hàm Cosine cơ ban.

Trang 31

phổ tân sô đế thu được biểu diễn Cosine kế tiếp mà nó cũng là đối tượne cho sự tắt dần Sự lặp lại cho đến khi phép xấp xí cua đa giác gốc đạt được sự phù hợp tốt hoặc tiêu chuẩn hội tụ.

Biến đối ngược các tham số sau khi đã được chuân hóa này sẽ thu được tập hợp các điểm chính là khung của kí tự xem Hình 13.

F(i) 0.0000 0.4656 0.0373 -0.5417 -0.0090 0.0526 -0.0587 -0.0012 G(i) 0.0000 -0.0338 0.6696 0.0543 -0.1559 -0.0342 -0.0632 0.0158

H ì n h 13 T h ê h i ệ n x á p XI m ộ t n é t h ă n g Ị 6 đ i ỡ m

và sau đó íhrợc hiên đôi Híỉirợc nhờ 16 tham sô

Thể hiện này vần chưa đu cho nhận dạng Khi nhiều ki tự dược viết bơi nhiêu nét thi bất kì nét nào trong đó cũns khôns đu đê thê hiện được kí tự đó I ỉưn thê nữa nhận dạng mồi nét rồi sau đó nhận dạna toàn bộ kí tự hăng việc nối nét được nhặn dạng với những khuôn dạns có thể không phải là hướng tiêp cận hiệu CỊIU 1 khi những lôi nhận dạne hai lần hay tích lũy.

Sau dày chúníi tôi sẽ trình bày làm the nào dê thu được biêu diễn Cosine cua tàt ca các nét bút của một kí tự hợp Illicit trons một tập đon các thuộc tinh dặc trưng I ha\ \ 1 gãn mỗi môt nét bút với một kí tự tíì coi nhữns nét bút cun mọt ki tụ theo thư tự \ let ta\ như một dãy các diêm Toàn bộ mầu bây giờ xir lý giống như miêu ta ư trên, ngoại trừ môt luàt dươc tlicm vào Oó Ici Cii ciicin belt dull \cỉ ciicm kct ihuc cuu net blit sc dcu cỉươc °iữ líú Quá trình xu In thum so hoii lụi Ciin dirợc thục hicn theo luụl SciLi!

Nhừn« diêm dược lấy làm mầu cua các nét trong suốt quá trình tham sỗ hóa ba> giờ sè giốne như sau:

2 5

Trang 32

( x *0x e0 )>•••»(■*eA/ , , y CM , ) Trong đó, M là số các nét, và:

*0=0

* A / - I = A f ~ 1

•v,+l = e(+I với / = 1 M -1

Điểm (* ,>\.,) trùng với điểm bắt đầu của của nét thứ i với / = 0 \/ — 1: và điểm

(x,r yc ) trùng với diêm kết thúc cua nét thứ i các diêm ờ Siiữa vần lấ\ theo các khoàna

cách cách đêu.

Ncu dừng lại ở thể hiện Cosine như trong phần hai ti lệ nhận dạn 2 sẽ thấp do nó không thê hiện dược các dặc trưna ờ các nét ngăn nhưng quan trọn” , xuất hiện nhicu trong ngôn ngừ tiếng Việt ớ phần dấu và mũ cua các nguyên âm í)é tã ne ti lệ nhặn dạng chúng tôi dưa ra m ộ t bước tiền XU' lý trước khi áp d ụ n e thuật toán tính xắp XI

trong phẩn hai Trong bước tiền xử lý này chímu tôi sử đụrm một thuật toán dê xác định sô điêm trên từna nét bút Sau đó mới xác định các diêm \âp xi tôt Illicit nlnr dã trình bày ở phần 2 Thuật toán dược thê hiện băna sơ dô sau:

Hình N.Sir LĨỒ ỉhìiậl loàn lính sô tỉiêm trẽn môi nét

Bước dầu tiôn ciia thuật toán lủ chọn cac diòni t’y dâu mlít cua tât ca cac nét bút Sau dó chừn° nào má khòim dll thì cân ticn liíìnli them mọt \ong lặp dc tim them dicm IIIITI Tại \-òn« lặp tìm thêm diểm mới nà> dầu liên coi những diêm dược viết giữa hai điêm được chọn là một đoạn, chúne ta sẽ chọn ra một đoạn có tông sai sỗ trung hình la lớn nhất Trona doạn dỏ chúna ta tiếp tục chọn diêm co sai sỏ lớn nhât Dê xác định dược

2 6

Trang 33

sai sô cúa một điêm, tôi đưa ra một giả thuyết: Nếu trên đoạn gồm các điểm khôns được chọn thi cả đoạn đó sẽ được đặc trưng bơi đoạn thănơ nối giữa hai diêm đầu mút nhưng mà trên thực tê các điêm được lưu trong các khoana xấp xỉ bàng nhau, do đó ta

có thê xác định một điêm tương đươna với một điểm khône được chọn nàm trên đoạn thăng đó băng cách chia đêu theo tỉ lệ chiều dài của đoạn thẳng với số diêm mà nó chứa Sai sô của một điểm băng khoảng cách từ điểm đó đến điểm tươns dươns được thề hiện ở Hình 15.

Công thức xác định điêm tương dươna của điểm thứ k nàm eiừa đoạn dược eiới hạn bởi hai diêm thứ i và thứ j (i < k < j ):

r i ,, / w in t f /l.A '-ơ o in tí/L V

-V = pu\x\{[i].X + ( k - i ) * - - — - -— —

(./-/') , /M Ìn tí/1.} - /w in t[/l.}'

Hình 15 Thê hiện điêm tương đương và sai sỏ cua một điém.

Nhờ áp dụne bước tiền xử lý này mà dặc trưne cua các nét bút naăn nhưne quan trọng được giữ lại Hình 16 thê hiện các mẫu của chừ với 2 nét và xâp xỉ nhừns nét cua chúne bàna 16 điểm nghịch của một tập đặc trim s Cosine đơn Khi nhìn vào hình vẽ

ta nhận thấy nhừne đặc trưng cơ ban của kí tự vẫn dược giữ lại.

Hình 16 Thê hiện sự /ấy mầu 16 đi êm và các tham so xúp cua hiên ĩỉói ( 'osinc.

2 7

Trang 34

T ( N ) = O ( N )

T ( N ) = 0 ( P * N )

T ( N ) = 0 ( I t e r * ( N + N ’ ))

T ( N ) = O ( P - )

Hình 17 Sơ đủ các bước cua thuật toán và độ phức tạp tương ứng với các bước.

Tóm lại, các bước của thuật toán trích chọn đặc trưng được miêu ta trong Hình 17 Tương ứne các hàm T (N ) bên cạnh là độ phức tạp cua từne bước Trons đó N là số điểm trong dù' liệu đâu vào p là sô diêm dược chọn làm đầu vào cho biến đồi DC 1 đê lấy đặc trưne của kí tự, và Iter là số vòng lặp dê chọn điêm trona phép xấp xì tốt nhất của thuật toán Đối với thiết bị cầm tay do màn hình nhỏ nên A,r = 50 có thể áp dụng phép loại bỏ các điếm cách đều nếu số điếm quá lớn mà vẫn giừ nguyên được các dặc trưng cua kí tự Hai tham số Iter và p là hai tham sô được đưa vào do neười dime,

trone thực nghiệm tôi lấy / > = 16 và her = 5 đê van thu được hiệu qua cao cho nhận

dạng Do dó có thể ước lượng lại độ phức tạp thuật toán cua toàn bộ quá trình trích

chọn đặc trưng một kí tự là: 7 (A ) = N 2 Vậy nên có thê kêt luận đây là thuật toán cỏ

độ phức tạp phù hợp với các thiết bị cầm tay có tốc độ khône cao

• [arm thử hai dù nu cho việc nhộn b iê t các mũ trên kí tự.

• Tầrm ba siúp nhộn biôt các thanh điệu xuât hiện cùna các nauvên âm.

Với mồi kí tự biến đổi DCT của nó là dừ liệu đầu vào cua hệ thône Sau biên dôi dó tôi lần lượt áp dụna plurơim pháp học má> đê phân lớp trên các bộ phân lớp.

Hệ thốns dược biểu diền chi tiêt ơ Hình 18:

2 8

Trang 35

Các kí t ự chinh Các bò phân biệt mũ

Hình ỈH Hệ thông nhận dạng chừ viêt lay tiêng l 'iệt

Kêí quả thục nghiệm

Dê thu dược kết qua cao nhất có thể tôi áp dụng thuật toán dược coi là mạnh nhất hiện nay máv vector hồ trợ ( S V M ) dê phân lớp các lớp trons ba tán” Tronsi đó tânW thử nhất được xem là quan trọnsi nhất vì chúna cần phàn biệt 26 ki tự chính khác nhau Trona đỏ dữ liệu bao íiòm ca nhìrns, nm i\ẽn âm có thê có ca dâu và mũ.

Khi phàn một lượng lớn các lớp băna máy vector hồ trợ nsoài độ chính xác càn dam bảo về thời eian trmm bình cân có đè phân lớp một kí tự Sau bước này thì tôc dộ thục hiện hầu như khôna đáng kê Dè phân lớp hiệu qua về thời 2 Ĩan huân lu yện \ à phân

2 9

Trang 36

lớp, ở môi tâng, tôi sử dụng kỳ thuật phân lớp theo từng cặp (pairwise classification), rồi sử dụng phương pháp bó phiếu để chọrt ra phân lớp phù hợp nhất [3].

Thuật g ia i được miêu ta như sau:

Già sử có n lớp cần phân biệt thì ta cần có n { n - \ ) H bộ phân biệt từna cặp một.

Gọi pẬx) \ k ước lượng xác suất mà bộ phân lớp giữa hai lớp i và ị chọn mẫu V thuộc

sẽ có một sô trường hợp có nhiều p (.v) bang nhau Khi đó kí tự sẽ được phân lớp cho

p (x) lớn nhât đâu tiên dược tìm thấy.

Khi huấn luyện dừ liệu bàng SVM chúng tôi chia ngầu nhiên tập dừ liệu thành hai phần: 7/10 cho huân luyện và 3/10 cho kiêm tra và sư dụne thư viện Libsvm [2 0 1 Đôn« thời, chúng tôi lấy một lượng nho dừ liệu chạy thư đê chọn ra tham sô phù hợp cho huấn luyện và nhận dạna Đê có đánh giá khách quan chúng tôi có ha lân huân luyện với các kết quá kiểm tra thu được là 92.98% 93.01% và 93.19% Trorm dó kết quả cao nhất 93.19%.

Dựa vào kết quá nghiên cứu đã đạt được, chúng tôi đã xây dựng một chương trình nhận dạng để kiểm nghiệm một lần nữa các kết qua đạt được Ch ươn 2 trình dó gôm các bước như sau:

3 0

Trang 37

Hình 19 Mô hình chương trình nhận dụng chừ viết lay riềng l lệt trực truyền.

Dừ liệu dầu vào là dừ liệu được ghi lại trên thiết bị cam ứng Đó là dữ liệu chừ viết trực tuyến gôm các nét bút và thứ tự các điểm troim các nét bút Dừ liệu này đi vào mô đun trích chọn đặc trim s có chức năng tìm các đặc trưns của chừ là các hệ số cua biến đổi Cosine rời rạc (D C T ) của một dãy các điếm được chọn Xem 20 các diêm dược khoanh tròn màu xanh là diêm được lựa chọn sau bước lựa chọn diêm làm dâu vào cho biến đôi DCT Khung hình của chừ được giữ lại có màu nâu Sau dỏ kí tụ dược nhận dạng nhờ một mô đun bộ nhận dạng đọc các mô hình máy vector hồ trợ nhận dạnu từng phần gồm: kí tự chính, dấu mũ và dấu (dựa theo từne trường hợp cua kèt qua nhận dạne kí tự chính).

a

Hình 20 Vi dụ nhận dọng chừ riết tay liếng l iệt.

Nhận dạng chừ viết tav tiéna V iệt là một bài toán khỏ Nó phức tạp hơn nhiêu so với bài toán nhận đạns chữ Latin, vì sổ phân lớp cần nhận dạng lèn đến 95 thay vi 26 như trone tiếnu Anh 1 lơn nừa các nguyên âm có dấu và mũ là một phần khác biệt nho làm vấn đề càne khó được siai quyết Có nhiều hướns tièp cận đã từng dược giai quyêt dôi với tiếna Anh hoàn toàn cỏ thè áp dụng dôi với tiêng Việt.

31

Trang 38

6 Kết luận

Trong đê tài này, chúng tôi tập trung nghiên cứu xây dựns một hệ thốn 2 2 Ìao diện người dùng thân thiện dựa trên agent thôna minh Hệ thống nàv là một hệ thôna aíient hội thoại với khá năng giao tiếp với người sư dụne thôns qua văn ban tôns hợp tiếna nói, biểu lộ cảm xúc trên khuôn mặt 3D thône qua cử chỉ và nhận dừ liệu vào thòng qua bàn phím hoặc nhận dạng chừ viết tay trực tuyển Hệ thốna thê tiếp tục dược phát triển để có thêm nhừne kha năns thông minh hơn làm cho sự tương tác giữa con người và máy tính ngày càng trớ nên thân thiện và tự nhiên hơn Trong tương lai chúno tôi dự kiến nghiên cứu và tích hợp thêm các côna nghệ sinh nội dung hội thoại tiếng Việt, tons hợp tiếng nói tiếng Việt và nhận dạng tiếng nói.

3 2

Trang 39

Tài liệu tham khảo

Carol Neidỉe, Judy Kegl Dawn MacLauahlin Benjamin Bahan and Robert G

Lee The syntax o f American Sign Language: fun ctio n al categories and

hierarchical structure Cambridge, Mass : M IT Press 2000.

Cohen, M M and Massaro, D w (1993) "M odeling coarticulation in

synthetic visual speech" In Magnenat Thalmann N and Thalmann D editors Models and Techniques in Computer Animation, pages 139 ị 156 Springer

G Salton, E Fox, and u Wu "Extended Boolean information retrieval"

Communications o f the A C M 26( 12): 1022-1036 1983

Hager J and Ekman p ■'Essential behavioral science o f the face and gesture

that computer scientists need to know" In International Workshop on

Automatic Face and Gesture Recognition 1996

I Guyon, L Schomaker R Plamondon M Liberman and s Janet Unipen

project o f on-line data exchange and recognizer benchmarks In Proceedings of

the 14th International

Conference on Pattern Recognition ilCPR) 1994.

Inclusive Education For Hearing Impaired Children in VietNam Signs of the

D e a f in Viet Nam 1997.

John Searle "Expression and Meaning: Studies in the Theory of Speech Ads

Cambridge University Press 1979.

Justine Cassell Tim Bickmore Lee Campbell, llannes Vilhjalmsson and liao Yan "Conversation as a System Fram ework: Designing Embodied Conversational Agents '

Trang 40

[12] N Ahmed T Natarajan and K R Rao Discrete cosine transform I E E E

Tram Computers, C-23( 1), January 1974.

[13] o Sacks Seeing Voices A Journey into the World o f the Deaf The UniversitN

o f C alifornia Press, 1989.

[14] S Connell and A Jain Template-based online character recoanition Pattern

Recognition 34(1), January 2001.

[15] S D Connell and A K Jain Learning prototypes for online handwritten disits

In Proceedings o f the 14th International Conference on Pattern Recognition-

Volume L 1998.

[16] The Duy Bui "Creating emotions and facial expressions for embodied agents"

Ph.D Thesis

[17] V G Polyakov and M A Ryleev Method and apparatus for representing

image data using polynomial approximation method and iterative transformation-reparametrization technique United States Patent number 5,473,742, December 1995.

118 ị http://aimlbot.sourceforge.net/

119] http://vsdic.net/ennlish default.asp

[20] http://mi.eng.cam.ac.uk/ ~m j293/ soft\vare_svm.html

3 4

Ngày đăng: 18/12/2015, 18:32

HÌNH ẢNH LIÊN QUAN

Hình  ỉ.  Mô hình giao diện người dùng dựa trên agent hội thoại - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh ỉ. Mô hình giao diện người dùng dựa trên agent hội thoại (Trang 8)
Hình 2.  Mau tệp A!ML. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
Hình 2. Mau tệp A!ML (Trang 12)
Hình  4.  Khuôn mặt biêu lộ cam xúc - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 4. Khuôn mặt biêu lộ cam xúc (Trang 16)
Hình  6.  Giao í/iện tương lúc cua hệ  thông - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 6. Giao í/iện tương lúc cua hệ thông (Trang 21)
Hình  dạng  bàn  tay - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh dạng bàn tay (Trang 22)
Hình  ỉ I.Aiỉơnt  3D thinh  van  lừ  &#34;PE-ỈCỈ:&#34; troiĩịỉ ngón ngừ cư chi. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh ỉ I.Aiỉơnt 3D thinh van lừ &#34;PE-ỈCỈ:&#34; troiĩịỉ ngón ngừ cư chi (Trang 27)
Hình  9.  Tỏng hợp ngôn ngữ cư chi tiêng  I lệt trên agent hội thoại 3D - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 9. Tỏng hợp ngôn ngữ cư chi tiêng I lệt trên agent hội thoại 3D (Trang 27)
Hình  12. ( 'ác thiết hị cầm lay mủn hình cam ihiịỉ. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 12. ( 'ác thiết hị cầm lay mủn hình cam ihiịỉ (Trang 28)
Hình  N.Sir LĨỒ ỉhìiậl  loàn lính .sô tỉiêm trẽn môi nét - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh N.Sir LĨỒ ỉhìiậl loàn lính .sô tỉiêm trẽn môi nét (Trang 32)
Hình  16. Thê hiện sự /ấy mầu  16 đi êm  và các tham so xúp  Xì   cua hiên ĩỉói ( 'osinc. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 16. Thê hiện sự /ấy mầu 16 đi êm và các tham so xúp Xì cua hiên ĩỉói ( 'osinc (Trang 33)
Hình  15. Thê hiện điêm tương đương và sai sỏ cua một điém. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 15. Thê hiện điêm tương đương và sai sỏ cua một điém (Trang 33)
Hình  17. Sơ đủ các bước cua thuật toán và độ phức tạp tương ứng với các bước. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 17. Sơ đủ các bước cua thuật toán và độ phức tạp tương ứng với các bước (Trang 34)
Hình  ỈH. Hệ thông nhận dạng chừ viêt lay tiêng  l 'iệt - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh ỈH. Hệ thông nhận dạng chừ viêt lay tiêng l 'iệt (Trang 35)
Hình  19. Mô hình chương trình nhận dụng chừ viết lay riềng  l lệt trực truyền. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
nh 19. Mô hình chương trình nhận dụng chừ viết lay riềng l lệt trực truyền (Trang 37)
Hình 20.  Vi dụ nhận dọng chừ riết tay liếng  l  iệt. - Xây dựng mô hình các giao diện người dùng thân thiện dựa trên agent thông minh   đề tài NCKH  QG 07 47 pdf
Hình 20. Vi dụ nhận dọng chừ riết tay liếng l iệt (Trang 37)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm