1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ

89 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phương Thức Giao Tiếp Giữa Người Và Máy Dựa Trên Công Nghệ Điện Toán Đám Mây, Sử Dụng Trong Robot Dịch Vụ
Tác giả Lưu Mạnh Sơn
Người hướng dẫn PGS.TS. Nguyễn Trường Thịnh
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Kỹ Thuật Cơ Điện Tử
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2017
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 89
Dung lượng 9,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Số lượng các thiết bị nhận dạng giọng nói, hình ảnh ngày càng tăng, điển hình như tivi thông minh, máy tính cá nhân, đặc biệt là tất cả các điện thoại di động đều có hỗ trợ nhận diện và

Trang 1

THÀNH PHỐ HỒ CHÍ MINH

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

NGHIÊN CỨU PHƯƠNG THỨC GIAO TIẾP GIỮA NGƯỜI VÀ MÁY DỰA TRÊN CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY, SỬ DỤNG TRONG ROBOT DỊCH VỤ

NGÀNH: KỸ THUẬT CƠ ĐIỆN TỬ

SKC007483

Trang 2

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

ĐIỆN TOÁN ĐÁM MÂY, SỬ DỤNG TRONG ROBOT DỊCH VỤ

LUẬN VĂN THẠC SĨ

LƯU MẠNH SƠN

NGHIÊN CỨU PHƯƠNG THỨC GIAO TIẾP

GIỮA NGƯỜI VÀ MÁY DỰA TRÊN CÔNG NGHỆ

NGÀNH: KỸ THUẬT CƠ ĐIỆN TỬ - 60520114

Tp Hồ Chí Minh, tháng 10/2017

Trang 3

2

d

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ

LƯU MẠNH SƠN

NGHIÊN CỨU PHƯƠNG THỨC GIAO TIẾP

GIỮA NGƯỜI VÀ MÁY DỰA TRÊN CÔNG NGHỆ

ĐIỆN TOÁN ĐÁM MÂY, SỬ DỤNG TRONG ROBOT DỊCH VỤ

Trang 8

2.1 Nh̵n xét v͉–ÀŠŠ‘ƒŠб…ǡ”Ù”‰ǡЛ…ŠŽЛ…ǡŠï……Š‹Ъ––”‘‰OX̵QYăQ

1ӝLGXQJWUuQKEj\U}UjQJQKѭQJNKiQJҳQFҫQOjPU}FiFYҩQÿӅYjQӝLGXQJPӝWFiFKU}UjQJYjFKLWLӃW KѫQ0ӝWVӕOӛLFKtQKWҧYjYăQSKRQJFzQWӗQWҥLWURQJQӝLGXQJOXұQYăQ

2.2 Nh̵š±–¯žŠ‰‹ž˜‹Ю…•у†о‰Š‘Ц…–”À…Š†РЪ–“—М…пƒ‰рк‹Šž……ׯ“—‹¯аŠ

Š‹ЮŠŠ…пƒ’Šž’Ž—С–•лŠф—–”À–—Ю

&iFWjLOLӋXWUtFKGүQWURQJYjQJRjLQѭӟFFKѭDÿѭӧFWUtFKGүQYjÿiQKJLiSKkQWtFKU}UjQJFzQKҥQFKӃ WURQJYLӋFWKDPNKҧRFiFWjLOLӋXWURQJYjQJRjLQѭӟF

2.3 Nh̵š±–˜Ыͭc tiêu nghiên cͱu, ph˱˯ng pháp nghiên cͱu s͵ dͭng trong LVTN

7iFJLҧFySKѭѫQJSKiSQJKLrQFӭXKӧSOêEDRJӗPWKXWKұSWjLOLӋXWәQJKӧSSKkQWtFKÿӅ[XҩWJLҧLWKXұW WKӵFQJKLӋP7X\QKLrQNӃWTXҧWKӵFQJKLӋPYjSKkQWtFKFzQKҥQFKӃFKѭDFyVӵVRViQKYӟLFiFSKѭѫQJ

pháp khác

2.4 Nh̵n xét T͝ng quan cͯƒ¯͉ tài

3KҫQWәQJTXDQÿѭӧFWUuQKEj\U}UjQJWX\QKLrQFytWWjLOLӋXÿѭӧFWUtFKGүQ&iFQKұQ[pWѭXQKѭӧFÿLӇP FӫDFiFFiFQJKLrQFӭXPDQJWtQKFKXQJFKXQJFKѭDWUtFKGүQU}UjQJYjFөWKӇQKҩWOjFiFQJKLrQFӭXQJRjL QѭӟF

2.5 ŠСš±–¯žŠ‰‹ž˜͉ n͡‹†—‰Ƭ…ŠН–Žрн‰…пƒ

&KѭѫQJFѫVӣOêWKX\ӃWFzQÿѫQJLҧQFiFSKѭѫQJSKiSNK{QJU}UjQJ

7iFJLҧÿmQJKLrQFӭXӭQJGөQJÿLӋQWRiQÿiPPk\FӫD*RRJOHYjNӃWKӧS[ӱNêҧQKÿӇSKiWWULӇQӭQJ GөQJWѭѫQJWiFJLӳDQJѭӡLYjPi\ӭQJGөQJWURQJSKiWWULӇQURERWGӏFKYө9LӋFQJKLrQFӭXEDRJӗPWKDP NKҧRWjLOLӋXÿӅ[XҩWWKLF{QJP{KuQKYjWKӵFQJKLӋPYjÿiQKJLiSKѭѫQJSKiSÿӅ[XҩW

2.6 ŠСš±–¯žŠ‰‹ž˜͉ kh̫£‰ͱng dͭ‰ǡ‰‹ž–”а–Šх…–‹Э…ͯƒ¯͉ tài

7iFJLҧÿmÿҥWÿѭӧFNӃWTXҧQKѭQJFzQQKLӅXKҥQFKӃFKѭDFyVӵWKӵFQJKLӋPYjSKkQWtFKFKLWLӃWĈӅWjL FҫQKRjQWKLӋQWKrPÿӇFyNKҧQăQJӭQJGөQJWURQJWKӵFWLӉQ

2.7 Lu̵˜£…О…ŠЯŠ•уƒǡ„е•—‰Šф‰з‹†—‰‰¿ȋ–Š‹͇t sót và t͛n t̩i):

Ĉӏnh Kѭӟng: ӬQJGөQJ

Trang 10

Ch6 d ri6ng ho{c dia chi li6n lqc: 41gl8D T6 Nggc VAn,Tam Phir, Thtr Eirc, TP.HCM.

Diqn thoai co quan: (028)37313631 Fax:

1 Trung hgc chuy6n nghiQp:

HQ dio tqo:

Noi hoc (trulng, thdnh ph6):

Nganh hgc:

2 D3i hgc:

He ddo t4o: Chinh Quy

DiQn thoqi nhd ri6ng: 0984492226 E-mail : luumanhson@hitu.edu.vn

Thdi gian ddo tao fi 0912006 d€n0112011

Noi hpc (trudng, thanh ph6): Trudng DH Su Ph4m K! Thuat TP.HCM

Ngdnh hoc: Cdng Nghe Crv EiQn Tir

T6n dO 5n, luf,n an ho{c m6n thi tdt nghiQp:

Nghi0n cr?u, thitit k6 robot di chuydn da hucrng srl dung bdnh xe Omni Ngdy & ncvi bio vQ dO an, lufln 6n ho4c thi t6t nghiQp: Thring O6l2}l0,khoa co khi trulng

diQn toSn diim miy, su dpng trong robot dich v.u.

Ngdy & noi bAo vQ 1u4n vdn: 2711012017, khoa co khi truong EH Su Phpm K! Thuflt TP.HCM.

Ngudi hu6ng din: PGS.TS NGUYEN TRI-IONG THI-NH

4 Ti5n si:

H0 ddo tao:

T4i (trudng, viQn, nudc):

TOn lu4n an:

Nguoi hu6ng d5n:

Ngdy & noi b6o v6:

(fvtdu s6 2)

(, NGTRUO cAo 0

c6ri6 Tl

IH lil[

Trang 11

5 Trinh tlQ ngogi ngfr (bi6t ngo4i ngii.gi, mirc dQ): Anh VAn B1

6, Hgc vi, hgc him, chrfrc vB ky thu$t rlugc chinh thric cdp; sii blng, ngiy & noi cdp:

rrr euA rRiNH cONc rAc cHUvtN nn0N KE rU KIrI TOr NGHISP D{.I HQC:

Thdi gian Noi c6ng t6c C6ng viQc dim nhiQm

T0612A11 d6n nay Trucrng Cao Ddng COng Thucrng

/)

t^l^ r't^^'t1|i*

Trang 12

ii

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công

bố trong bất kỳ công trình nào khác

Tp Hồ Chí Minh, ngày … tháng … năm 2017

(Ký tên và ghi rõ họ tên)

LƯU MẠNH SƠN

Trang 13

iii

LỜI CẢM ƠN

Để hoàn thành được luận văn này, tôi xin chân thành cảm ơn sự hướng dẫn tận tình của Thầy PGS.TS Nguyễn Trường Thịnh đã góp ý, hỗ trợ tôi trong suốt quá trình thực hiện

Xin cảm ơn gia đình và những người bạn luôn động viên, ủng hộ tôi

Xin chân thành cảm ơn

Lưu Mạnh Sơn

Trang 14

iv

TÓM TẮT Ngày nay sự phát triển của công nghệ, các thiết bị ngày càng thông minh hơn, giúp người dùng dễ dàng giao tiếp và điều khiển các thiết bị xung quanh Số lượng các thiết bị nhận dạng giọng nói, hình ảnh ngày càng tăng, điển hình như tivi thông minh, máy tính cá nhân, đặc biệt là tất cả các điện thoại di động đều có hỗ trợ nhận diện và điều khiển bằng giọng nói Ngoài các ứng dụng trong các thiết bị gia dụng, giáo dục thì còn được ứng dụng trong các thủ thuật phẫu thuật, vì vậy độ chính xác

và tốc độ trở nên rất quan trọng

Trong luận văn này nhằm mục đích giới thiệu về phương thức giao tiếp giữa người và máy sử dụng điện toán đám mây của Google Cụ thể là dùng Google Speech API để nhận dạng âm thanh, Google Vision API để nhận dạng hình ảnh Một vấn đề mới mà luận văn nghiên cứu là xây dựng giao diện, phương thức giao tiếp người dùng

và trên mạch máy tính nhúng

Trang 15

v

MỤC LỤC

LÝ LỊCH KHOA HỌC I

LỜI CAM ĐOAN II

LỜI CẢM ƠN III

TÓM TẮT IV

MỤC LỤC V

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU VII

DANH SÁCH CÁC HÌNH VIII

1

5

2.1 Giao tiếp giữa người và máy 5

2.2 Dữ liệu lớn – Big Data 6

2.2.1 Khái niệm về dữ liệu lớn 6

2.2.2 Nguồn hình thành và phương pháp khai thác, quản lý dữ liệu lớn 7

2.2.3 Đặc trưng của dữ liệu lớn 7

2.2.4 Sự khác biệt giữa dữ liệu lớn với dữ liệu truyền thống 9

2.3 Tổng quan về điện toán đám mây 10

2.4 Nhận dạng giọng nói 11

2.4.1 Giới thiệu 11

2.4.2 Hệ thống phát âm của con người 12

2.4.3 Biểu diễn tiếng nói - đặc trưng tiếng nói 14

2.4.4 Trích chọn đặc trưng 14

2.4.5 Phương pháp nhận dạng tiếng nói 16

2.4.6 Các mô hình nhận dạng 18

Trang 16

vi

2.4.7 Mô hình Hidden Markov Model 18

2.4.8 Nhận dạng tiếng nói với mô hình Markov ẩn 22

2.4.9 Sự phân bố Gaussion 23

2.5 Công cụ nhận dạng giọng nói của google - Google Speech API 23

2.6 Xử lý ảnh số 26

2.6.1 Giới thiệu về ảnh số 26

2.6.2 Một số kiểu ảnh số thường gặp 27

2.6.3 Giới thiệu về xử lý ảnh số 28

2.6.4 Xử lý ảnh 29

2.6.5 Các ứng dụng cơ bản của công nghệ xử lý ảnh số 37

2.6.6 Camera calibration 37

2.6.7 Nhận diện hình ảnh của Google 37

44

3.1 Nguyên lý hoạt động của hệ thống 44

3.2 Phương thức hoạt động của bộ xử lý trung tâm 44

3.3 Bộ xử lý nhúng 46

3.4 Sơ đồ tổng quát hệ thống 47

3.5 Lưu đồ giải thuật 48

3.6 Hệ điều hành nhân Linux 49

52

4.1 Quá trình thử nghiệm giao tiếp với điện toán đám mây 52

4.2 Giao diện người dùng 53

4.3 Nhận xét 56

58

5.1 Kết luận 58

Trang 18

viii

DANH SÁCH CÁC HÌNH

Hình 2-6: Hình cắt ngang của ống âm thanh 13

Hình 2-1: Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh 15

Hình 2-2: Chi tiết bước trích chọn MFCC 15

Hình 2-3: MFCC chuẩn 16

Hình 2-4: MFCC đã biến đổi 16

Hình 2-5: Mô hình mạng lai ghép HMM/ANN 17

Hình 2-7 Minh họa thủ tục cơ bản về nhận dạng giọng nói theo thống kê 18

Hình 2-8: Minh họa chuỗi Markov đại diện cho xác suất chuyển đổi của thời tiết 19 Hình 2-9: Một mô hình Markov ẩn sau sáu trạng thái 22

Hình 2-10: Phân bố Gaussian với mỗi giá trị điểm nổi liên quan 23

Hình 2-11: Biểu diễn cấu trúc ảnh số 2 chiều 26

Hình 2-12: Mô tả ảnh nhị phân 27

Hình 2-13: Thang màu mức xám ảnh 8 bit 27

Hình 2-14: Biểu diễn ảnh xám [15] 27

Hình 2-15: Sơ đồ xử lý ảnh số [16] 28

Hình 2-16: Biểu đồ Gauss 31

Hình 2-17: Mặt nạ cuộn gaussian 1 chiều 32

Hình 2-18: Chuyển từ ảnh màu sang ảnh xám [14] 33

Hình 2-19: Chuyển từ ảnh xám 8 bit sang ảnh nhị phân 33

Hình 2-20: Giản đồ histogram ảnh xám 34

Hình 2-21: Tăng độ sáng và giản đồ histogram 34

Hình 2-22: Giảm độ sáng và giản đồ histogram 35

Hình 2-23: Tăng độ tương phản và giản đồ histogram 35

Hình 2-24: Giảm độ tương phản và giản đồ histogram 35

Hình 2-25: Tách biên bằng phương pháp Sobel và Canny 36

Hình 2-26: Mô hình Pinhole 38

Hình 2-27: Hình biểu diễn một mặt phẳng khác mặt phẳng ảnh 38

Hình 2-28: Phép quay vectơ 40

Hình 2-29: Tương quan của ảnh lý tưởng và thực tế 41

Trang 19

ix

Hình 3-1: Minh họa khi người dùng giao tiếp với robot 44

Hình 3-2: Robot đang phục vụ tại các quán ăn 45

Hình 3-3: Minh họa cho một trạm robot đang phục vụ khách 46

Hình 3-4: Sơ đồ khối tổng quát hệ thống 47

Hình 3-5: Lưu đồ giải thuật xử lý của hệ thống 48

Hình 3-6: Cấu trúc tổng quát của một hệ thống Linux [4] 49

Hình 3-7: Giao diện hệ điều hành Ubuntu Desktop 10.04 nhân Linux 49

Hình 3-8: Một số thiết bị sử dụng hệ thống nhúng [4] 51

Hình 4-1: Giao diện phần mềm lập trình Python trên hệ điều hành Linux 52

Hình 4-2: Phần cứng dùng để chạy thử nghiệm 52

Hình 4-3: Thử nhận dạng chữ viết bằng Google vision 53

Hình 4-4: Hiển thị đường đi trên bản đồ của Google 53

Hình 4-5: Biểu đồ thể hiện độ chính xác của nhận dạng giọng nói và hình ảnh 57

Trang 20

x

DANH SÁCH CÁC BẢNG Bảng 4-1: Trình tự hoạt động của giao diện người dùng 56Bảng 4-2: Bảng nhận xét độ chính xác dịch vụ 57

Trang 21

1

TỔNG QUAN Giới thiệu

Robot dịch vụ nhằm giúp đỡ con người thực hiện các công việc hằng ngày trong cuộc sống, nhưng để tăng hiệu quả công việc thì nghiên cứu giao tiếp giữa người và máy vô cùng quan trọng, giúp chúng ta dễ dàng sử dụng, nhanh chóng và chính xác

Điện toán đám mây còn gọi là điện toán máy chủ ảo là mô hình điện toán sử dụng các công nghệ máy tính và phát triển dựa vào mạng Internet Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ mạng Internet và như là một liên tưởng về độ phức tạp của các cơ sở hạ tầng chứa trong đó Ở mô hình điện toán này mọi khả năng liên quan đến công nghệ thông tin đều được cung cấp dưới dạng các "dịch vụ", cho phép người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp nào đó "trong đám mây" mà không cần phải có các kiến thức, kinh nghiệm về công nghệ đó; cũng như không cần quan tâm đến các cơ sở hạ tầng phục vụ công nghệ đó

Dựa trên nền tảng của công nghệ điện toán đám mây, các thông tin được thu thập, xử lý, lưu trữ có trật tự và khoa học Từ đó máy tính hay robot có thể nhận dạng được hình ảnh thực tế và giọng nói của con người một cách chính xác Tương lai robot không chỉ là những cỗ máy vô tri vô giác mà còn có cảm xúc và khả năng phản ứng lại như con người sẽ không còn xa vời

Robot sử dụng dữ liệu trên công nghệ điện toán đám mây, được cập nhật mới bằng thuật toán của Google thì dữ liệu được bảo mật, truy cập trên khắp thế giới, hiệu quả cao và được cập nhật liên tục

Trang 22

2

Tình hình nghiên cứu trong và ngoài nước

Nghiên cứu ngoài nước

Đã có nhiều nghiên cứu về việc triển khai hoặc giới thiệu thành công những ứng dụng giọng nói Chúng ta có thể nhắc đến Ask.com một dịch vụ cho phép người dùng hỏi và nhận câu trả lời, đã tích hợp công nghệ nhận dạng giọng nói do Nuance phát triển vào ứng dụng iOS và Android của mình Sự liên kết này cho phép người dùng hỏi, trả lời cũng như đăng tải các lời bình luận

Amazon cũng cập nhật app Kindle trên iOS để hỗ trợ tính năng Voice Over trong iOS VoiceOver sẽ tự động đọc nội dung trên màn hình để giúp cho việc xem sách của những người bị khiếm thị được dễ dàng và thuận tiện hơn Hãng cho biết có khoảng 1,8 triệu đầu sách e-book tương thích với tính năng này Bản thân Amazon cũng từng mua lại công ty IVONA Software vốn cung cấp giải pháp chuyển đổi từ chữ sang giọng nói cho các sách mua từ Amazon

Các phần mềm Siri, Google Voice hay Cortana: đây đều là những ứng dụng được phát triển bởi các tập đoàn công nghệ lớn với tiềm lực mạnh mẽ và được phát triển bởi các chuyên gia Bộ ba phần mềm này đã giúp người dùng thiết bị di động tương tác với thiết bị của mình một cách thông minh hơn: từ việc đặt câu hỏi, nhận câu trả lời cho đến điều chỉnh các thông số máy và khởi chạy ứng dụng (app) Một việc đơn giản có thể kể đến là đặt lịch hẹn hoặc báo thức Trước đây chúng ta phải cần đến cả chục thao tác chạm mới đặt xong một sự kiện, còn với Siri, Google Voice hay Cortana người dùng chỉ cần ra lệnh Mọi thao tác từ việc ghi nội dung cho đến thiết lập giờ giấc đều được thực hiện một cách tự động

Hiện ngày càng phổ biến của công nghệ nhận dạng giọng nói trong các ứng dụng chat/nhắn tin Facebook Messenger đã có tính năng chia sẻ giọng nói từ lâu, nhiều dịch vụ trò chuyện trực tuyến như Zalo, Viber và WhatsApp của nước ngoài cũng đã nhanh chóng đón đầu xu hướng để tích hợp tính năng trò chuyện trực tiếp bằng cách nói vào sản phẩm của mình Đây cũng là suy nghĩ của hầu hết những người

Trang 23

3

thường xuyên sử dụng máy tính nhưng phải đối mặt với bàn phím kích cỡ nhỏ trên thiết bị di động

Nghiên cứu trong nước

Hiện nay tình hình nghiên cứu về lĩnh vực nhận dạng giọng nói và hình ảnh dựa trên nền tảng điện toán đám mây nhưng còn nhiều hạn chế, đa phần là cá nhân phát triển nền các thư viện mã nguồn mở Vì vậy khả năng phát triển rất khó khăn, nguồn dữ liệu rất hạn chế Chính vì lý do đó các ứng dụng đa phần là nhận dạng giọng nói và hình ảnh riêng biệt, chủ yếu là các chương trình trên điện thoại

Mục tiêu đề tài

Với mục tiêu nghiên cứu phương thức giao tiếp giữa người và máy sử dụng công nghệ điện toán đám mây, cụ thể là dùng để giao tiếp với robot chỉ đường, robot giúp người dùng dễ dàng tìm địa điểm muốn tìm Người dùng có thể yêu cầu bằng lời nói hoặc bằng hình ảnh

Nhằm nâng cao hiệu quả trong việc giao tiếp cần có thiết bị nhận được thông tin người dùng một cách đơn giản, nhanh chóng và chính xác Trong nghiên cứu này

đã dùng micro, camera, mạch xử lý nhúng để thu nhận âm thanh, hình ảnh từ người dùng Sau khi xử lý dựa trên dữ liệu của điện toán đám mây thì robot nhận được thông tin trả về dưới dạng văn bản, từ đó có thể hiển thị thông tin hỗ trợ người dùng như tìm đường, ví trí hiện tại, nhận dạng hình ảnh…

Nội dung nghiên cứu

Nội dung 1: Nghiên cứu ngôn ngữ lập trình và phần cứng mạch nhúng

Nội dung 2: Nghiên cứu phương thức giao tiếp với điện toán đám mây Google

Nội dung 3: Nghiên cứu giải thuật nhận và xử lý âm thanh và hình ảnh

Nội dung 4: Nghiêu cứu giải thuật nhận, xử lý và phản hồi thông tin của robot

Nội dung 5: Thiết kế và chế tạo mô hình thực nghiệm

Nội dung 6: Đánh giá kết quả thực hiện

Trang 24

4

Giới hạn đề tài

- Luân văn tập trung vào nghiên cứu phương thức giao tiếp giữa người và máy

- Nhận dạng được giọng nói, hình ảnh

- Thực hiện trên mô hình và có tốc độ xử lý phụ thuộc đường truyền internet

Trang 25

5

CƠ SỞ LÝ THUYẾT 2.1 Giao tiếp giữa người và máy

Hiện nay nhu cầu thị trường của robot rất lớn như robot vận chuyển, robot giám sát, robot giúp việc, hơn thế nữa ý tưởng về robot cá nhân, trợ lý robot đã được quan tâm từ rất lâu Robot được sản xuất khắp nơi trên thế giới và được mở bán rộng rãi Tuy nhiên để cho phép robot hoạt động với nhiệm vụ mới thì đòi hỏi phải phát triển kỹ thuật mà người dùng cần phải được huấn luyện, để robot hoạt động tiện lợi

và an toàn

Hai đặc tính quan trọng trong giao tiếp giữa người và máy mà ta cần quan tâm là: một là người dùng muốn cấu hình và nếu cần thiết thì phải dạy cho robot Hai

là người dùng muốn giám sát và theo dõi đáp ứng của robot Trong cả hai trường hợp

đó, người dùng không vận hành robot, thay vì họ muốn nó hoàn thành các yêu cầu Chính vì điều quan trọng là robot sẽ làm gì và không nên làm gì Giao tiếp người và máy sẽ liên quan đến hai khía cạnh sau:

Một là, người dùng phải được cung cấp phương thức cho phép họ có thể dạy được robot, nghĩa là phải truyền tải được yêu cầu của người dùng đến chương trình hoạt động của robot

Hai là, phải có phản hồi đến người dùng những thông tin cần tiết để họ có thể hiểu các ảnh hưởng đến robot khi được yêu cầu mới

Vấn đề trong giao tiếp giữa người và máy

Lợi ích mang lại của việc giao tiếp phụ thuộc vào khả năng giao tiếp của các bên, nghĩa là người dùng và robot phải hiểu được nhau Ngoài ra điểm đặc biệt là giao tiếp ở đây giống như giữa người dạy và người học (thường người học là robot),

để thay đổi được bản thân thì người học cần hiểu được thông tin cung cấp từ người dạy, để đạt được mục đích cần có các vấn đề liên quan sau:

Trang 26

6

Mục đích của giao tiếp là loại thông tin trao đổi trong suốt quá trình giao tiếp

và mục đích của thông tin được trao đổi này, chúng ta cũng cần xét đến mức độ trừu tượng của thông tin được trình bày

Phương thức giao tiếp cũng rất quan trọng Nghĩa là cách thức mà thông tin

có thể trao đổi, có thể là hành động, cử chỉ, giải thích…

Chiều của giao tiếp chúng ta cũng quan tâm đến chiều của dòng thông tin từ người dùng đến robot hay ngược lại, hoặc cả hai chiều

Như trên chúng ta đã thảo luận ba yếu tố quan trọng nhất trong quá trình giao tiếp giữa người và robot Quá trình giao tiếp bao gồm các thông số kỹ thuật, các lệnh chấp hành, giao tiếp để giám sát, giao tiếp để lập trình cho robot, trong bất kỳ trường hợp nào chúng ta đều phải xác định các vấn đề một cách cụ thể và sớm hơn

2.2 Dữ liệu lớn – Big Data

Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay với sự kết hợp của dữ liệu và Internet, đã xuất hiện một dạng khác của dữ liệu là Big data (dịch là “dữ liệu lớn”) Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính, giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, tin nhắn của chính chúng ta Nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng Để cung cấp cái nhìn tổng quan, ở phần này nhằm giới thiệu tóm tắt những nét chính về dữ liệu lớn cũng như những cơ hội và thách thức mà dữ liệu lớn mang lại

2.2.1 Khái niệm về dữ liệu lớn

- Theo wikipedia: Dữ liệu lớn (Big data) là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này

- Theo Gartner: Dữ liệu lớn là những nguồn thông tin có đặc điểm chung khối lượng lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó

Trang 27

7

muốn khai thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa quy trình

2.2.2 Nguồn hình thành và phương pháp khai thác, quản lý dữ liệu lớn

Qua thống kê và tổng hợp, dữ liệu lớn được hình thành chủ yếu từ 6 nguồn:

- Dữ liệu hành chính (phát sinh từ chương trình của một tổ chức, có thể là chính phủ hay phi chính phủ) Ví dụ, hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm,

hồ sơ ngân hàng

- Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dịch giữa hai thực thể) Ví dụ, các giao dịch thẻ tín dụng, giao dịch trên mạng, bao gồm cả các giao dịch từ các thiết bị di động

- Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tinh, cảm biến đường, cảm biến khí hậu

- Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ điện thoại di động, GPS

- Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịch vụ hay thông tin khác), đọc các trang mạng trực tuyến

- Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên các phương tiện thông tin xã hội

Phương pháp khai thác và quản lý dữ liệu lớn hiện nay được thiết kế phù hợp dựa theo các nguồn hình thành dữ liệu lớn Mỗi nguồn dữ liệu lớn khác nhau sẽ có phương pháp khai thác và quản lý dữ liệu lớn khác nhau Tuy nhiên, hiện nay phần lớn các tổ chức trên thế giới đều dùng Hadoop ecosystem là giải pháp tối ưu để khai thác và quản lý dữ liệu lớn

2.2.3 Đặc trưng của dữ liệu lớn

Dữ liệu lớn có 5 đặc trưng cơ bản như sau:

Trang 28

8

Khối lượng dữ liệu (Volume)

Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn, khối lượng dữ liệu rất lớn Kích cỡ của Big data đang tăng lên từng ngày và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng Nhưng với dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn

Tốc độ (Velocity)

Tốc độ có thể hiểu theo 2 khía cạnh:

- Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon)

- Xử lý dữ liệu nhanh ở mức thời gian thực (real-time): có nghĩa dữ liệu được

xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây) Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y

tế – Sức khỏe như hiện nay phần lớn dữ liệu lớn được xử lý real-time Công nghệ xử

lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thời trước khi chúng được lưu trữ vào cơ sở dữ liệu

Đa dạng (Variety)

Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…) Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với thông tin video được chia

sẻ từ Youtube và Twitter

Độ tin cậy/chính xác (Veracity)

Một trong những tính chất phức tạp nhất của dữ liệu lớn là độ tin cậy/chính xác của dữ liệu Với xu hướng phương tiện truyền thông xã hội (Social Media) và

Trang 29

9

mạng xã hội (Social Network) ngày nay, cùng với sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big data

Giá trị (Value)

Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi bắt đầu triển khai xây dựng dữ liệu lớn thì việc đầu tiên chúng ta cần phải làm là xác định được giá trị của thông tin mang lại như thế nào Khi đó chúng ta mới quyết định có nên triển khai

dữ liệu lớn hay không Nếu chúng ta có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ

nó thì không nên đầu tư phát triển dữ liệu lớn Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại Ví dụ từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế

2.2.4 Sự khác biệt giữa dữ liệu lớn với dữ liệu truyền thống

Dữ liệu lớn khác với dữ liệu truyền thống (ví dụ, kho dữ liệu – Data Warehouse) ở 4 điểm cơ bản: dữ liệu đa dạng hơn, lưu trữ dữ liệu lớn hơn, truy vấn

dữ liệu nhanh hơn và độ chính xác cao hơn

- Dữ liệu đa dạng hơn: Khi khai thác dữ liệu truyền thống (dữ liệu có cấu trúc) chúng ta thường phải trả lời các câu hỏi: dữ liệu xuất ra dưới dạng nào? định dạng dữ liệu như thế nào? Đối với dữ liệu lớn chúng ta không phải trả lời các câu hỏi trên Hay nói cách khác khi khai thác, phân tích dữ liệu lớn chúng ta không cần quan tâm đến kiểu dữ liệu và định dạng của chúng; điều quan tâm là giá trị mà dữ liệu mang lại có đáp ứng được cho công việc hiện tại và tương lai hay không

- Lưu trữ dữ liệu lớn hơn: Lưu trữ dữ liệu truyền thống vô cùng phức tạp và luôn đặt ra câu hỏi lưu như thế nào? dung lượng kho lưu trữ bao nhiêu là đủ? gắn kèm với câu hỏi đó là chi phí đầu tư tương ứng Công nghệ lưu trữ dữ liệu lớn hiện nay đã phần nào có thể giải quyết được vấn đề trên nhờ những công nghệ lưu trữ đám

Trang 30

10

mây, phân phối lưu trữ dữ liệu phân tán và có thể kết hợp các dữ liệu phân tán lại với nhau một cách chính xác và xử lý nhanh trong thời gian thực

- Truy vấn dữ liệu nhanh hơn: Dữ liệu lớn được cập nhật liên tục, trong khi

đó kho dữ liệu truyền thống thì lâu lâu mới được cập nhật và trong tình trạng không theo dõi thường xuyên, gây ra tình trạng lỗi cấu trúc truy vấn dẫn đến không tìm kiếm được thông tin đáp ứng theo yêu cầu

- Độ chính xác cao hơn: Dữ liệu lớn khi đưa vào sử dụng thường được kiểm định lại dữ liệu với những điều kiện chặt chẽ, số lượng thông tin được kiểm tra thông thường rất lớn, đảm bảo về nguồn lấy dữ liệu không có sự tác động của con người vào thay đổi số liệu thu thập

2.3 Tổng quan về điện toán đám mây

 Khái niệm

Điện toán đám mây là các phát triển dựa vào mạng Internet sử dụng các công nghệ máy tính Đây là một kiểu điện toán trong đó những tài nguyên tính toán và lưu trữ được cung cấp như những dịch vụ trên mạng Người dùng không cần biết hay có kinh nghiệm điều khiển và vận hành những công nghệ này [1]

 Kiến trúc

Kiến trúc đám mây gồm: nền tảng đám mây (Cloud Platform), dịch vụ đám mây (Cloud Service), hạ tầng đám mây (Cloud Infrastructure) và lưu trữ đám mây (Cloud Storage)

Trang 31

11

Điện toán đám mây ra đời cho phép các ứng dụng giảm bớt sự lệ thuộc vào

cơ sở hạ tầng Người dùng chỉ phải trả cho những gì họ sử dụng và trả cho nhu cầu

Dữ liệu được đặt trên đám mây thay vì được lưu trên máy tính cá nhân, nên việc xử

lý và chỉnh sửa dữ liệu được hoàn toàn thực hiện trên đám mây Sự độc lập giữa thiết

bị và vị trí giúp người dùng có thể truy cập vào đám mây bất kỳ khi nào, từ bất cứ nơi đâu, qua bất kỳ thiết bị gì chỉ cần có kết nối Internet Chi phí phải trả cho quá trình sử dụng được tính dựa vào những gì mà khách hàng sử dụng hoặc tính theo nhu cầu sử dụng của họ

 Ưu điểm và nhược điểm

- Ưu điểm

Điện toán đám mây cho phép truy cập dữ liệu toàn cầu Một ưu điểm nữa của điện toán đám mây là độc lập thiết bị Người dùng có thể truy cập đám mây từ bất kỳ máy tính nào hoặc từ bất kỳ thiết bị nào chỉ cần thiết bị đó được kết nối với mạng Internet

- Nhược điểm

Để truy cập được vào đám mây và sử dụng các tiện ích mà đám mây cung cấp đòi hỏi thiết bị phải được kết nối vào mạng Internet Nghĩa là nếu không được kết nối với mạng, người dùng sẽ không thể truy cập được vào bất cứ dữ liệu nào, kể

cả tài liệu của chính họ Ngoài ra dữ liệu trên đám mây có thể không bảo mật

Trang 32

Tiếng nói là hính thức giao tiếp cơ bản nhất của con người Tiếng nói của con người bao gồm rất nhiều loại thông tin: Nội dung của lời nói (từ và ngôn ngữ), cảm xúc của người nói, giới tính và xác định người nói… Mục tiêu của quá trình nhận dạng người nói là rút trích, mô tả và nhận diện người dựa vào các đặc trưng của tiếng nói

2.4.2 Hệ thống phát âm của con người

Tiếng nói của con người được tao ra từ các phần khác nhau của miệng, tạo ra

sự thay đổi áp suất không khí (ngoài miệng) Những thay đổi sau đó có thể được phát định kỳ và ghi lại trong một dạng sóng kỹ thuật số Hình dạng sóng chứa tất cả thông tin của từ nói Tất cả các tín hiệu lời nói được tạo ra theo cách tương tự Vì chúng ta

có thể ghi lại các tín hiệu âm thanh hoặc các dạng sóng, có thể nghĩ rằng nó rất dễ dàng để tóm tắt thông tin Chắc chắn rằng, thông tin có thể được trừu tượng nhưng thủ tục không đơn giản và dễ hiểu hơn nữa

Hình dạng vật lý của ống âm thanh của mỗi người là khác nhau Vì thế, chúng

ta có thể phát âm theo một cách khác nhau Nếu một người được yêu cầu nói ra cùng một từ hai lần, tín hiệu giọng nói sẽ không chính xác như tần số và các thuộc tính âm thanh có thể khác nhau theo thời gian Môi trường nơi con người nói, ngôn ngữ địa phương, sự khác biệt trong chiều dài phát âm của nam, nữ và trẻ em làm đa dạng giọng nói sự thay đổi giọng nói và do đó làm cho rất khó để hiểu các tín hiệu lời nói [12] Tuy nhiên, vẫn có một số đặc điểm trong giọng nói của con người có thể được

mô phỏng theo toán học và được sử dụng để dự đoán từ ngữ từ giọng nói đó, nhưng đòi hỏi rất nhiều thời gian và công sức

Trang 33

13

Không khí là nhân tố cần thiết giúp tạo ra âm thanh Con người, hầu hết thời gian tạo ra âm thanh trong khi thở Âm thanh được tạo thành nhờ vào sự cản trở không khí trong các cơ quan của đường hô hấp (bao gồm dây thanh quản, khoang thanh quản, khoang mũi, lưỡi, răng, môi, và vòm miệng) Giọng nói có thể làm thay đổi áp suất không khí tạo thành các dạng sóng Sự rung động của áp suất không khí được tiếp nhận qua không khí và tiếp tục được xử lý bởi các cơ quan khác nhau trong tai

- Larynx: thanh quản

- Pharynx: yết hầu (cổ họng)

- Epiglottis: nắp thanh quản

- Larynx opening into Pharynx: đoạn thanh quản mở từ yết hầu

- Esophagus: thực quản

Hình 2-1: Hình cắt ngang của ống âm thanh [6]

Ở hình 2-1 là cơ quan chính trong việc tạo ra giọng nói từ sự cộng hưởng Sự cộng hưởng phụ thuộc vào hình dạng của miệng Vị trí cộng hưởng xác định phát âm của âm vị Tính năng này được xem xét để xác định các âm vị trong nhận dạng giọng nói Mỗi một giọng nói có một số tính năng cơ bản thường hiện diện ở các ngôn ngữ Đơn vị nhỏ nhất của ngữ âm là một âm vị Trong đó, âm vị được tạo ra bởi các nguyên

âm và phụ âm Âm vị có thể là nhị trùng âm hoặc đơn âm Sự chuyển động của các

cơ quan trong ống âm thanh tạo ra các âm vị khác nhau Phụ âm sát (fricatives) là các

âm vị đòi hỏi sự ma sát của lưỡi với vòm miệng hoặc răng trên với môi dưới….Sự phối hợp của im lặng, sự bật, ma sát và sự hít vào tạo ra các âm bật hơi (plosive) Các

âm này sẽ giúp dẫn đến sự hình thành của âm sát và âm tắt sát (affricate)

Trang 34

14

Không có sự khác biệt rõ rệt giữa các âm vị, đặc biệt là các nguyên âm Tuy nhiên, khi quá trình nói diễn ra, động lực của miệng thay đổi Vì vậy, một vài người nói chậm trong khi số khác lại nói rất nhanh Độ dài của một âm vị được phát ra thay đổi phụ thuộc vào các yếu tố như sự thay đổi tốc độ của giọng nói, độ dài của âm vị, nhấn âm tiết, nhấn giọng của từ được nói ra…

2.4.3 Biểu diễn tiếng nói - đặc trưng tiếng nói

Việc thu nhận tiếng nói thời gian thực và khuếch đại thường được thực hiện thông qua một bộ ADC (Analog-Digital Converter) Các thông số quan trọng bao gồm số bit cho một mẫu (thông dụng là từ 8 đến 16 bit), tần số lấy mẫu (thông dụng

từ 8Khz-16Khz) Những thông số này liên quan nhiều tới hiệu năng, độ phức tạp thiết

kế cũng như kết quả nhận dạng của hệ thống nhúng

Ngoài ra do môi trường tín hiệu của hệ thống đo và điều khiển trong công nghiệp thường rất nhiễu nên hệ thống cần một bộ kiểm soát âm lượng của tín hiệu thu vào

- Có khả năng phân biệt tốt các tiếng nói có phát âm giống nhau

- Cho phép xây dựng các mô hình thống kê mà không đòi hỏi quá nhiều dữ liệu huấn luyện

- Có tính bất biến đối với các giọng nói khác nhau, cũng như môi trường thu

âm

Trang 35

15

Tín hiệu Tiếng nói Chia Frame Frames FFT

Power Spectrum

Áp dụng Mel Filter Banks

Lấy Log DCT

Vectors đặc trưng MFCC

Hình 2-2: Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh [8]

Một đặc trưng lý tưởng (có cả 3 tính chất nêu trên) thường không tồn tại trong thực tế Trong lĩnh vực nhận dạng tiếng nói, các đặc trưng thường được sử dụng là MFCC (Mel-Frequency Cepstral Coefficients), và LSP (Line Spectral Pairs)

Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame) Mỗi frame sẽ cho đặc trưng là một vector và đặc trưng của toàn bộ tín hiệu sẽ là một dãy vector MFCC là phương pháp trích đặc trưng dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz (theo thang tần số mel, không phải theo Hz) Vì lẽ đó rất nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC làm đặc trưng Việc tính đặc trưng MFCC có sơ đồ như sau:

Hình 2-3: Chi tiết bước trích chọn MFCC

Trang 36

16

Hiện nay ngoài các đặc trưng MFCC và các đặc trưng truyền thống khác (như LPC, PLP v.v), người ta còn sử dụng nhiều đặc trưng khác như Wavelet, chiều Fractal, Tiger, các đặc trưng siêu đoạn tính như F0, formant để cải tiến độ chính xác nhận dạng Các đặc trưng bổ sung này được đưa vào để nâng cao chất lượng nhận dạng với việc khai thác các đặc điểm sau:

- Bền vững với tiếng nói nhiễu

- Hạn chế nhược điểm của các biến đổi dựa trên FFT

- Đặc thù ngữ âm và ngôn ngữ

Chuẩn hóa đặc trưng MFCC dựa vào tần số cơ bản F0, từ đó giảm phụ thuộc của hệ thống nhận dạng vào người nói, do đó chất lượng nhận dạng tiếng nói được tăng lên

Hình 2-4: MFCC chuẩn

Hình 2-5: MFCC đã biến đổi

Lý do của sự phổ biến của đặc trưng MFCC chuẩn là nó đơn giản, truyền thống, độc lập ngôn ngữ, và xuất hiện sớm trong các kết quả công bố về nhận dạng tiếng nói

2.4.5 Phương pháp nhận dạng tiếng nói

Một nhược điểm của HMM là khả năng mô hình hoá âm thanh Nhược điểm này làm cho hệ thống dùng mạng HMM dễ nhận dạng nhầm các nhiễu cộng (additional noise) trong quá trình nhận dạng Tỷ lệ lỗi nhận dạng chèn trong hệ thống

Trang 37

Ngược lại, do ANN có khả năng phân lớp mạnh và có khả năng mô hình âm thanh tốt, nên nếu sử dụng mô hình lai HMM kết hợp với ANN, ở đó các nhiễu cộng

có thể được phát hiện và không bị nhận dạng nhầm là các âm vị Tỷ lệ lỗi nhận dạng nhầm do lỗi chèn của hệ thống HMM/ANN thấp, hệ thống chịu được ảnh hưởng của nhiễu và các âm thanh đan xen vào trong tiếng nói và có thể nhận dạng được với phát

âm có nhiều nhiễu Độ chính xác nhận dạng ở mức câu cao hơn so với hệ thống HMM

CD-Hình 2-6: Mô hình mạng lai ghép HMM/ANN

Do vậy hiện nay người ta đã nghiên cứu các hệ nhận dạng lai ghép giữa mạng neuron và mô hình Markov ẩn (HMM/ANN) với mục đích để hạn chế nhược điểm của hai phương pháp ANN và HMM, đồng thời tận dụng hai ưu điểm của hai phương pháp này: khả năng phân lớp của mạng neuron và khả năng mô hình hoá thông tin

Trang 38

18

thời gian của mô hình Markov ẩn Xác suất để mô hình ở trạng thái Si vào thời điểm

t chính là đầu ra mong đợi của mạng nơ ron

2.4.6 Các mô hình nhận dạng

Hầu hết các hệ thống nhận dạng giọng nói ngày nay đều sử dụng các mô hình thống kê Những hệ thống này sử dụng xác suất và các chức năng toán học để tính toán ngõ ra thích hợp nhất được đưa ra bởi các tín hiệu lời nói Một tập hợp lớn các

dữ liệu của mô hình thử nghiệm được sử dụng để tính toán các tính năng [19; 20]

Mô hình thống kê yêu cầu mô hình hóa âm Mô hình hóa âm thanh được mô

tả bằng mô hình Hidden Markov Các mô hình này được điều chỉnh các thông số với tín hiệu thoại và tô pô âm thanh (acoustic topology) Các dạng sóng lời nói quan sát được chuyển thành các thông số tính toán bằng cách sử dụng các kỹ thuật khác nhau bao gồm tần số MFCC (Mel frequency cepstral coefficients) Các tần số này chính là tất cả các con số Trong quá trình nhận dạng, hầu hết các trình tự được tính toán / tìm kiếm từ một mô hình sẵn có Từ ngữ có nhiều khả năng nhất với xác suất lớn nhất được tạo ra được xem như là kết quả của lời nói ở dạng sóng

Hình 2-7 Minh họa thủ tục cơ bản về nhận dạng giọng nói theo thống kê

2.4.7 Mô hình Hidden Markov Model

Mô hình Hidden Markov Model (HMM) được sử dụng để dự đoán hoặc phân tích chuỗi thời gian sử dụng dựa theo xác suất Bất cứ khi nào một chuỗi thời gian sử

Trang 39

19

dụng HMM đều có thể dễ dàng được áp dụng Hầu hết các hệ thống thông minh đều

sử dụng HMM Robotics, Y học, Tài chính, máy phiên dịch và nhận dạng giọng nói

là các ví dụ điển hình

Trong xác suất, hai sự kiện là độc lập nếu sự kiện đầu tiên không ảnh hưởng đến kết quả của sự kiện thứ hai hoặc ngược lại Trái ngược với các sự kiện độc lập, một sự kiện ảnh hưởng kết quả của các sự kiện khác là các sự kiện phụ thuộc Markov phát minh ra một chu trình ngẫu nhiên được gọi là Chuỗi Markov, còn được gọi là

Mô hình Markov, ở đó mỗi một giai đoạn phụ thuộc vào một số lượng cố định các giai đoạn trước đó Chuỗi Markov phổ biến và đơn giản nhất là chuỗi Markov First Order Trong chuỗi này giai đoạn hiện tại chỉ phụ thuộc vào trước đó Gia đoạn hiện tại có thể đủ để mang lại (theo xác xuất) các điều kiện trong tương lai độc lập với giai đoạn trong quá khứ

Hình 2-9 Minh họa chuỗi Markov với hai giai đoạn với xác suất chuyển đổi

aij

Hình 2-8: Minh họa chuỗi Markov đại diện cho xác suất chuyển đổi của thời tiết

Ở ví dụ trên , sự phân bố ban đầu (π), xác suất cho bất kỳ số lượng các trình

tự các tiểu bang có thể được tính toán Ví dụ, giả sử xác suất ban đầu là

( ℎ ề â ) =

0.70.3 à =

0.8 0.20.4 0.6 ; (2.1)

Trang 40

20

Thì xác suất của ba ngày nắng kế tiếp có thể được tính toán theo công thức dưới đây

P(có nắng, có nắng, có nắng) = πi x (0.8) = 0.3584 (2.2) Chuỗi Markov được định nghĩa là một sự kiện quan sát được một cách xác định Nhiều ứng dụng thực tế có tính năng không thể xác định Hidden Markov Model (HMM) được xem là phần mở rộng tự nhiên của chuỗi Markov Trong đó, phần mở rộng nơi các giai đoạn bên trong được giấu kín và bất kỳ giai đoạn nào có thể tạo ra các biểu tượng hoặc bằng chứng có thể quan sát được Các ký hiệu quan sát được là các biến ngẫu nhiên và hàm xác suất của các trạng thái ngẫu nhiên nội tại Mô hình này được gọi là HMM Việc sử dụng HMM trong nhận diện giọng nói không phải là một khái niệm mới Khái niệm HMM đã được trình bày bởi L.E Baum và Petrie vào cuối năm 1966

Một mô hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :

N, số trạng thái (state) trong mô hình Markov Các trạng thái thường được ký

hiệu bằng S= {S 1 , S 2 , S 3 , } và trạng thái của mô hình tại thời điểm t được kí hiệu là

q t , M là số ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V= {v 1 , v 2 , }, A = {a ij } là

xác suất chuyển trạng thái (state transition probability distribution) Trong đó a ij

xác suất để trạng thái j xuất hiện tại thời điểm t+1 khi trạng thái i đã xuất hiện tại thời điểm t

a ij = P(q t+1 = S j | q t = S i ) (2.3)

(2.4)

B={b j (k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol

probability distribution in state), bj(k) là xác suất của quan sát vk tại trạng thái j tại thời điểm t

Ngày đăng: 19/09/2022, 16:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Campbell, “Speaker Recognition: A Tutorial”, Proceedings of the IEEE, vol. 85, no. 9, 1997 Sách, tạp chí
Tiêu đề: Speaker Recognition: A Tutorial”, "Proceedings of the IEEE
[2] Campbell, J. P., Reynolds, D. A., and Dunn, R. B., “Fusing High- and Low-Level Features for Speaker Recognition”, In Proc. Eurospeech in Geneva, Switzerland, ISCA, 2003, pp. 2665-2668 Sách, tạp chí
Tiêu đề: Fusing High- and Low-Level Features for Speaker Recognition”, "In Proc. Eurospeech in Geneva, Switzerland, ISCA
[3] Chen, K., Dahong, X., and Huisheng, C.(1996): “Speaker Identification Using Time-Delay HMEs”, China International Journal of Neural Systems, vol. 7, no.1, 1996 Sách, tạp chí
Tiêu đề: Speaker Identification Using Time-Delay HMEs
Tác giả: K. Chen, Dahong X., Huisheng C
Nhà XB: China International Journal of Neural Systems
Năm: 1996
[5] Fisusi, A., “Development of a Text-Independent Speaker Identification System”, An MSc Thesis submitted to the Department of Electronic and Electrical Engineering, Obafemi Awolowo University, Ile-Ife, Nigeria, 2007, 101p Sách, tạp chí
Tiêu đề: Development of a Text-Independent Speaker Identification System”, An MSc Thesis submitted to the Department of Electronic and Electrical Engineering, Obafemi Awolowo University, "Ile-Ife
[6] Forsberg M. Why is Speech Recognition Difficult, Department of Computing Science, Chalmers University of Technology, 24 February 2003 Sách, tạp chí
Tiêu đề: Why is Speech Recognition Difficult
Tác giả: Forsberg M
Nhà XB: Department of Computing Science, Chalmers University of Technology
Năm: 2003
[7] Gish, H., and Schmit, “Text-Independent Speaker Identification”,IEEE, Signal Processing Magazine,1994 Sách, tạp chí
Tiêu đề: Text-Independent Speaker Identification
Tác giả: Gish, H., Schmit
Nhà XB: IEEE
Năm: 1994
[8] Janaki Prasad Koirala, Identity Verification with Speech Recognition. Helsinki Metropolia University of Applied Sciences, 2013 Sách, tạp chí
Tiêu đề: Identity Verification with Speech Recognition
Tác giả: Janaki Prasad Koirala
Nhà XB: Helsinki Metropolia University of Applied Sciences
Năm: 2013
[9] John D. Cook. (2009, August) The Endeavour, http://www.johndcook.com/ blog/2009/08/24/algorithms-convert-color-grayscale/ Sách, tạp chí
Tiêu đề: The Endeavour
Tác giả: John D. Cook
Năm: 2009
[10] Judith Hurwitz, Robin Bloor, Marcia Kaufman, Cloud Computing for Dummies, Wiley Publishing, Inc Sách, tạp chí
Tiêu đề: Cloud Computing for Dummies
Tác giả: Judith Hurwitz, Robin Bloor, Marcia Kaufman
Nhà XB: Wiley Publishing, Inc
[12] Pan, Y. and Waibel, A., “The Effects of the Room Acoustics on MFCC Speech Parameter,” International Conference on 51 African Journal of Information and Communication Technology, Vol. 3, No. 2, June 2007 Spoken Language Processing 2000 (ICSLP 2000) Sách, tạp chí
Tiêu đề: The Effects of the Room Acoustics on MFCC Speech Parameter
Tác giả: Y. Pan, A. Waibel
Nhà XB: African Journal of Information and Communication Technology
Năm: 2007
[14] Phan Vân Hoàn, “Giáo trình vi xử lý nâng cao”, Đại Học Sư Phạm Kỹ Thuật Tp.HCM, 2015 Sách, tạp chí
Tiêu đề: Giáo trình vi xử lý nâng cao
[15] Reynolds, D. A., “An Overview of Automatic Speaker Recognition Technology”, Proceedings of the IEEE International Conference on Acoustics,Speech, and Signal Processing, vol. 4, 2002 Sách, tạp chí
Tiêu đề: An Overview of Automatic Speaker Recognition Technology
Tác giả: Reynolds, D. A
Nhà XB: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing
Năm: 2002
[16] Zilca, R.D., Navratil, J. and Ramaswamy,N. “Syncpitch: A pseudo pitch synchronous algorithm for speaker recognitio”, Proceedings of EUROSPEECH, 2003 Sách, tạp chí
Tiêu đề: Syncpitch: A pseudo pitch synchronous algorithm for speaker recognitio
Tác giả: Zilca, R.D., Navratil, J., Ramaswamy, N
Nhà XB: Proceedings of EUROSPEECH
Năm: 2003
[4] David Chappell & Associates, Introducing the Azure Services Platform. An easy look at Windows Azure Services Platform, 2008 Khác

HÌNH ẢNH LIÊN QUAN

Hình 2-3: Chi tiết bước trích chọn MFCC. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 3: Chi tiết bước trích chọn MFCC (Trang 35)
Hình 2-6: Mô hình mạng lai ghép HMM/ANN - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 6: Mô hình mạng lai ghép HMM/ANN (Trang 37)
Hình 2-7. Minh họa thủ tục cơ bản về nhận dạng giọng nói theo thống kê  2.4.7  Mô hình Hidden Markov Model - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 7. Minh họa thủ tục cơ bản về nhận dạng giọng nói theo thống kê 2.4.7 Mô hình Hidden Markov Model (Trang 38)
Hình 2-9 Minh họa chuỗi Markov với hai giai đoạn với xác suất chuyển đổi - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 9 Minh họa chuỗi Markov với hai giai đoạn với xác suất chuyển đổi (Trang 39)
Hình 2-9: Một mô hình Markov ẩn sau sáu trạng thái - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 9: Một mô hình Markov ẩn sau sáu trạng thái (Trang 42)
Hình 2-10: Phân bố Gaussian với mỗi giá trị điểm nổi liên quan. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 10: Phân bố Gaussian với mỗi giá trị điểm nổi liên quan (Trang 43)
Hình 2-11: Sợ đồ nhận dạng giọng nói của google speech api - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 11: Sợ đồ nhận dạng giọng nói của google speech api (Trang 45)
Hình 2-14: Thang màu mức xám ảnh 8 bit. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 14: Thang màu mức xám ảnh 8 bit (Trang 47)
Hình 2-16: Sơ đồ xử lý ảnh số [16]. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 16: Sơ đồ xử lý ảnh số [16] (Trang 48)
Hình 2-19: Chuyển từ ảnh màu sang ảnh xám [14]. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 19: Chuyển từ ảnh màu sang ảnh xám [14] (Trang 53)
Hình 2-21: Giản đồ histogram ảnh xám. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 21: Giản đồ histogram ảnh xám (Trang 54)
Hình 2-22: Tăng độ sáng và giản đồ histogram. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 22: Tăng độ sáng và giản đồ histogram (Trang 54)
Hình 2-26: Tách biên bằng phương pháp Sobel và Canny. - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 26: Tách biên bằng phương pháp Sobel và Canny (Trang 56)
Hình 2-31: Nhận diện hình ảnh và chữ viết của Google vision - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 2 31: Nhận diện hình ảnh và chữ viết của Google vision (Trang 62)
Hình 3-1: Minh họa khi người dùng giao tiếp với robot  3.2  Phương thức hoạt động của bộ xử lý trung tâm - Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Hình 3 1: Minh họa khi người dùng giao tiếp với robot 3.2 Phương thức hoạt động của bộ xử lý trung tâm (Trang 64)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm