1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện

359 468 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 359
Dung lượng 6,42 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Lê Thị Lan Phụ trách nhánh nhận dạng cảm xúc bằng hình lý cơ sở dữ liệu ảnh và video động học và điều khiển robot động học và điều khiển robot Các phương án tích hợp mô đun bổ sung vào r

Trang 1

BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐỀ TÀI ĐỘC LẬP CẤP NHÀ NƯỚC

BÁO CÁO TỔNG HỢP

KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN

NGHIÊN CỨU, THIẾT KẾ, TÍCH HỢP ROBOT THÔNG MINH CÓ KHẢ NĂNG ỨNG DỤNG TRONG KHAI THÁC CÁC THÔNG TIN ĐA

PHƯƠNG TIỆN

MÃ SỐ: ĐTĐL.2009G/42

Chủ nhiệm đề tài/dự án: Cơ quan chủ trì đề tài/dự án:

(ký tên) (ký tên và đóng dấu)

Trang 2

TRƯỜNG ĐHBK HÀ NỘI

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

Hà Nội, ngày tháng năm 2012

BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI

I THÔNG TIN CHUNG

1 Tên đề tài: Nghiên cứu, thiết kế, tích hợp robot thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện

Mã số đề tài: ĐTĐL.2009G/42

Thuộc:

- Độc lập

2 Chủ nhiệm đề tài:

Họ và tên: Nguyễn Quốc Cường

Ngày, tháng, năm sinh: 22/11/1974 Nam/ Nữ: Nam

Học hàm, học vị: Tiến sỹ

Chức danh khoa học: Chức vụ: Cán bộ nghiên cứu

Điện thoại: Tổ chức: 043 868 3087 Nhà riêng: 043 863 7795

Mobile: 0912265621

Fax: 38 68 35 51 E-mail: Quoc-Cuong.Nguyen@mica.edu.vn

Tên tổ chức đang công tác: nghiên cứu quốc tế Thông tin đa phương tiện, Truyền thông và ứng dụng (MICA), trường Đại Học Bách Khoa Hà Nội

Địa chỉ tổ chức: Tầng 8, nhà B1, Trường Đại học Bách Khoa Hà

Nội, 1 Đại Cồ Việt, Hà Nội

Địa chỉ nhà riêng: Số 2, ngõ 296 phố Bạch Mai, Hà Nội

Trang 3

3 Tổ chức chủ trì đề tài:

Tên tổ chức chủ trì đề tài: Trường Đại học Bách Khoa Hà Nội

Điện thoại: Fax:

E-mail:

Website: http://www.hut.edu.vn

Địa chỉ: Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Thành phố Hà Nội

Họ và tên thủ trưởng tổ chức: GS TS Nguyễn Trọng Giảng

Số tài khoản: 93101062

Ngân hàng: Kho bạc nhà nước, quận Hai Bà Trưng

Tên cơ quan chủ quản đề tài: Bộ Giáo dục và Đào tạo

Thời gian

(Tháng, năm)

Kinh phí (Tr.đ)

Thời gian (Tháng, năm)

Kinh phí (Tr.đ)

1 7/2009 -6/2010 1.000 7/2009 -6/2010 991,386 991,386

Trang 4

2 7/2010 - 12/2011 1.100 7/2010 - 12/2011 1.108,614 1.108,614

Trang 5

c) Kết quả sử dụng kinh phí theo các khoản chi:

Đối với đề tài:

3 Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:

(Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét

chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu

có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có)

Số

TT

Số, thời gian ban hành

1 Số 426/ QĐ-BKHCN

27/03/2009

V/v phê duyệt danh mục

đề tài khoa học và công

nghệ độc lập cấp Nhà nước giao trực tiếp bắt

Kèm danh mục các đề tài Khoa học và công nghệ

Trang 6

đầu thực hiện trong năm

2009

2 Số: 565/ QĐ-BKHCN

08/04/2009

V/v thành lập Hội đồng khoa học và công nghệ cấp Nhà nước tư vấn tuyển chọn tổ chức và cá nhân chủ trì đề tài độc lập cấp Nhà nước giao trực tiếp thực hiện trong

kế hoạch năm 2009

Kèm theo danh sách các thành

Kèm theo danh sách đề tài và kinh phí được

Có kèm theo 04 phụ lục

Trang 7

08/04/2010

8 Số: 722/QĐ-BKHCN

04/05/2010

V/v: Tổ chức đoàn công tác đi Cộng hòa Pháp của đề tài độc lập cấp

nhà nước “Nghiên cứu, thiết kế, tích hợp robot thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện”

10 Số:

2087/BGDĐT-KHCNMT

20/04/2010

V/v: Điều chỉnh danh mục thiết bị thuộc đề tài

độc lập cấp nhà nước mã

số ĐTĐL.2009G/42

Có kèm theo phụ lục

11 Số: 1034/BKHCN-CNN

11/05/2010

V/v: Đề nghị thay đổi số lượng thiết bị, điều chỉnh kinh phí một số hạng mục của đề tài độc lập cấp Nhà nước giao trực tiếp

Có kèm theo phụ lục

12 Số:

174/TTr-ĐHBK-KHCN

20/07/2010

V/v: Phê duyệt Kế hoạch

đấu thầu cho gói thầu

của Đề tài độc lập cấp

nhà nước “Nghiên cứu, thiết kế, tích hợp robot

Trang 8

thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện”

13 Số: 3051/QĐ-BGDĐT

27/07/2010

V/v: Phê duyệt Kế hoạch

đấu thầu cho gói thầu

của Đề tài độc lập cấp

nhà nước “Nghiên cứu, thiết kế, tích hợp robot thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện”

Có kèm theo phụ lục

Có kèm theo phụ lục

17 30/03/2010

29/09/2010

14/03/2011

Báo cáo định kỳ tình hình thực hiện đề tài kỳ

1, 2, 3

Trang 9

4 Tổ chức phối hợp thực hiện đề tài, dự án:

Nội dung tham gia chủ yếu

Sản phẩm chủ yếu đạt được

Ghi chú*

tộc học Việt Nam

- Kết hợp với đề tài thu

âm và ghi hình các buổi hướng dẫn dành cho khách thăm quan

- Cung cấp thông tin về hiện vật

- Cơ sở dữ liệu hình

ảnh và âm

thanh về các hội thoại/trao

đổi giữa người hướng dẫn

và khách thăm quan

- 500 bản ghi dữ liệu hiện vật

- Lý do thay đổi (nếu có):

5 Cá nhân tham gia thực hiện đề tài, dự án:

(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 người kể cả chủ nhiệm)

Nội dung tham gia chính

Sản phẩm chủ yếu đạt được

Ghi chú*

1 TS Nguyễn

Quốc Cường

TS Nguyễn Quốc Cường

- Phụ trách chung về đề tài

nhận dạng tiếng nói

Trang 10

- Phụ trách nhánh nhận dạng tiếng nói

Cơ sở dữ liệu tiếng

nhận dạng tiếng nói

2 TS Lê Thị

Lan

TS Lê Thị Lan

Phụ trách nhánh nhận dạng cảm xúc bằng hình

lý cơ sở dữ liệu ảnh và video

động học và điều khiển robot

động học và điều khiển

robot Các phương

án tích hợp

mô đun bổ sung vào robot

Trang 11

4 TS Nguyễn

Việt Tùng

TS Nguyễn Việt Tùng

Phụ trách nhánh xây dựng, cài đặt

nghiệm các

robot hướng dẫn bảo tàng

Các phương

án cài đặt kịch bản Báo cáo thử nghiệm kịch bản robot hướng dẫn bảo tàng

tổng hợp tiếng nói

6 TS Trần Thị

Thanh Hải

TS Trần Thị Thanh Hải

Phụ trách nhánh nhận dạng cử chỉ

nhận dạng

cử chỉ

Cơ sở dữ liệu ảnh và video cho

cử chỉ

7 TS Lê Thanh

Hương

TS Lê Thanh Hương

Phụ trách nhánh hội thoại

Mô đun hội thoại

Cơ sở dữ liệu quản lý hội thoại

hồ sơ thử nghiệm và các đánh giá

Quy trình thử nghiệm

và kết quả thử nghiệm

Trang 12

thử nghiệm

9 ThS Nguyễn

Việt Sơn

ThS Nguyễn Việt Sơn

Phụ trách nhánh nhận dạng cảm xúc dựa trên tiếng nói

nhận dạng

bằng tiếng nói

Cơ sở dữ liệu tiếng nói cho cảm xúc

- Lý do thay đổi ( nếu có):

6 Tình hình hợp tác quốc tế:

Số

TT

Theo kế hoạch

(Nội dung, thời gian, kinh

phí, địa điểm, tên tổ chức

người tham gia )

Ghi chú*

1 Nội dung: Đoàn ra đi học

tập, trao đổi công nghệ với

cơ quan hợp tác tại Pháp về

công nghệ đa phương tiện và

Thời gian: từ 30/5/2010 đến 28/6/2010

Kinh phí: 173,765 triệu đồng Tên tổ chức hợp tác:

- Phòng thí nghiệm

Trang 13

LAAS-CNRS, Toulouse, Cộng hòa

Pháp

Số đoàn: 01

Số lượng người tham gia: 2

người, 30 ngày 28 đêm

CNRS, Toulouse, Cộng hòa Pháp

- Nhóm PULSAR, Nice Sophia Antipolis, Cộng hòa Pháp

- Phòng thí nghiệm LAHC, Grenoble, Cộng hòa Pháp

Trang 14

7 Tình hình tổ chức hội thảo, hội nghị:

(Nội dung, thời gian,

kinh phí, địa điểm )

Ghi chú*

1 Hội thảo khoa học lần 1: Báo

cáo khoa học các nội dung

Địa điểm: Trung tâm MICA,

Trường Đại học Bách Khoa

đồng Địa điểm: Phòng hội

thảo, Trung tâm nghiên cứu quốc tế MICA, Tầng 9, Nhà B1, Trường Đại học Bách Khoa Hà Nội

2 Hội thảo khoa học lần 2: Báo

cáo khoa học các nội dung

Địa điểm: Trung tâm MICA,

Trường Đại học Bách Khoa

đồng Địa điểm: Phòng hội

thảo, Trung tâm nghiên

Trang 15

cứu quốc tế MICA, Tầng 9, Nhà B1, Trường Đại học Bách Khoa Hà Nội

8 Tóm tắt các nội dung, công việc chủ yếu:

(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)

Số

TT

Các nội dung, công việc

chủ yếu (Các mốc đánh giá chủ yếu)

Theo kế hoạch

Thực tế

đạt được

1 Nội dung 1: Tìm hiểu tổng quan

và đánh giá sự phát triển các

robot thông minh trên thế giới

và tại Việt Nam.

Từ 07/2009 đến 09/2009

Từ 07/2009 đến 9/2009

Nguyễn Quốc Cường

Lê Thị Lan Trần Đỗ Đạt Phạm Thị Ngọc Yến Nguyễn Việt Tùng

MICA

2 Nội dung 2: Xây dựng cấu hình

robot, phát triển mô hình động

học và điều khiển robot

Từ 07/2009 đến 06/2010

Từ 07/2009 đến 6/2011

Nguyễn Việt Tùng

Nguyễn Việt Sơn

Nguyễn Thị Lan Hương

Khoa Điện

Trang 16

3 Nội dung 3: Nghiên cứu, thiết

kế các mô-đun tương tác đa

phương tiện người-robot

Từ 09/2009 đến 12/2010

Từ 09/2009 đến 2/2010

Nguyễn Quốc Cường

Lê Thị Lan Phạm Thị Ngọc Yến Trần Đỗ Đạt Trần Thị Thanh Hải

Lê Thanh Hương

MICA và khoa CNTT

4 Nội dung 4: Triển khai, tích

hợp các mô-đun trên hệ thống

giả lập

Từ 12/2010 đến 06/2011

Từ 12/2010 đến 6/2011

Nguyễn Quốc Cường

Lê Thị Lan Phạm Thị Ngọc Yến Trần Đỗ Đạt Trần Thị Thanh Hải Nguyễn Việt Tùng

Nguyễn Việt Sơn

Lê Thanh Hương

MICA, Khoa CNTT và

Trang 17

Khoa Điện

5 Nội dung 5: Triển khai, tích

hợp và thử nghiệm vào robot

dịch vụ du lịch

Từ 12/2010 đến 06/2011

Từ 12/2010 đến

12/2011

Nguyễn Quốc Cường

Lê Thị Lan Phạm Thị Ngọc Yến Trần Đỗ Đạt Trần Thị Thanh Hải Nguyễn Việt Tùng

Nguyễn Thị Lan Hương Nguyễn Việt Sơn

MICA

- Lý do thay đổi (nếu có):

Trong quá trình thực hiện, đề tài có hai thay đổi về thời gian thực hiện đối với nội dung 2 (xây dựng cấu hình robot, phát triển mô hình động học và

điều khiển robot) và nội dung 5 (triển khai, tích hợp và thử nghiệm vào

robot dịch vụ du lịch) do đề tài gặp phải một số khó khăn như sau:

• Chậm trễ trong mua sắm thiết bị phục vụ đề tài: Dự kiến thời gian mua thiết bị là năm 2009-2010 tuy nhiên đề tài phải thực hiện điều chỉnh danh sách các thiết bị do các thiết bị mua hầu hết đều là thiết bị nhập ngoại, tỉ giá ngoại tệ thay

đổi

• Việc liên hệ tìm kiếm địa điểm đối tác để thử nghiệm kết quả của đề tài tốn nhiều thời gian: Để tìm được đối tác phù hợp cho các sản phẩm của đề tài, đề tài đã đi liên hệ, đi thực tế và trao đổi, làm việc với một số bảo tàng tại Hà Nội Sau đó

Trang 18

quá trình đàm phán về hình thức, lịch trình hợp tác cũng đòi hỏi nhiều thời gian

Các thay đổi này đã được đề tài trình lên tổ chức chủ trì đề tài - Trường

Đại học Bách Khoa Hà Nội, Bộ Giáo dục và Đào tạo, Bộ Khoa học và

Công nghệ và nhận được sự đồng ý của Trường và các Bộ

III SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN

1 Sản phẩm KH&CN đã tạo ra:

Theo kế hoạch

Thực tế đạt được

1 Robot thông minh

Có khả năng giao tiếp

Bằng tiếng nói (trong môi

trường ít nhiễu) :

• Nghe hiểu được những câu

lệnh di chuyển đơn giản

(tiến, lùi, trái, phải,…) Độ

chính xác 90% (microphone

cách người nói < 10cm) và

80% (microphone cách

người nói <1m)

• Hiểu được các câu hỏi, yêu

cầu giới thiệu về một số

hiện vật trong bảo tàng Độ

Chất lượng âm thanh tổng hợp

đánh giá trên chuẩn kiểm tra

MOS > 3,5/5

Con 01 Cài đặt hệ

tương tác người – robot bằng tiếng nói

và hình ảnh lên Robot

PC BOT

914

Thử nghiệm tại viện bảo tàng

Đã cài đặt

hệ thống tương tác lên robot theo kế hoạch

Đã thử nghiệm tại bảo tàng dân tộc học Việt nam

Trang 19

Bằng hình ảnh:

• Nhận biết 06 cảm xúc (vui, buồn, giận, sợ hăi, ngạc

• Người điều khiển đứng

trước robot với khoảng cách 1.5-2.5m

Trang 20

- Lý do thay đổi (nếu có):

Trang 21

- 20 người tham gia, một người thực hiện một cử chỉ 2 lần

- Frame của video có kích thước 640×480, 24 bit màu

- Người điều khiển đứng trước robot với khoảng cách 1.5-2.5m

- Điều kiện ánh sáng trong phòng

- Một người điều khiển ở một thời điểm

- Người điều khiển không bị che lấp

- Cơ sở dữ liệu này được gán nhãn, có thể sử dụng cho các

đề tài khác.

CSDL cử chỉ được thiết kế

và xây dựng trong đề tài có những đặc điểm sau:

- 5 cử chỉ được nghiên cứu và thiết kế theo phương pháp Wizard of Oz

Tập các cử chỉ này đã được kiểm nghiệm thỏa mãn các tiêu chí về độ

tự nhiên cho người thực hiện và độ phân biệt đối với robot (độ nhận dạng trung bình khoảng 88%)

- Mỗi cử chỉ

Trang 22

có 3 giai đoạn: giai đoạn chuẩn bị, giai đoạn thực hiện, giai đoạn kết thúc

- 20 người tham gia (10 nam, 10 nữ) ở

độ tuổi 20 đến

40

- Khi thu thập

dữ liệu, người điều khiển đứng trước camera với khoảng cách 1- 2.5m

- Điều kiện ánh sáng trong phòng

- Một người điều khiển ở một thời điểm

- Người điều khiển không bị che lấp

Bao gồm hai

bộ dữ liệu:

• Dữ liệu video: gồm

Trang 23

600 video (3 lần thu/người *

20 người * 5

cử chỉ * 2 phông nền) Các file video

có định dạng asf, tốc độ 30 khung

hình/giây, kích thước khung

640x480 điểm ảnh, với độ dài vào khoảng 5s

• Dữ liệu ảnh: chứa các ảnh được tách

ra từ các video thu được, gồm

6000 ảnh cho

5 cử chỉ (1200 ảnh/cử chỉ) Các ảnh có kích thước 640x480 điểm ảnh, ở định dạng jpg, 24 bít màu

CSDL này được gán

Trang 24

nhãn, có thể sử dụng cho các

- Mặt người chính diện với camera

- Điều kiện ánh sáng trong phòng

- Một người thực hiện 1 cảm xúc 3 lần

- Frame trong video có kích thước 640×480, 24 bit màu

- Video có tốc độ lấy mẫu 25 hình/s, 2s cho một cảm xúc

- Cơ sở dữ liệu này được gán nhãn, có thể sử dụng cho các

đề tài khác.

Cơ sở dữ liệu ảnh và video cho cảm xúc được thu thập với:

- 20 người (10 nam, 10 nữ)

- 06 cảm xúc (vui, buồn, giận, sợ hăi, ngạc nhiên, chán nản)

- Mặt người chính diện với camera

- Điều kiện ánh sáng trong phòng

- Một người thực hiện 1 cảm xúc 3 lần

- Frame trong video có kích thước

640×480, 24 bit màu

- Video có tốc

độ lấy mẫu 25

Trang 25

hình/s, 2s cho một cảm xúc

Bộ dữ liệu video cảm xúc gồm 720 video (20 người X 2 điều kiện phông nền X 3 lần X 6 cảm xúc = 720 video) Video

có độ dài ~5s

và theo định dạng asf

Bộ dữ liệu ảnh gồm 7200 ảnh định dạng jpg kích thước 640x480 được trích chọn từ

720 video thu thập được bằng cách lựa chọn với mỗi chủ thể, tương ứng với mỗi lần thể hiện cảm xúc, ở mỗi điều kiện phông nền 10 ảnh (6 cảm

Trang 26

xúc x 20 người

x 3 lần x 10 ảnh x 2 điều kiện phông nền = 7200 ảnh)

Cơ sở dữ liệu ảnh và video

đã được gán nhãn có thể dùng để thử nghiệm, đánh giá các giải thuật về phát hiện mặt người, nhận

- Số lượng câu: 50 câu

- Mỗi câu, với 1 người phát

âm 3 lần

- Tần số lấy mẫu tín hiệu 16kHz với độ phân giải 16 bit

- Cơ sở dữ liệu được gán nhãn, có thể sử dụng cho các

đề tài khác.

Cơ sở dữ liệu tiếng nói cho nhận dạng tiếng nói (ứng dụng cho Robot bảo tàng)

VNSCORE (VietNamese Speech COrpus for REcognition): -20 người, có phương ngữ

Trang 27

Bắc Bộ

- Câu có từ vựng trung bình Câu chứa các thông tin

về đồ vật tại khu trưng bày hiện vật dân tộc Chăm – Hoa – Khơ

me

- Tần số lấy mẫu: 16 kHz

- Số bit trên một mẫu tín hiệu : 16 bit

- Số lượng kênh thu : mono

- Kích thước CSDL: ~ 5 giờ tín hiệu

- Số lượng câu: 60 câu (mỗi cảm xúc 10 câu)

- 20 người (10 nam, 10 nữ)

- Mỗi câu, với 1 người phát

Cơ sở dữ liệu tiếng nói cho nhận dạng cảm xúc

- 11 câu nói trần thuật không mang thông tin về cảm xúc, dễ

Trang 28

âm 3 lần

- Tần số lấy mẫu tín hiệu 16kHz với độ phân giải 16 bit

- Cơ sở dữ liệu được gán nhãn, có thể sử dụng cho các

đề tài khác

phát âm, có độ dài trung bình (4 – 6 từ) được lựa chọn

- 6 cảm xúc đã được đăng ký trong đề tài (vui, buồn, ngạc nhiên, giận dữ, chán nản và sợ hãi)

và trạng thái không cảm xúc

- Số người tham gia: 22 người, có phương ngữ Bắc Bộ, độ tuổi từ 19 – 32, không có khuyết tật trong phát âm

- Người tham gia được yêu cầu đọc 11 câu nói với 6 trạng thái cảm xúc

đã đăng ký và một trạng thái không cảm

Trang 29

số kỹ thuật: tần số lấy mẫu

là 16KHz, số bit trên một mẫu tín hiệu là

16 bit, số lượng kênh thu

là mono, định dạng file: wav

Cơ sở dữ liệu

âm thanh của cảm xúc: 5082 tệp âm thanh

CSDL bảo tàng : lưu trữ khoảng 500 bản ghi, mỗi bản ghi sẽ gồm 1 số thuộc tính như : tác giả, thời gian, loại (tác phẩm), tiêu đề (tác phẩm), mô tả

CSDL quản lý hội thoại bao gồm:

- 1 CSDL các hiện vật trong bảo tàng dân tộc học, lấy thông tin từ

501 hiện vật

Trang 30

trong bảo tàng, liên quan đến các dân tộc Chăm – Hoa - Khơme

- 1 tập câu hội thoại mẫu được thu âm từ các hội thoại trong Viện bảo tàng, với sự tham gia của 3 hướng dẫn viên của bảo tàng dân tộc học và 100 cán

bộ, sinh viên thuộc MICA

và trường Đại học Bách Khoa Hà Nội

- Các hội thoại được tiến hành

xử lý, phân loại theo hiện vật Với mỗi nội dung hỏi, chúng tôi lưu trữ nhiều cách hỏi khác nhau, nhằm xử lý

Trang 31

tính đa dạng trong câu hỏi ngôn ngữ tự nhiên

- Kích thước tập câu hội thoại mẫu: 505 căp câu (hỏi- đáp) cho các chủ đề khác nhau liên quan đến 3 dân tộc Chăm – Hoa – Khơ me

Cho phép thực hiện các thao tác thống kê về cơ sở dữ liệu

Phần mềm cho phép hệ thống quản lý cơ sở

dữ liệu ảnh và video được thiết kế, xây dựng và cài đặt C# với hệ quản trị CSDL sql server 2005:

- Cho phép quản lý đồng thời cả dữ liệu ảnh và video

và cho phép nhiều người

Trang 32

tham gia vào quá trình xây dựng cơ sở dữ liệu ảnh và video

- Quản lý các kiểu cảm xúc

và cử chỉ - đây

là hai thông tin quan trọng chứa trong ảnh

và video mà đề tài hướng đến phát hiện và nhận dạng

- Cho phép tìm kiếm một cách

dễ dàng các dữ liệu cần thiết trong cơ sở dữ liệu

-Cho phép nhiều người tham gia gán nhãn và chú thích về các ảnh và video trong cơ sở dữ liệu

- Cho phép thực hiện các

Trang 33

Phần mềm tổng hợp tiếng nói, vận hành trên PC và Robot, cho phép xây dựng chức năng phản hồi thông tin bằng tiếng nói cho Robot Các chức năng của phần mềm:

- Chuyển văn bản thành đã được chuẩn hóa tín hiệu

âm thanh tiếng nói tiếng Việt

- Cho phép điều khiển tham số âm học: tần số cơ bản F0 và tốc

độ nói

- Chất lượng tổng hợp:

~3.5/5

- Xây dựng dựa trên kỹ

Trang 34

thuật ghép nối với thuật toán TD-PSOLA và

kỹ thuật tìm kiếm đơn vị

âm tối ưu hướng dữ liệu Công cụ xây dựng: Visual C++

Hiểu được các câu hỏi, yêu cầu giới thiệu về một số hiện vật trong bảo tàng Độ chính xác 80% (microphone cách người nói < 10cm

Các chức năng:

- Nhận dạng tiếng nói liên tục

- Nhận dạng các câu lệnh điều khiển đạt 90% (trong điều kiện microphone gần người nói, đánh giá trên CSDL thử nghiệm)

Phần mềm được xây dựng dựa trên mô hình âm học

Trang 35

tri-phone

Công cụ xây dựng: Xây dựng trên công

cụ Pocketsphinx, bằng ngôn ngữ lập trình C

9 Phần mềm

nhận dạng

cử chỉ

Nhận biết tập các cử chỉ điều khiển cơ bản được định nghĩa trong cơ sở dữ liệu Người điều khiển đứng trước robot với khoảng cách 1.5-2.5m

Phần mềm nhận dạng cử chỉ cho phép nhận dạng cử chỉ của người tương tác bằng hình ảnh

Các chức năng:

- Có khả năng nhận biết tập 5

cử chỉ điều khiển cơ bản được định nghĩa trong CSDL với điều kiện người điều khiển đứng trước robot ở khoảng cách 0.5-2.5m Kích thước

Trang 36

ảnh 640 ×480 Điều kiện ánh sáng trong phòng Một người điều khiển ở một thời điểm Người điều khiển không bị che lấp Các thao tác được thực hiện lần lượt

- Độ chính xác 88% (được đánh giá trên

bộ CSDL thử nghiệm)

- Tốc độ nhận dạng: 18fps trên máy tính dual core 2.66Mh Ram 2G

Mô đun nhận dạng cử chỉ được xây dựng dựa trên đặc trưng Haar và

bộ phân lớp Adaboost

Trang 37

Công cụ xây dựng: Ngôn

Visual Studio

2008 sử dụng thư viện mã nguồn mở OpenCV

10 Phần mềm

nhận dạng

cảm xúc

Nhận biết 06 cảm xúc (vui, buồn, giận, sợ hăi, ngạc nhiên, chán nản) Mặt người chính diện với camera Điều kiện ánh sáng trong phòng

Frame trong video có kích thước 640×480, 24 bit màu

Video có tốc độ lấy mẫu 25 hình/s, 2s cho một cảm xúc

Kết quả nhận dạng 70%

Phần mềm nhận dạng cảm xúc dựa trên hình ảnh cho phép nhận dạng cảm xúc của người tương tác

Các chức năng của phần mềm:

- Có khả năng nhận biết tập 6 cảm xúc (vui, buồn, giận, sợ hãi, ngạc nhiên, chán nản)

- Điều kiện ánh sáng trong phòng

- Mặt người chính diện với camera

Trang 38

- Độ chính xác trung bình trên 70% (được đánh giá trên

bộ CSDL thử nghiệm)

- Tốc độ nhận dạng: 16fps trên máy tính dual core 2.66Mh Ram 2G

Phần mềm được xây dựng gồm 2 mô đun chính: phát hiện mặt người

và nhận dạng cảm xúc Mô đun phát hiện mặt người được xây dựng dựa trên đặc trưng Haar và

bộ phân lớp Adaboost Mô đun nhận dạng cảm xúc gồm

6 bộ nhận dạng, được huấn luyện

Trang 39

dựa trên đặc trưng Haar và

bộ phân lớp Adaboost

Công cụ xây dựng: ngôn

Visual Studio

2008 sử dụng thư viện mã nguồn mở OpenCV

- Lý do thay đổi (nếu có):

1 08 bài báo tham gia các

hội thảo khoa học

chuyên ngành Công

nghệ thông tin và Tự

động hoá

Được in trong kỷ yếu khoa học của hội thảo

Được trình bày tại hội thảo và

in trong kỷ yếu khoa học của hội thảo

05 được trình

bày tại hội thảo và in trong kỷ yếu khoa học của các hội thảo:

- Hội thảo quốc gia về công nghệ thông tin lần

Trang 40

(2009), thứ XIII (2010)

- Hội nghị khoa học kỹ thuật đo lường toàn quốc lần thứ 5, 2010 Hội nghị toàn quốc về Điều khiển và Tự động hoá,

VCCA, 2011

2 01 bài báo tham gia các

hội thảo quốc tế chuyên

ngành

Được trình bày

và in trong kỷ yếu của hội thảo

Được trình bày

và in trong kỷ yếu của hội thảo

9 được trình

bày tại hội thảo và in trong kỷ yếu khoa học của các hội thảo,

hội nghị:

- Hội nghị quốc tế về truyền thông

và điện tử (ICCE 2010)

- Hội nghị lần thứ 6 của tổ

kiếm thông tin châu Á (AIRS 2010)

Ngày đăng: 10/03/2015, 08:05

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Hegel, F., et al., Understanding Social Robots, in Second International Conferences on Advances in Computer-Human Interactions. 2009 Sách, tạp chí
Tiêu đề: Understanding Social Robots", in "Second International "Conferences on Advances in Computer-Human Interactions
2. Jarvis, R., Intelligent Robotics: Past, Present and the Future. International Journal of Computer Science and Applications. 5: p. 12 Sách, tạp chí
Tiêu đề: Intelligent Robotics: Past, Present and the Future
Tác giả: R. Jarvis
Nhà XB: International Journal of Computer Science and Applications
3. Coutaz, J., L. Nigay, and D. Salber, The MSM Framework: A Design Space for Multi-Sensori-Motor Systems, in Selected papers from the Third International Conference on Human-Computer Interaction. 1993, Springer- Verlag Sách, tạp chí
Tiêu đề: The MSM Framework: A Design Space "for Multi-Sensori-Motor Systems", in "Selected papers from the Third "International Conference on Human-Computer Interaction
4. Mark, W.S., Talk and Draw: Bundling Speech and Graphics, H.H. Joseph, et al., Editors. 1990. p. 59-65 Sách, tạp chí
Tiêu đề: Talk and Draw: Bundling Speech and Graphics
5. Hauptmann, A.G. and M. Paul, Gestures with speech for graphic manipulation. Int. J. Man-Mach. Stud., 1993. 38(2): p. 231-249 Sách, tạp chí
Tiêu đề: Gestures with speech for graphic "manipulation
6. Bernsen, N.O. Modality Theory: Supporting Multimodal Interface Design. in ERCIM Workshop on Multimodal Human-Computer Interaction. 1993 Sách, tạp chí
Tiêu đề: Modality Theory: Supporting Multimodal Interface Design". in "ERCIM Workshop on Multimodal Human-Computer Interaction
7. Erman, L.D., et al., The Hearsay-II Speech-Understanding System: Integrating Knowledge to Resolve Uncertainty. ACM Comput. Surv., 1980.12(2): p. 213-253 Sách, tạp chí
Tiêu đề: The Hearsay-II Speech-Understanding System: "Integrating Knowledge to Resolve Uncertainty
8. Silsbee, P., Computer Lipreading for Improved Accuracy in Automatic Speech Recognition. 1993, The University of Texas at Austin Sách, tạp chí
Tiêu đề: Computer Lipreading for Improved Accuracy in Automatic "Speech Recognition
9. Pelachaud, C., N. Badler, and M.-L. Viaud, Final report to NSF of the standards for facial animation workshop. 1994, University of Pennsylvania, Philadelphia Sách, tạp chí
Tiêu đề: Final report to NSF of the "standards for facial animation workshop
10. Kwon, D.-S., et al. An effective framework design of human-robot interaction in the coexistent environment. in Proc. of the 2004 Korea-Austria Joint Seminar on Intelligent Robotics. 2004. Busan, Korea Sách, tạp chí
Tiêu đề: An effective framework design of human-robot interaction in the coexistent environment
Tác giả: Kwon, D.-S., et al
Nhà XB: Proc. of the 2004 Korea-Austria Joint Seminar on Intelligent Robotics
Năm: 2004
11. Kim, C. and R.M. Stern, Nonlinear enhancement of onset for robust speech recognition, in INTERSPEECH 2010. 2010 Sách, tạp chí
Tiêu đề: Nonlinear enhancement of onset for robust speech "recognition", in "INTERSPEECH 2010
12. Patterson, R.D., et al., Complex Sounds and Auditory Images, in Proc. 9th International Symposium on Hearing. 1992 Sách, tạp chí
Tiêu đề: Complex Sounds and Auditory Images", in "Proc. 9th "International Symposium on Hearing
13. Kajita, S., K. Takeda, and F. Itakura, A Binaural Speech Processing Methods Using Subband – Crosscerrelation Analysis For Noise Robust Recognition, in IEEE Conference on Acoust, Speech, and Signal Processing. 1997 Sách, tạp chí
Tiêu đề: A Binaural Speech Processing Methods Using Subband – Crosscerrelation Analysis For Noise Robust Recognition
Tác giả: S. Kajita, K. Takeda, F. Itakura
Nhà XB: IEEE Conference on Acoust, Speech, and Signal Processing
Năm: 1997
14. Kim, C., K. Kumar, and R. Stern, Binaural sound source separation motivated by auditory processing, in IEEE Conference on Acoust, Speech, and Signal Processing. 2011 Sách, tạp chí
Tiêu đề: Binaural sound source separation "motivated by auditory processing", in "IEEE Conference on Acoust, Speech, "and Signal Processing
15. Dutoit, T., An introduction to text-to-speech Synthesis. 1997: Kluwer Academic Publics. 316 Sách, tạp chí
Tiêu đề: An introduction to text-to-speech Synthesis
Tác giả: Dutoit, T
Nhà XB: Kluwer Academic Publics
Năm: 1997
16. Huang, X., A. Alex, and H. Hsiao-Wuen, Spoken Language Processing - A Guide to Theory, Algorithm, and System Development. 1er ed. 2001: Prentice Hall Sách, tạp chí
Tiêu đề: Spoken Language Processing - A Guide to Theory, Algorithm, and System Development
Tác giả: X. Huang, A. Alex, H. Hsiao-Wuen
Nhà XB: Prentice Hall
Năm: 2001
18. Boite, R., et al., Traitement de la parole. Collection électricité. 2000: Polytechnique et Universitaires Romandes Sách, tạp chí
Tiêu đề: Traitement de la parole
19. Black, A.W. and N. Cambell. Optimising selection of units from speech databases for concatenative synthesis. in Eurospeech’95. 1995. Madrid, Spain Sách, tạp chí
Tiêu đề: Optimising selection of units from speech "databases for concatenative synthesis". in "Eurospeech’95
20. Hunt, A. and A.W. Black. Unit selection in a concatenative speech synthesis system using a large speech database. in ICASSP ‘96. 1996. Atlanta, GA:IEEE Signal Processing Society Sách, tạp chí
Tiêu đề: Unit selection in a concatenative speech synthesis system using a large speech database
Tác giả: A. Hunt, A.W. Black
Nhà XB: IEEE Signal Processing Society
Năm: 1996
22. Chu M., Peng H., and Chang E. A Concatenative Mandarin TTS system without prosody model and prosody modification. in The 4th ISCA workshop on speech synthesis. 2001. Scotland Sách, tạp chí
Tiêu đề: A Concatenative Mandarin TTS system "without prosody model and prosody modification". in "The 4th ISCA workshop "on speech synthesis

HÌNH ẢNH LIÊN QUAN

Hình 2-9. Sơ đồ khối chức năng của khối lọc nhiễu - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 9. Sơ đồ khối chức năng của khối lọc nhiễu (Trang 114)
Hình 2-21. Một đơn vị âm được trích chọn và thông tin ngữ cảnh của nó, mô đun - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 21. Một đơn vị âm được trích chọn và thông tin ngữ cảnh của nó, mô đun (Trang 144)
Hình 2-32. Cấu trúc tổng quát của hệ thống hội thoại - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 32. Cấu trúc tổng quát của hệ thống hội thoại (Trang 160)
Hình 2-33. Workflow chính của hệ thống - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 33. Workflow chính của hệ thống (Trang 164)
Hình 2-34.  Workflow của quá trình nhận và xử lý câu hỏi - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 34. Workflow của quá trình nhận và xử lý câu hỏi (Trang 165)
Hình 2-35. Workflow quá trình xử lý tỉnh lược/tham chiếu - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 35. Workflow quá trình xử lý tỉnh lược/tham chiếu (Trang 167)
Hình 2-41. Sơ đồ khối của chức năng huấn luyện bộ phân lớp Cascaded - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 41. Sơ đồ khối của chức năng huấn luyện bộ phân lớp Cascaded (Trang 183)
Hình 2-49. Giải thuật trượt cửa sổ để phát hiện và phân loại các vùng ảnh - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 49. Giải thuật trượt cửa sổ để phát hiện và phân loại các vùng ảnh (Trang 194)
Hình 2-62. Giao diện của chương trình nhận dạng cảm xúc từ hình ảnh. - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 2 62. Giao diện của chương trình nhận dạng cảm xúc từ hình ảnh (Trang 215)
Hình 3-6. Thông tin thu thập được từ camera Axis. - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 3 6. Thông tin thu thập được từ camera Axis (Trang 244)
Hình 3-9. Biểu đồ chuyển đổi trạng thái trong kịch bản kết hợp mô đun điều - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 3 9. Biểu đồ chuyển đổi trạng thái trong kịch bản kết hợp mô đun điều (Trang 250)
Hình 3-10. Biểu đồ chuyển đổi trạng thái trong kịch bản thử nghiệm mô đun - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 3 10. Biểu đồ chuyển đổi trạng thái trong kịch bản thử nghiệm mô đun (Trang 251)
Hình 3-13. Một số hình ảnh thử nghiệm tại bảo tàng. - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 3 13. Một số hình ảnh thử nghiệm tại bảo tàng (Trang 256)
Hình 3-14. Đánh giá định tính tổng thể hoạt động của robot. - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 3 14. Đánh giá định tính tổng thể hoạt động của robot (Trang 257)
Hình 4-9. Cảm xúc thu nhận với phông nền phức tạp - Nghiên cứu thiết kế, tích hợp rôbốt thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Hình 4 9. Cảm xúc thu nhận với phông nền phức tạp (Trang 279)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w