Lê Thị Lan Phụ trách nhánh nhận dạng cảm xúc bằng hình lý cơ sở dữ liệu ảnh và video động học và điều khiển robot động học và điều khiển robot Các phương án tích hợp mô đun bổ sung vào r
Trang 1BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐỀ TÀI ĐỘC LẬP CẤP NHÀ NƯỚC
BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN
NGHIÊN CỨU, THIẾT KẾ, TÍCH HỢP ROBOT THÔNG MINH CÓ KHẢ NĂNG ỨNG DỤNG TRONG KHAI THÁC CÁC THÔNG TIN ĐA
PHƯƠNG TIỆN
MÃ SỐ: ĐTĐL.2009G/42
Chủ nhiệm đề tài/dự án: Cơ quan chủ trì đề tài/dự án:
(ký tên) (ký tên và đóng dấu)
Trang 2TRƯỜNG ĐHBK HÀ NỘI
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Hà Nội, ngày tháng năm 2012
BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI
I THÔNG TIN CHUNG
1 Tên đề tài: Nghiên cứu, thiết kế, tích hợp robot thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện
Mã số đề tài: ĐTĐL.2009G/42
Thuộc:
- Độc lập
2 Chủ nhiệm đề tài:
Họ và tên: Nguyễn Quốc Cường
Ngày, tháng, năm sinh: 22/11/1974 Nam/ Nữ: Nam
Học hàm, học vị: Tiến sỹ
Chức danh khoa học: Chức vụ: Cán bộ nghiên cứu
Điện thoại: Tổ chức: 043 868 3087 Nhà riêng: 043 863 7795
Mobile: 0912265621
Fax: 38 68 35 51 E-mail: Quoc-Cuong.Nguyen@mica.edu.vn
Tên tổ chức đang công tác: nghiên cứu quốc tế Thông tin đa phương tiện, Truyền thông và ứng dụng (MICA), trường Đại Học Bách Khoa Hà Nội
Địa chỉ tổ chức: Tầng 8, nhà B1, Trường Đại học Bách Khoa Hà
Nội, 1 Đại Cồ Việt, Hà Nội
Địa chỉ nhà riêng: Số 2, ngõ 296 phố Bạch Mai, Hà Nội
Trang 33 Tổ chức chủ trì đề tài:
Tên tổ chức chủ trì đề tài: Trường Đại học Bách Khoa Hà Nội
Điện thoại: Fax:
E-mail:
Website: http://www.hut.edu.vn
Địa chỉ: Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Thành phố Hà Nội
Họ và tên thủ trưởng tổ chức: GS TS Nguyễn Trọng Giảng
Số tài khoản: 93101062
Ngân hàng: Kho bạc nhà nước, quận Hai Bà Trưng
Tên cơ quan chủ quản đề tài: Bộ Giáo dục và Đào tạo
Thời gian
(Tháng, năm)
Kinh phí (Tr.đ)
Thời gian (Tháng, năm)
Kinh phí (Tr.đ)
1 7/2009 -6/2010 1.000 7/2009 -6/2010 991,386 991,386
Trang 42 7/2010 - 12/2011 1.100 7/2010 - 12/2011 1.108,614 1.108,614
Trang 5c) Kết quả sử dụng kinh phí theo các khoản chi:
Đối với đề tài:
3 Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:
(Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét
chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu
có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có)
Số
TT
Số, thời gian ban hành
1 Số 426/ QĐ-BKHCN
27/03/2009
V/v phê duyệt danh mục
đề tài khoa học và công
nghệ độc lập cấp Nhà nước giao trực tiếp bắt
Kèm danh mục các đề tài Khoa học và công nghệ
Trang 6đầu thực hiện trong năm
2009
2 Số: 565/ QĐ-BKHCN
08/04/2009
V/v thành lập Hội đồng khoa học và công nghệ cấp Nhà nước tư vấn tuyển chọn tổ chức và cá nhân chủ trì đề tài độc lập cấp Nhà nước giao trực tiếp thực hiện trong
kế hoạch năm 2009
Kèm theo danh sách các thành
Kèm theo danh sách đề tài và kinh phí được
Có kèm theo 04 phụ lục
Trang 708/04/2010
8 Số: 722/QĐ-BKHCN
04/05/2010
V/v: Tổ chức đoàn công tác đi Cộng hòa Pháp của đề tài độc lập cấp
nhà nước “Nghiên cứu, thiết kế, tích hợp robot thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện”
10 Số:
2087/BGDĐT-KHCNMT
20/04/2010
V/v: Điều chỉnh danh mục thiết bị thuộc đề tài
độc lập cấp nhà nước mã
số ĐTĐL.2009G/42
Có kèm theo phụ lục
11 Số: 1034/BKHCN-CNN
11/05/2010
V/v: Đề nghị thay đổi số lượng thiết bị, điều chỉnh kinh phí một số hạng mục của đề tài độc lập cấp Nhà nước giao trực tiếp
Có kèm theo phụ lục
12 Số:
174/TTr-ĐHBK-KHCN
20/07/2010
V/v: Phê duyệt Kế hoạch
đấu thầu cho gói thầu
của Đề tài độc lập cấp
nhà nước “Nghiên cứu, thiết kế, tích hợp robot
Trang 8thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện”
13 Số: 3051/QĐ-BGDĐT
27/07/2010
V/v: Phê duyệt Kế hoạch
đấu thầu cho gói thầu
của Đề tài độc lập cấp
nhà nước “Nghiên cứu, thiết kế, tích hợp robot thông minh có khả năng ứng dụng trong khai thác các thông tin đa phương tiện”
Có kèm theo phụ lục
Có kèm theo phụ lục
17 30/03/2010
29/09/2010
14/03/2011
Báo cáo định kỳ tình hình thực hiện đề tài kỳ
1, 2, 3
Trang 94 Tổ chức phối hợp thực hiện đề tài, dự án:
Nội dung tham gia chủ yếu
Sản phẩm chủ yếu đạt được
Ghi chú*
tộc học Việt Nam
- Kết hợp với đề tài thu
âm và ghi hình các buổi hướng dẫn dành cho khách thăm quan
- Cung cấp thông tin về hiện vật
- Cơ sở dữ liệu hình
ảnh và âm
thanh về các hội thoại/trao
đổi giữa người hướng dẫn
và khách thăm quan
- 500 bản ghi dữ liệu hiện vật
- Lý do thay đổi (nếu có):
5 Cá nhân tham gia thực hiện đề tài, dự án:
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 người kể cả chủ nhiệm)
Nội dung tham gia chính
Sản phẩm chủ yếu đạt được
Ghi chú*
1 TS Nguyễn
Quốc Cường
TS Nguyễn Quốc Cường
- Phụ trách chung về đề tài
nhận dạng tiếng nói
Trang 10- Phụ trách nhánh nhận dạng tiếng nói
Cơ sở dữ liệu tiếng
nhận dạng tiếng nói
2 TS Lê Thị
Lan
TS Lê Thị Lan
Phụ trách nhánh nhận dạng cảm xúc bằng hình
lý cơ sở dữ liệu ảnh và video
động học và điều khiển robot
động học và điều khiển
robot Các phương
án tích hợp
mô đun bổ sung vào robot
Trang 114 TS Nguyễn
Việt Tùng
TS Nguyễn Việt Tùng
Phụ trách nhánh xây dựng, cài đặt
nghiệm các
robot hướng dẫn bảo tàng
Các phương
án cài đặt kịch bản Báo cáo thử nghiệm kịch bản robot hướng dẫn bảo tàng
tổng hợp tiếng nói
6 TS Trần Thị
Thanh Hải
TS Trần Thị Thanh Hải
Phụ trách nhánh nhận dạng cử chỉ
nhận dạng
cử chỉ
Cơ sở dữ liệu ảnh và video cho
cử chỉ
7 TS Lê Thanh
Hương
TS Lê Thanh Hương
Phụ trách nhánh hội thoại
Mô đun hội thoại
Cơ sở dữ liệu quản lý hội thoại
hồ sơ thử nghiệm và các đánh giá
Quy trình thử nghiệm
và kết quả thử nghiệm
Trang 12thử nghiệm
9 ThS Nguyễn
Việt Sơn
ThS Nguyễn Việt Sơn
Phụ trách nhánh nhận dạng cảm xúc dựa trên tiếng nói
nhận dạng
bằng tiếng nói
Cơ sở dữ liệu tiếng nói cho cảm xúc
- Lý do thay đổi ( nếu có):
6 Tình hình hợp tác quốc tế:
Số
TT
Theo kế hoạch
(Nội dung, thời gian, kinh
phí, địa điểm, tên tổ chức
người tham gia )
Ghi chú*
1 Nội dung: Đoàn ra đi học
tập, trao đổi công nghệ với
cơ quan hợp tác tại Pháp về
công nghệ đa phương tiện và
Thời gian: từ 30/5/2010 đến 28/6/2010
Kinh phí: 173,765 triệu đồng Tên tổ chức hợp tác:
- Phòng thí nghiệm
Trang 13LAAS-CNRS, Toulouse, Cộng hòa
Pháp
Số đoàn: 01
Số lượng người tham gia: 2
người, 30 ngày 28 đêm
CNRS, Toulouse, Cộng hòa Pháp
- Nhóm PULSAR, Nice Sophia Antipolis, Cộng hòa Pháp
- Phòng thí nghiệm LAHC, Grenoble, Cộng hòa Pháp
Trang 147 Tình hình tổ chức hội thảo, hội nghị:
(Nội dung, thời gian,
kinh phí, địa điểm )
Ghi chú*
1 Hội thảo khoa học lần 1: Báo
cáo khoa học các nội dung
Địa điểm: Trung tâm MICA,
Trường Đại học Bách Khoa
đồng Địa điểm: Phòng hội
thảo, Trung tâm nghiên cứu quốc tế MICA, Tầng 9, Nhà B1, Trường Đại học Bách Khoa Hà Nội
2 Hội thảo khoa học lần 2: Báo
cáo khoa học các nội dung
Địa điểm: Trung tâm MICA,
Trường Đại học Bách Khoa
đồng Địa điểm: Phòng hội
thảo, Trung tâm nghiên
Trang 15cứu quốc tế MICA, Tầng 9, Nhà B1, Trường Đại học Bách Khoa Hà Nội
8 Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)
Số
TT
Các nội dung, công việc
chủ yếu (Các mốc đánh giá chủ yếu)
Theo kế hoạch
Thực tế
đạt được
1 Nội dung 1: Tìm hiểu tổng quan
và đánh giá sự phát triển các
robot thông minh trên thế giới
và tại Việt Nam.
Từ 07/2009 đến 09/2009
Từ 07/2009 đến 9/2009
Nguyễn Quốc Cường
Lê Thị Lan Trần Đỗ Đạt Phạm Thị Ngọc Yến Nguyễn Việt Tùng
MICA
2 Nội dung 2: Xây dựng cấu hình
robot, phát triển mô hình động
học và điều khiển robot
Từ 07/2009 đến 06/2010
Từ 07/2009 đến 6/2011
Nguyễn Việt Tùng
Nguyễn Việt Sơn
Nguyễn Thị Lan Hương
Khoa Điện
Trang 163 Nội dung 3: Nghiên cứu, thiết
kế các mô-đun tương tác đa
phương tiện người-robot
Từ 09/2009 đến 12/2010
Từ 09/2009 đến 2/2010
Nguyễn Quốc Cường
Lê Thị Lan Phạm Thị Ngọc Yến Trần Đỗ Đạt Trần Thị Thanh Hải
Lê Thanh Hương
MICA và khoa CNTT
4 Nội dung 4: Triển khai, tích
hợp các mô-đun trên hệ thống
giả lập
Từ 12/2010 đến 06/2011
Từ 12/2010 đến 6/2011
Nguyễn Quốc Cường
Lê Thị Lan Phạm Thị Ngọc Yến Trần Đỗ Đạt Trần Thị Thanh Hải Nguyễn Việt Tùng
Nguyễn Việt Sơn
Lê Thanh Hương
MICA, Khoa CNTT và
Trang 17Khoa Điện
5 Nội dung 5: Triển khai, tích
hợp và thử nghiệm vào robot
dịch vụ du lịch
Từ 12/2010 đến 06/2011
Từ 12/2010 đến
12/2011
Nguyễn Quốc Cường
Lê Thị Lan Phạm Thị Ngọc Yến Trần Đỗ Đạt Trần Thị Thanh Hải Nguyễn Việt Tùng
Nguyễn Thị Lan Hương Nguyễn Việt Sơn
MICA
- Lý do thay đổi (nếu có):
Trong quá trình thực hiện, đề tài có hai thay đổi về thời gian thực hiện đối với nội dung 2 (xây dựng cấu hình robot, phát triển mô hình động học và
điều khiển robot) và nội dung 5 (triển khai, tích hợp và thử nghiệm vào
robot dịch vụ du lịch) do đề tài gặp phải một số khó khăn như sau:
• Chậm trễ trong mua sắm thiết bị phục vụ đề tài: Dự kiến thời gian mua thiết bị là năm 2009-2010 tuy nhiên đề tài phải thực hiện điều chỉnh danh sách các thiết bị do các thiết bị mua hầu hết đều là thiết bị nhập ngoại, tỉ giá ngoại tệ thay
đổi
• Việc liên hệ tìm kiếm địa điểm đối tác để thử nghiệm kết quả của đề tài tốn nhiều thời gian: Để tìm được đối tác phù hợp cho các sản phẩm của đề tài, đề tài đã đi liên hệ, đi thực tế và trao đổi, làm việc với một số bảo tàng tại Hà Nội Sau đó
Trang 18quá trình đàm phán về hình thức, lịch trình hợp tác cũng đòi hỏi nhiều thời gian
Các thay đổi này đã được đề tài trình lên tổ chức chủ trì đề tài - Trường
Đại học Bách Khoa Hà Nội, Bộ Giáo dục và Đào tạo, Bộ Khoa học và
Công nghệ và nhận được sự đồng ý của Trường và các Bộ
III SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN
1 Sản phẩm KH&CN đã tạo ra:
Theo kế hoạch
Thực tế đạt được
1 Robot thông minh
Có khả năng giao tiếp
Bằng tiếng nói (trong môi
trường ít nhiễu) :
• Nghe hiểu được những câu
lệnh di chuyển đơn giản
(tiến, lùi, trái, phải,…) Độ
chính xác 90% (microphone
cách người nói < 10cm) và
80% (microphone cách
người nói <1m)
• Hiểu được các câu hỏi, yêu
cầu giới thiệu về một số
hiện vật trong bảo tàng Độ
Chất lượng âm thanh tổng hợp
đánh giá trên chuẩn kiểm tra
MOS > 3,5/5
Con 01 Cài đặt hệ
tương tác người – robot bằng tiếng nói
và hình ảnh lên Robot
PC BOT
914
Thử nghiệm tại viện bảo tàng
Đã cài đặt
hệ thống tương tác lên robot theo kế hoạch
Đã thử nghiệm tại bảo tàng dân tộc học Việt nam
Trang 19Bằng hình ảnh:
• Nhận biết 06 cảm xúc (vui, buồn, giận, sợ hăi, ngạc
• Người điều khiển đứng
trước robot với khoảng cách 1.5-2.5m
Trang 20- Lý do thay đổi (nếu có):
Trang 21- 20 người tham gia, một người thực hiện một cử chỉ 2 lần
- Frame của video có kích thước 640×480, 24 bit màu
- Người điều khiển đứng trước robot với khoảng cách 1.5-2.5m
- Điều kiện ánh sáng trong phòng
- Một người điều khiển ở một thời điểm
- Người điều khiển không bị che lấp
- Cơ sở dữ liệu này được gán nhãn, có thể sử dụng cho các
đề tài khác.
CSDL cử chỉ được thiết kế
và xây dựng trong đề tài có những đặc điểm sau:
- 5 cử chỉ được nghiên cứu và thiết kế theo phương pháp Wizard of Oz
Tập các cử chỉ này đã được kiểm nghiệm thỏa mãn các tiêu chí về độ
tự nhiên cho người thực hiện và độ phân biệt đối với robot (độ nhận dạng trung bình khoảng 88%)
- Mỗi cử chỉ
Trang 22có 3 giai đoạn: giai đoạn chuẩn bị, giai đoạn thực hiện, giai đoạn kết thúc
- 20 người tham gia (10 nam, 10 nữ) ở
độ tuổi 20 đến
40
- Khi thu thập
dữ liệu, người điều khiển đứng trước camera với khoảng cách 1- 2.5m
- Điều kiện ánh sáng trong phòng
- Một người điều khiển ở một thời điểm
- Người điều khiển không bị che lấp
Bao gồm hai
bộ dữ liệu:
• Dữ liệu video: gồm
Trang 23600 video (3 lần thu/người *
20 người * 5
cử chỉ * 2 phông nền) Các file video
có định dạng asf, tốc độ 30 khung
hình/giây, kích thước khung
640x480 điểm ảnh, với độ dài vào khoảng 5s
• Dữ liệu ảnh: chứa các ảnh được tách
ra từ các video thu được, gồm
6000 ảnh cho
5 cử chỉ (1200 ảnh/cử chỉ) Các ảnh có kích thước 640x480 điểm ảnh, ở định dạng jpg, 24 bít màu
CSDL này được gán
Trang 24nhãn, có thể sử dụng cho các
- Mặt người chính diện với camera
- Điều kiện ánh sáng trong phòng
- Một người thực hiện 1 cảm xúc 3 lần
- Frame trong video có kích thước 640×480, 24 bit màu
- Video có tốc độ lấy mẫu 25 hình/s, 2s cho một cảm xúc
- Cơ sở dữ liệu này được gán nhãn, có thể sử dụng cho các
đề tài khác.
Cơ sở dữ liệu ảnh và video cho cảm xúc được thu thập với:
- 20 người (10 nam, 10 nữ)
- 06 cảm xúc (vui, buồn, giận, sợ hăi, ngạc nhiên, chán nản)
- Mặt người chính diện với camera
- Điều kiện ánh sáng trong phòng
- Một người thực hiện 1 cảm xúc 3 lần
- Frame trong video có kích thước
640×480, 24 bit màu
- Video có tốc
độ lấy mẫu 25
Trang 25hình/s, 2s cho một cảm xúc
Bộ dữ liệu video cảm xúc gồm 720 video (20 người X 2 điều kiện phông nền X 3 lần X 6 cảm xúc = 720 video) Video
có độ dài ~5s
và theo định dạng asf
Bộ dữ liệu ảnh gồm 7200 ảnh định dạng jpg kích thước 640x480 được trích chọn từ
720 video thu thập được bằng cách lựa chọn với mỗi chủ thể, tương ứng với mỗi lần thể hiện cảm xúc, ở mỗi điều kiện phông nền 10 ảnh (6 cảm
Trang 26xúc x 20 người
x 3 lần x 10 ảnh x 2 điều kiện phông nền = 7200 ảnh)
Cơ sở dữ liệu ảnh và video
đã được gán nhãn có thể dùng để thử nghiệm, đánh giá các giải thuật về phát hiện mặt người, nhận
- Số lượng câu: 50 câu
- Mỗi câu, với 1 người phát
âm 3 lần
- Tần số lấy mẫu tín hiệu 16kHz với độ phân giải 16 bit
- Cơ sở dữ liệu được gán nhãn, có thể sử dụng cho các
đề tài khác.
Cơ sở dữ liệu tiếng nói cho nhận dạng tiếng nói (ứng dụng cho Robot bảo tàng)
VNSCORE (VietNamese Speech COrpus for REcognition): -20 người, có phương ngữ
Trang 27Bắc Bộ
- Câu có từ vựng trung bình Câu chứa các thông tin
về đồ vật tại khu trưng bày hiện vật dân tộc Chăm – Hoa – Khơ
me
- Tần số lấy mẫu: 16 kHz
- Số bit trên một mẫu tín hiệu : 16 bit
- Số lượng kênh thu : mono
- Kích thước CSDL: ~ 5 giờ tín hiệu
- Số lượng câu: 60 câu (mỗi cảm xúc 10 câu)
- 20 người (10 nam, 10 nữ)
- Mỗi câu, với 1 người phát
Cơ sở dữ liệu tiếng nói cho nhận dạng cảm xúc
- 11 câu nói trần thuật không mang thông tin về cảm xúc, dễ
Trang 28âm 3 lần
- Tần số lấy mẫu tín hiệu 16kHz với độ phân giải 16 bit
- Cơ sở dữ liệu được gán nhãn, có thể sử dụng cho các
đề tài khác
phát âm, có độ dài trung bình (4 – 6 từ) được lựa chọn
- 6 cảm xúc đã được đăng ký trong đề tài (vui, buồn, ngạc nhiên, giận dữ, chán nản và sợ hãi)
và trạng thái không cảm xúc
- Số người tham gia: 22 người, có phương ngữ Bắc Bộ, độ tuổi từ 19 – 32, không có khuyết tật trong phát âm
- Người tham gia được yêu cầu đọc 11 câu nói với 6 trạng thái cảm xúc
đã đăng ký và một trạng thái không cảm
Trang 29số kỹ thuật: tần số lấy mẫu
là 16KHz, số bit trên một mẫu tín hiệu là
16 bit, số lượng kênh thu
là mono, định dạng file: wav
Cơ sở dữ liệu
âm thanh của cảm xúc: 5082 tệp âm thanh
CSDL bảo tàng : lưu trữ khoảng 500 bản ghi, mỗi bản ghi sẽ gồm 1 số thuộc tính như : tác giả, thời gian, loại (tác phẩm), tiêu đề (tác phẩm), mô tả
CSDL quản lý hội thoại bao gồm:
- 1 CSDL các hiện vật trong bảo tàng dân tộc học, lấy thông tin từ
501 hiện vật
Trang 30trong bảo tàng, liên quan đến các dân tộc Chăm – Hoa - Khơme
- 1 tập câu hội thoại mẫu được thu âm từ các hội thoại trong Viện bảo tàng, với sự tham gia của 3 hướng dẫn viên của bảo tàng dân tộc học và 100 cán
bộ, sinh viên thuộc MICA
và trường Đại học Bách Khoa Hà Nội
- Các hội thoại được tiến hành
xử lý, phân loại theo hiện vật Với mỗi nội dung hỏi, chúng tôi lưu trữ nhiều cách hỏi khác nhau, nhằm xử lý
Trang 31tính đa dạng trong câu hỏi ngôn ngữ tự nhiên
- Kích thước tập câu hội thoại mẫu: 505 căp câu (hỏi- đáp) cho các chủ đề khác nhau liên quan đến 3 dân tộc Chăm – Hoa – Khơ me
Cho phép thực hiện các thao tác thống kê về cơ sở dữ liệu
Phần mềm cho phép hệ thống quản lý cơ sở
dữ liệu ảnh và video được thiết kế, xây dựng và cài đặt C# với hệ quản trị CSDL sql server 2005:
- Cho phép quản lý đồng thời cả dữ liệu ảnh và video
và cho phép nhiều người
Trang 32tham gia vào quá trình xây dựng cơ sở dữ liệu ảnh và video
- Quản lý các kiểu cảm xúc
và cử chỉ - đây
là hai thông tin quan trọng chứa trong ảnh
và video mà đề tài hướng đến phát hiện và nhận dạng
- Cho phép tìm kiếm một cách
dễ dàng các dữ liệu cần thiết trong cơ sở dữ liệu
-Cho phép nhiều người tham gia gán nhãn và chú thích về các ảnh và video trong cơ sở dữ liệu
- Cho phép thực hiện các
Trang 33Phần mềm tổng hợp tiếng nói, vận hành trên PC và Robot, cho phép xây dựng chức năng phản hồi thông tin bằng tiếng nói cho Robot Các chức năng của phần mềm:
- Chuyển văn bản thành đã được chuẩn hóa tín hiệu
âm thanh tiếng nói tiếng Việt
- Cho phép điều khiển tham số âm học: tần số cơ bản F0 và tốc
độ nói
- Chất lượng tổng hợp:
~3.5/5
- Xây dựng dựa trên kỹ
Trang 34thuật ghép nối với thuật toán TD-PSOLA và
kỹ thuật tìm kiếm đơn vị
âm tối ưu hướng dữ liệu Công cụ xây dựng: Visual C++
Hiểu được các câu hỏi, yêu cầu giới thiệu về một số hiện vật trong bảo tàng Độ chính xác 80% (microphone cách người nói < 10cm
Các chức năng:
- Nhận dạng tiếng nói liên tục
- Nhận dạng các câu lệnh điều khiển đạt 90% (trong điều kiện microphone gần người nói, đánh giá trên CSDL thử nghiệm)
Phần mềm được xây dựng dựa trên mô hình âm học
Trang 35tri-phone
Công cụ xây dựng: Xây dựng trên công
cụ Pocketsphinx, bằng ngôn ngữ lập trình C
9 Phần mềm
nhận dạng
cử chỉ
Nhận biết tập các cử chỉ điều khiển cơ bản được định nghĩa trong cơ sở dữ liệu Người điều khiển đứng trước robot với khoảng cách 1.5-2.5m
Phần mềm nhận dạng cử chỉ cho phép nhận dạng cử chỉ của người tương tác bằng hình ảnh
Các chức năng:
- Có khả năng nhận biết tập 5
cử chỉ điều khiển cơ bản được định nghĩa trong CSDL với điều kiện người điều khiển đứng trước robot ở khoảng cách 0.5-2.5m Kích thước
Trang 36ảnh 640 ×480 Điều kiện ánh sáng trong phòng Một người điều khiển ở một thời điểm Người điều khiển không bị che lấp Các thao tác được thực hiện lần lượt
- Độ chính xác 88% (được đánh giá trên
bộ CSDL thử nghiệm)
- Tốc độ nhận dạng: 18fps trên máy tính dual core 2.66Mh Ram 2G
Mô đun nhận dạng cử chỉ được xây dựng dựa trên đặc trưng Haar và
bộ phân lớp Adaboost
Trang 37Công cụ xây dựng: Ngôn
Visual Studio
2008 sử dụng thư viện mã nguồn mở OpenCV
10 Phần mềm
nhận dạng
cảm xúc
Nhận biết 06 cảm xúc (vui, buồn, giận, sợ hăi, ngạc nhiên, chán nản) Mặt người chính diện với camera Điều kiện ánh sáng trong phòng
Frame trong video có kích thước 640×480, 24 bit màu
Video có tốc độ lấy mẫu 25 hình/s, 2s cho một cảm xúc
Kết quả nhận dạng 70%
Phần mềm nhận dạng cảm xúc dựa trên hình ảnh cho phép nhận dạng cảm xúc của người tương tác
Các chức năng của phần mềm:
- Có khả năng nhận biết tập 6 cảm xúc (vui, buồn, giận, sợ hãi, ngạc nhiên, chán nản)
- Điều kiện ánh sáng trong phòng
- Mặt người chính diện với camera
Trang 38- Độ chính xác trung bình trên 70% (được đánh giá trên
bộ CSDL thử nghiệm)
- Tốc độ nhận dạng: 16fps trên máy tính dual core 2.66Mh Ram 2G
Phần mềm được xây dựng gồm 2 mô đun chính: phát hiện mặt người
và nhận dạng cảm xúc Mô đun phát hiện mặt người được xây dựng dựa trên đặc trưng Haar và
bộ phân lớp Adaboost Mô đun nhận dạng cảm xúc gồm
6 bộ nhận dạng, được huấn luyện
Trang 39dựa trên đặc trưng Haar và
bộ phân lớp Adaboost
Công cụ xây dựng: ngôn
Visual Studio
2008 sử dụng thư viện mã nguồn mở OpenCV
- Lý do thay đổi (nếu có):
1 08 bài báo tham gia các
hội thảo khoa học
chuyên ngành Công
nghệ thông tin và Tự
động hoá
Được in trong kỷ yếu khoa học của hội thảo
Được trình bày tại hội thảo và
in trong kỷ yếu khoa học của hội thảo
05 được trình
bày tại hội thảo và in trong kỷ yếu khoa học của các hội thảo:
- Hội thảo quốc gia về công nghệ thông tin lần
Trang 40(2009), thứ XIII (2010)
- Hội nghị khoa học kỹ thuật đo lường toàn quốc lần thứ 5, 2010 Hội nghị toàn quốc về Điều khiển và Tự động hoá,
VCCA, 2011
2 01 bài báo tham gia các
hội thảo quốc tế chuyên
ngành
Được trình bày
và in trong kỷ yếu của hội thảo
Được trình bày
và in trong kỷ yếu của hội thảo
9 được trình
bày tại hội thảo và in trong kỷ yếu khoa học của các hội thảo,
hội nghị:
- Hội nghị quốc tế về truyền thông
và điện tử (ICCE 2010)
- Hội nghị lần thứ 6 của tổ
kiếm thông tin châu Á (AIRS 2010)