Đây là một nhánh đề tài thực hiện nghiên cứu về xây dựng hệ thống khai thác thông tin hướng ngữ nghĩa trong văn bản tiếng Việt.. Theo kế hoạch Thực tế đạt được Kết quả sơ bộ 1 2
Trang 1CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01
BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN
NGHIÊN CỨU, XÂY DỰNG MỘT SỐ HỆ THỐNG KHAI THÁC THÔNG TIN ĐA PHƯƠNG TIỆN CÓ HỖ TRỢ TIẾNG VIỆT
KC01.16/06-10
Cơ quan chủ trì đề tài : Trường ĐH Khoa học Tự nhiên TP.HCM Chủ nhiệm đề tài : PGS.TS Dương Anh Đức
TP.HCM 12 - 2010
Trang 2CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01
BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN
NGHIÊN CỨU, XÂY DỰNG MỘT SỐ HỆ THỐNG KHAI THÁC THÔNG TIN ĐA PHƯƠNG TIỆN CÓ HỖ TRỢ TIẾNG VIỆT
KC01.16/06-10
Chủ nhiệm đề tài/dự án Cơ quan chủ trì đề tài/dự án:
PGS.TS Dương Anh Đức TS Lâm Quang Vinh
TP.HCM 12 - 2010
Trang 3MỤC LỤC
BÁO CÁO THỐNG KÊ 8
I THÔNG TIN CHUNG 8
Tên đề tài/dự án: 8
Mã số đề tài, dự án: KC01.16/06-2010 8
Chủ nhiệm đề tài/dự án: 8
Tổ chức chủ trì đề tài/dự án: 8
II TÌNH HÌNH THỰC HIỆN 9
Thời gian thực hiện đề tài/dự án: 9
Kinh phí và sử dụng kinh phí: 9
Các văn bản hành chính trong quá trình thực hiện đề tài/dự án: 10
(1) (Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có) 10
Tổ chức phối hợp thực hiện đề tài, dự án: 10
Cá nhân tham gia thực hiện đề tài, dự án: 10
Tình hình hợp tác quốc tế: 11
Tình hình tổ chức hội thảo, hội nghị: 11
Tóm tắt các nội dung, công việc chủ yếu: 11
III SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN 20
Sản phẩm KH&CN đã tạo ra: 20
Đánh giá về hiệu quả do đề tài, dự án mang lại: 26
Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài, dự án: 27
CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI 3
CHƯƠNG 2 TÓM TẮT KẾT QUẢ ĐẠT ĐƯỢC 3
Trang 42.1 NHÁNH A: HỆ THỐNG TRUY VẤN THÔNG TIN VĂN BẢN HƯỚNG NGỮ
NGHĨA 35
2.1.1 Đây là một nhánh đề tài thực hiện nghiên cứu về xây dựng hệ thống khai thác thông tin hướng ngữ nghĩa trong văn bản tiếng Việt 35
2.1.2 Trang thông tin giới thiệu đề tài http://nlp.hcmut.edu.vn/KC01.htm 35
2.1.3 Nghiên cứu và xây dựng hệ thống khai thác thông tin hướng ngữ nghĩa gồm: 35
2.1.3.1 Phân hệ 1: Hệ thống truy vấn thông tin hướng đến ngữ nghĩa (VIRS) 35 2.1.3.1.1 http://nlp.hcmut.edu.vn/vietirs/virs/clir_default.aspx 35
2.1.3.1.2 http://nlp.hcmut.edu.vn/vietirs/virs/sir_default.aspx 35
2.1.3.2 Phân hệ 2: Hệ thống hỏi đáp hướng đến ngữ nghĩa (VQAS) 35
2.1.3.2.1 http://nlp.hcmut.edu.vn/vietirs/vqas/default.aspx 35
2.1.3.3 Phân hệ 3: Cơ sở tri thức tiếng Việt (VKB) để phục vụ việc hiện thực hệ thống VIRS và VQAS 35
2.1.4 Nhóm nghiên cứu 35
2.1.5 Sản phẩm đăng ký và đạt được 36
2.1.5.1 Sản phẩm 1: 36
2.1.5.2 Sản phẩm 2: 36
2.1.5.3 Sản phẩm 3: 36
2.1.5.4 Đăng ký bằng độc quyền giải pháp hữu ích: 37
2.1.5.5 Bài báo: 37
2.1.5.6 Đào tạo: 38
2.1.6 Kết quả chi tiết của các sản phẩm đạt được: 38
2.1.6.1 Phương pháp đánh giá kết quả 38
2.1.6.2 Chương trình máy tính: Hệ thống truy vấn thông tin hướng đến ngữ nghĩa (VIRS) 38
2.1.6.2.1 [A] Tiền xử lý truy vấn tiếng Việt đầu vào để phục vụ khai thác thông tin văn bản và khai thác thông tin video 38
Trang 52.1.6.2.2 [B] Truy vấn thông tin (dạng tiếng Anh, hay dạng tiếng Việt theo
cách so trùng từ chính xác) trên Internet (Web) bởi kết hợp với một động cơ tìm kiếm thông tin sẵn có trên Internet (Google, Yahoo…) Đầu vào là truy vấn tiếng Việt của người dùng dạng câu đơn/cụm danh từ đơn/từ khóa đơn Đầu ra là danh mục các kết quả cần tìm trả về bởi công cụ tìm kiếm thông tin
đã dùng 39
2.1.6.2.3 [C] Truy vấn thông tin (tiếng Anh) trên kho tài liệu tiếng Anh xác định trước (các bài báo khoa học có cấu trúc quy ước) Đầu vào là truy vấn tiếng Anh của người dùng dạng cụm danh từ đơn/từ khóa đơn Đầu ra là danh mục tài liệu tiếng Anh tìm được 41
2.1.6.3 Chương trình máy tính: Hệ thống hỏi đáp hướng đến ngữ nghĩa (VQAS) 42
2.1.6.4 Chương trình máy tính: Cơ sở tri thức tiếng Việt (VKB) để phục vụ việc hiện thực hệ thống VIRS và VQAS 43
2.1.6.4.1 Huấn luyện VKB từ kho dữ liệu các bài báo khoa học ACM, Science-Direct, IEEE, Springer-Velag – 31.679 bài báo (tổng dung lượng 149MB) và danh mục sách từ thư viện Đại học Bách khoa TpHCM với kết quả chi tiết: 43
2.1.6.4.2 VKB – Tổ chức & số lượng 43
2.1.6.4.3 Khai thác VKB để phục vụ hệ thống VIRS 44
2.1.6.4.4 Khai thác VKB để phục vụ hệ thống VQAS 45
2.1.7 Hướng dẫn người dùng 46
2.1.7.1 Chương trình máy tính: Hệ thống truy vấn thông tin hướng ngữ nghĩa (VIRS) 46
2.1.7.1.1 Mô-đun: Chương trình tìm kiếm thông tin bài báo khoa học 46
2.1.7.1.2 Mô-đun: Chương trình truy xuất thông tin xuyên ngôn ngữ 52
2.1.7.2 Chương trình máy tính: Hệ thống hỏi đáp thông tin hướng ngã nghĩa (VIRS) 56
2.2 NHÁNH B: HỆ THỐNG KHAI THÁC THÔNG TIN VIDEO 62
Trang 62.2.1 Tóm tắt kết quả đạt được nhánh đề tài hệ thống khai thác thong tin video
hướng ngữ nghĩa 62
2.2.1.1 Giới thiệu đề tài 62
2.2.1.2 Sản phẩm đăng ký 63
2.2.1.3 Sản phẩm hoàn thành 64
2.2.1.3.1 Mười bảy báo cáo chi tiết các chuyên đề 65
2.2.1.3.2 Báo cáo tổng hợp về đề tài 66
2.2.1.3.3 Chương trình SEClassification 67
2.2.1.3.4 Chương trình SERetrieval 67
2.2.1.3.5 Chương trình SESummarization 68
2.2.1.3.6 Hai bài báo khoa học 69
2.2.1.4 Hướng dẫn người dùng 69
2.2.1.4.1 Phần mềm SEClassification 69
2.2.1.4.2 Phần mềm SESummarization 74
2.2.1.4.3 Phần mềm SERetrieval 78
2.2.2 Tóm tắt kết quả đạt được của nhánh đề tài xây dựng hệ thống truy vấn video dựa vào văn bản trích 80
2.2.2.1 Tổng quan 80
2.2.2.2 Sản phẩm đã đăng ký và kết quả đạt được 80
2.2.2.2.1 Sản phẩm phần mềm 80
2.2.2.2.2 Tài liệu kỹ thuật và bài báo khoa học 82
2.2.2.3 Kết luận 83
2.2.2.4 Hướng dẫn người dung 83
2.2.2.4.1 Giao diện chính của chương trình: 84
2.2.2.4.2 Tab “Video” 84
2.2.2.4.3 Tab “News” 85
2.2.2.4.4 Tab “Voice” 85
2.2.2.4.5 Tab “Video_Emotion” 87 2.2.3 Tóm tắt kết quả đạt được của nhánh đề tài hệ thống truy vấn chuyển động 87
Trang 72.2.3.1 Tổng quan 87
2.2.3.2 Các sản phẩm đã đăng ký và đã đạt được 88
2.2.3.2.1 Sản phẩm phần mềm 88
2.2.3.2.2 Tài liệu kỹ thuật và bài báo khoa học 90
2.2.3.3 Một số kết quả mở rộng khác 91
2.2.3.4 Kết luận 92
2.2.3.5 Hướng dẫn người dùng 93
2.2.3.5.1 Theo vết đơn đối tượng trong video thể thao (single object tracking): 93
2.2.3.5.2 Phát hiện cầu thủ trên sân bóng đá (multi-player detection): 94
2.2.3.5.3 Theo vết cầu thủ trên sân bóng đá (multi-player tracking): 96
Trang 8ĐẠI HỌC QUỐC GIA TP.HCM
- Chương trình (tên, mã số chương trình): Nghiên cứu, phát triển và
ứng dụng Công nghệ Thông tin & Truyền thông, KC01
- Dự án khoa học và công nghệ (tên dự án): Nghiên cứu, xây dựng một
số hệ thống khai thác thông tin đa phương tiện có hỗ trợ tiếng Việt
- Độc lập (tên lĩnh vực KHCN):
Chủ nhiệm đề tài/dự án:
Họ và tên: Dương Anh Đức
Ngày, tháng, năm sinh: 24/08/1968 Nam/ Nữ: Nam
Học hàm, học vị: PGS.TS
Chức danh khoa học: Chức vụ: Phó Hiệu trưởng
Điện thoại: Tổ chức: 38355269 Nhà riêng: Mobile: 0903937827
Fax: 38350096 E-mail: daduc@hcmus.edu.vn
Tên tổ chức đang công tác: Trường ĐH Khoa học Tự nhiên TP.HCM
Địa chỉ tổ chức: 227 Nguyễn Văn Cừ, Quận 5
Địa chỉ nhà riêng: 68/10B Trần Quang Khải, P Tân Định, Q 1
Tổ chức chủ trì đề tài/dự án:
Tên tổ chức chủ trì đề tài: Trường ĐH Khoa học Tự nhiên TP.HCM
Điện thoại: 38353193 Fax: 38350096
E-mail:
Trang 9Website: www.hcmus.edu.vn
Địa chỉ: 227Nguyễn Văn Cừ, Quận 5
Họ và tên thủ trưởng tổ chức: Dương Ái Phương
Số tài khoản: 931.01.05.00005, Trường ĐH Khoa học tự nhiên
Tại: Kho bạc Nhà nước quận 5, TP.HCM Tên cơ quan chủ quản đề tài: Đại học Quốc gia TP.Hồ Chí Minh
Thời gian
(Tháng, năm)
Kinh phí (Tr.đ) (Tháng, năm) Thời gian
Kinh phí (Tr.đ)
c) Kết quả sử dụng kinh phí theo các khoản chi:
Đối với đề tài:
Trang 10- Lý do thay đổi (nếu có):
Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:
(1) (Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có)
Số
TT
Số, thời gian ban
Nội dung tham gia chủ yếu
Sản phẩm chủ yếu đạt được
Ghi chú*
1 Trường ĐH
Bách Khoa
TP.HCM
Trường ĐH Bách Khoa TP.HCM
Theo thuyết minh
Theo thuyết minh
- Lý do thay đổi (nếu có):
Cá nhân tham gia thực hiện đề tài, dự án:
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 người kể cả chủ nhiệm)
Nội dung tham gia chính
Sản phẩm chủ yếu đạt được
Ghi chú*
1 Dương Anh Đức Dương Anh Đức Theo thuyết
minh
Theo thuyết minh
2 Phan Thị Tươi Phan Thị Tươi _nt_ _nt_
3 Ng Chán Thành Ng Chánh
Thành
Trang 114 Ng Quang Châu Ng Quang Châu _nt_ _nt_
5 Phan Phương
Lan
Phan Phương Lan
8 Ng Đình Thúc Ng Đình Thúc _nt_ _nt_
- Lý do thay đổi ( nếu có):
Tình hình hợp tác quốc tế:
Số
TT
Theo kế hoạch
(Nội dung, thời gian, kinh phí,
địa điểm, tên tổ chức hợp tác,
số đoàn, số lượng người tham
1 Tham gia Hội nghị Quốc tế
- Lý do thay đổi (nếu có):
Tình hình tổ chức hội thảo, hội nghị:
2 Hội thảo chuyên môn, ĐH
Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)
Theo kế Thực tế đạt
Trang 121.1.1 * Mô-đun Xử lý truy vấn (hỗ
trợ phần Video)
6/2009 -Phát triển định dạng truy vấn
1/2009-quy ước
-Phát triển phương thức tiền
xử lý truy vấn tiếng Việt
-Phát triển hệ thống xử lý truy
vấn dựa trên cơ sở tri thức
tiếng Việt (VKB)
1.1.2 * Mô-đun Truy vấn thông tin
xuyên ngôn ngữ Việt – Anh
12/2009 -Phát triển phương thức truy
6/2009-vấn thông tin xuyên ngôn ngữ
Việt – Anh
-Hiện thực động cơ truy vấn
thông tin tích hợp
1.1.3 * Mô-đun Truy vấn thông tin
bài báo khoa học tiếng Anh
6/2010 -Phát triển phương thức tạo
Trang 139/2009-ĐHBK (N.Q.Châu, P.T.Tươi, N.C.Thành)
ĐH Cần Thơ (P.P.Lan)
1.2.1 * Mô-đun Hỏi đáp thông tin
tiếng Việt
6/2010 -Nghiên cứu phát triển khả
9/2009-năng hỗ trợ tiếng Việt trong
hỏi đáp
-Phát triển phương thức nhận
dạng câu hỏi bởi tập các mẫu
hướng đến ngữ nghĩa
-Phát triển phương thức tạo
nội dung trả lời dựa trên cơ sở
tri thức tiếng Việt (VKB)
-Phát triển phương thức đánh
giá và chọn lọc câu trả lời
tiếng Việt hướng ngữ nghĩa
-Hiện thực động cơ hỏi đáp hỗ
trợ tiếng Việt
Thử nghiệm, hiệu chỉnh động
cơ hỏi đáp tiếng Việt
Trang 141.2.2 * Triển khai thực nghiệm hệ
thống VQAS ở một số đơn vị
hợp tác và đánh giá
12/2010
quan tại đơn vị ChipSang
1.3 CƠ SỞ TRI THỨC TIẾNG
VIỆT VKB ĐỂ PHỤC VỤ
HỆ THỐNG VIRS VÀ
VQAS
12/2009
1/2009-ĐHBK (P.T.Tươi, N.C.Thành, N.Q.Châu)
ĐH Cần Thơ (P.P.Lan)
ĐH XHNV (N.Đ.Dân) 1.3.1 * Nghiên cứu phát triển phần
cấu trúc VKB
4/2009 -Khảo sát đánh giá WordNet,
dạng cụm từ đặc trưng tiếng
Trang 15-Phát triển phương thức huấn
luyện tiếng Việt
-Hiện thực động cơ huấn
luyện cơ sở tri thức và thử
nghiệm
1.3.3 * Mô-đun Khai thác cơ cở tri
thức VKB
12/2009 -Phát triển phương thức khai
10/2009-thác cơ sở tri thức tiếng Việt
1.4 BÁO CÁO NGHIỆM THU
Đề TÀI LIÊN QUAN ĐẾN
HỆ THỐNG TRUY VẤN
THÔNG TIN VĂN BẢN
HƯỚNG NGỮ NGHĨA
12/2010
9/2010-ĐHBK (P.T.Tươi, N.C.Thành, N.Q.Châu)
ĐH Cần Thơ (P.P.Lan)
ĐH XHNV (N.Đ.Dân)
B HỆ THỐNG KHAI THÁC THÔNG TIN VIDEO
B1 Hệ thống truy vấn thông tin video hướng ngữ nghĩa
1 Xây dựng bộ dữ liệu thử
nghiệm và bộ dữ liệu học
1/2009- 6/2009
ĐHKHTN (L.Q.Ngọc, D.A.Đức)
- Chọn lọc bộ dữ liệu thử
Trang 161/2009-ĐHKHTN (L.Q.Ngọc, D.A.Đức) -Phân đoạn video thành các
đoạn cơ sở (Shot detection)
-Phân đoạn video thành các
đoạn chương trình (Program
khung hình chính, đoạn cơ sở
3 Xây dựng mô hình học khái
niệm (concept detector)
12/2009
1/2009-ĐHKHTN (L.Q.Ngọc, D.A.Đức)
- Xây dựng tập các khái niệm
1/2009-ĐHKHTN (V.H.Quân)
- Thu thập và xây dưng kho
ngữ liệu tiếng nói và văn bản
6/2009
Trang 171/2009 Xây dựng và cài đặt mô hình
phân đoạn và gom nhóm âm
thanh
6/2009
1/2009 Nghiên cứu và cài đặt các
phương pháp rút trích đặc
trưng tiếng nói
- Xây dựng và cài đặt mô hình
chuyển đổi tiếng nói sang văn
bản, cài đặt thử nghiệm
12/2009 1/2010- 6/2010
6/2009 Xây dựng công cụ lập chỉ
mục tự động giữa tiếng nói và
văn bản
6/2010
1/2010 Cài đặt thử nghiệm
6/2010-12/2010
5 Xây dựng mô hình truy vấn
video ở mức ngữ nghĩa dựa
vào hình ảnh và kết hợp với
văn bản và âm thanh
11/2010
1/2010-ĐHKHTN (L.Q.Ngọc, D.A.Đức, V.H.Quân)
- Xây dựng và cài đặt mô hình
truy vấn video ở mức ngữ
nghĩa dựa vào hình ảnh
- Xây dựng và cài đặt mô hình
ĐHKHTN (Đ.B.Tiến)
Trang 181.1 Tìm kiếm, khảo sát và sưu tập
các tài liệu của các hệ thống
thực tế có liên quan đến lĩnh
vực này
1.2 Nghiên cứu các kĩ thuật phát
hiện đối tượng bằng phương
pháp so khớp đặc trưng
1.4 Tìm hiểu phương pháp lọc và
các phương pháp khác có liên
quan(optical flow, online
selection ) cho bài toán theo
vết đối tượng
1.5 Tìm hiểu việc kết hợp các
phương pháp hiện có để giải
quyết bài toán theo vết đối
ĐHKHTN (Đ.B.Tiến)
2.1 Thu thập dữ liệu liên quan cho
bài toán thuộc mảng thể thao
và 1 số bộ dữ liệu đơn giản
liên quan
2.2 Nghiên cứu và cài đặt phần
phát hiện đối tượng
2.3 Nghiên cứu và cài đặt kĩ thuật
theo vết đối tượng dựa trên
Trang 19cân chỉnh các tham số của
chương trình
3 Thiết kế và đưa ra mô hình 11/2009 –
2/2010
ĐHKHTN (Đ.B.Tiến & V.H.Quân)
3.1 Thiết kế tổng thể về chức
năng của hệ thống theo vết đối
tượng
3.2 Thiết kế giao diện hệ thống
phát hiện và theo vết đối
tượng
3.3 Dựa trên các kết quả thử
nghiệm ở mục trên, đưa ra
hướng tiếp cận mới và mô
hình tương ứng để giải quyết
bài toán theo vết đối tượng
4 Xây dựng bộ dữ liệu và các
module tương ứng cho phần
phát hiện và theo vết đối
tượng
2/2010 – 7/2010
ĐHKHTN (Đ.B.Tiến & V.H.Quân)
4.1 Xây dựng bộ dữ liệu hoàn
chỉnh cho bài toán và chuẩn
hóa dữ liệu
4.2 Cài đặt giao diện của hệ thống
4.3 Cài đặt module phát hiện đối
tượng
4.4 Cài đặt module theo vết đối
tượng theo mô hình đề xuất ở
trên
4.5 Tổng hợp và ghép các module
trên thành một hệ thống hoàn
chỉnh
Trang 205 Cài đặt, chạy thực tế, và so
sánh với các kết quả liên
quan Điều chỉnh các tham
số cho phù hợp hơn
7/2010 – 9/2010
ĐHKHTN (Đ.B.Tiến, V.H.Quân)
5.1 Chạy thử nghiệm thực tế trên
bộ dữ liệu và lập các báo cáo
kết quả
5.2 Phân tích các kết quả để tinh
chỉnh các tham số và cải tiến
thuật giải bên dưới nâng cao
kết quả
6 Rút trích các thông tin liên
quan đến quá trình theo vết
đối tượng
9/2010 – 11/2010
ĐHKHTN (Đ.B.Tiến, V.H.Quân)
6.1 Dựa trên thông tin thu được
trong quá trình theo vết đối
tượng, phân tích các thông tin
hoàn thiện chương trình và
các báo cáo liên quan
12/2010
11/2010-ĐHKHTN (Đ.B.Tiến, V.H.Quân)
III SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN
Sản phẩm KH&CN đã tạo ra:
Trang 21[B] Truy vấn thông tin (dạng
tiếng Anh, hay dạng tiếng Việt
theo cách so trùng từ chính xác)
trên Internet (Web) bởi kết hợp với một động cơ tìm kiếm thông tin sẵn có trên Internet (Google,
Yahoo…) Đầu vào là truy vấn
tiếng Việt của người dùng dạng câu đơn/cụm danh từ đơn/từ khóa đơn Đầu ra là danh mục
các kết quả cần tìm trả về bởi
công cụ tìm kiếm thông tin đã dùng
-Độ chính xác:~55%, Độ bao phủ:~50%
-Từ điển máy khả đọc Việt-Anh trong lĩnh vực kỹ thuật (máy tính, phần cứng, phần mềm và viễn thông) có khoảng 4000 mục từ tiếng Việt và 4000 mục
từ tiếng Anh
[C] Truy vấn thông tin (tiếng
Anh) trên kho tài liệu tiếng Anh
xác định trước (các bài báo khoa học có cấu trúc quy ước)
Đầu vào là truy vấn tiếng Anh của người dùng dạng cụm danh
từ đơn/từ khóa đơn Đầu ra là
danh mục tài liệu tiếng Anh tìm được
-Độ chính xác:~55%, Độ bao
Như thuyết minh
Trang 22phủ:~50%
-Tập tài liệu huấn luyện gồm các bài báo khoa học thuộc lĩnh vực kỹ thuật có cấu trúc quy ước (IEEE, ACM, Springer) tiếng Anh, có khoảng 750MB -Tập chỉ mục hướng ngữ nghĩa khởi đầu có khoảng 4 nét ngữ nghĩa
hiện trả lời câu hỏi
-Độ chính xác:~50%, Độ bao phủ:~50%
- Tập dạng câu hỏi tiếng Việt đầu vào của hệ thống khởi đầu
có 6 dạng câu hỏi WH (who/ai,
which/cái nào-người nào, what/cái gì, when/khi nào, where/ở đâu, why/tại sao)
- Đầu ra là câu trả lời tiếng Việt phù hợp nhất hướng đến ngữ nghĩa
-Miền thông tin tri thức tiếng Việt cho câu hỏi và trả lời giới hạn trong lĩnh vực công nghệ thông tin và viễn thông
-Có 20 phân lớp chính, mỗi phân lớp chính có khoảng 25
Trang 23phân lớp con, mỗi phân lớp con
có khoảng 7 tính chất
-Có khoảng 2000 đầu mục (entry) phục vụ cho hệ thống VIRS và VQAS Trong đó VQAS có 6 dạng câu hỏi WH
(who/ai, which/cái nào-người
nào, what/cái gì, when/khi nào, where/ở đâu, why/tại sao)
[B] Công cụ hỗ trợ huấn luyện
cơ sở tri thức
-Độ chính xác:~60%, Độ bao phủ: ~50%
[C] Công cụ hỗ trợ khai thác thông tin
-Độ chính xác:~80%, Độ bao phủ:~80%
* Sản phẩm có bộ tài liệu kỹ
thuật/hướng dẫn sử dụng
B HỆ THỐNG KHAI THÁC THÔNG TIN VIDEO
B1 Hệ thống truy vấn video hướng ngữ nghĩa
từ 60% trở lên, có thể so sánh với thế giới (hoặc thấp hơn một chút), trong các điều kiện ràng buộc sau:
Tập dữ liệu huấn luyện, thuộc chủ đề thể thao, có kích thước 100 giờ
Tập dữ liệu kiểm tra, thuộc chủ đề thể thao, có kích thước 2 giờ
Các dữ liệu được thu từ đài
từ 50% trở lên, có thể so sánh với thế giới, trong các điều kiện ràng buộc sau:
Tập dữ liệu huấn luyện,
Như thuyết
minh
Trang 24(VR2) thuộc chủ đề thể thao, có
kích thước 100 giờ
Tập dữ liệu kiểm tra, thuộc chủ đề thể thao, có kích thước 2 giờ
Các dữ liệu được thu từ đài
từ 60% trở lên, có thể so sánh với thế giới
trong các điều kiện ràng buộc sau:
Tập dữ liệu huấn luyện, thuộc chủ đề thể thao, có kích thước 100 giờ
Tập dữ liệu kiểm tra, thuộc chủ đề thể thao, có kích thước 2 giờ
Các dữ liệu được thu từ đài
- Thực thi theo thời gian thực
trong các điều kiện ràng buộc sau:
Tập dữ liệu huấn luyện, thuộc chủ đề thể thao, có kích thước 100 giờ
Tập dữ liệu kiểm tra, thuộc chủ đề thể thao, có kích thước 2 giờ
Các dữ liệu được thu từ đài
- Có độ chính xác cao, đạt từ
Như thuyết
minh
Trang 25được phát
hiện – DP2
60% trở lên cho dữ liệu bản tin thể thao và số lượng chuyển động là không biết trước trong các điều kiện ràng buộc sau:
Tập dữ liệu huấn luyện, thuộc chủ đề thể thao, có kích thước 100 giờ
Tập dữ liệu kiểm tra, thuộc chủ đề thể thao, có kích thước 2 giờ
Các dữ liệu được thu từ đài
1 Các bài báo khoa học về
Các hội nghị khoa học (trong và ngoài nước)
2 Các báo các khoa học về
chủ đề hệ thống khai
thác thông tin video
Được đăng toàn văn
03
11
Các hội nghị khoa học (trong và ngoài nước) d) Kết quả đào tạo:
Trang 26Theo
kế hoạch
Thực tế đạt được
Kết quả
sơ bộ
1
2
Đánh giá về hiệu quả do đề tài, dự án mang lại:
a) Hiệu quả về khoa học và công nghệ:
(Nêu rõ danh mục công nghệ và mức độ nắm vững, làm chủ, so sánh với trình độ công nghệ so với khu vực và thế giới…)
- Các kết quả của đề tài này mang tính đặc thù về ngôn ngữ và ngữ cảnh của Việt nam, và một số cải tiến hoặc đột phá về giải pháp công nghệ cho các hệ thống truy vấn thông tin và hỏi đáp hướng đến ngữ nghĩa nói chung
- Các kết quả của đề tài đã tạo tiền đề và mở ra những hướng nghiên cứu mới có
ý nghĩa lớn về lý thuyết và ứng dụng
- Qua đề tài này, trước hết các cán bộ trực tiếp tham gia thực hiện đã có cơ hội tự bồi dưỡng, nâng cao trình độ chuyên môn của mình, bằng cách nghiên cứu độc lập trong nhóm, hợp tác với các chuyên gia nước ngoài có cùng sự quan tâm và nghiên cứu liên quan, cụ thể là các nhóm ở Đại học AUT (New Zealand), ĐH NTU (Singapore)
- Đề tài này cũng có nhiều vấn đề thành phần đặt ra làm đề bài cho các luận án Thạc Sỹ và Tiến Sỹ Đã có 2 tiến sĩ, 6 thạc sĩ, và một số kỹ sư, cử nhân với các luận án, luận văn giải quyết các vấn đề khác nhau của đề tài Các nghiên cứu sinh, học viên, sinh viên tốt nghiệp này đã góp phần vào nguồn nhân lực của Việt Nam cho lĩnh vực công nghệ thông tin nói chung, và lĩnh vực xử lý ngôn
Trang 27ngữ tự nhiên – truy vấn và hỏi đáp thông tin nói riêng, đặc biệt cho xử lý ngôn ngữ tiếng Việt, cũng như các nghiên cứu liên quan đến các hệ thống khai thác thông tin video
- Đối với cơ quan chủ trì, lợi ích trực tiếp chính là việc thụ hưởng được thành quả
về mặt con người Thông qua đề tài, một lớp cán bộ nghiên cứu đã được trải nghiệm qua những vấn đề nghiên cứu thực tiễn, giúp họ tích lũy thêm kinh nghiệm cũng như là tri thức mới Ngoài ra, các bài báo/công trình từ kết quả đề tài đã góp phần nâng cao thương hiệu của Trường
b) Hiệu quả về kinh tế xã hội:
(Nêu rõ hiệu quả làm lợi tính bằng tiền dự kiến do đề tài, dự án tạo ra so với các sản phẩm cùng loại trên thị trường…)
- Riêng hệ thống mà đề tài sẽ xây dựng và phát triển khi ứng dụng sẽ mang lại những lợi ích không chỉ về kinh tế mà còn về xã hội nữa Cụ thể hệ thống sẽ hỗ trợ người dùng truy vấn thông tin một cách thông minh hơn và uyển chuyển hơn, cho kết quả mang độ chính xác cao hơn Đặc biệt hơn là hệ thống sẽ giúp các thư viện của các cơ quan trường học, viện nghiên cứu các tòa soạn báo, đài phát thanh/truyền hình triển khai phục vụ người dùng trong việc khai thác thông tin được hiệu quả hơn
- Các kết quả của đề tài này sẽ góp phần xây dựng và củng cố uy thế cạnh tranh cho các sản phẩm và công nghệ nội địa về Web có ngữ nghĩa, truy vấn thông tin
đa phương tiện hướng đến ngữ nghĩa hỗ trợ tiếng Việt trong tương lai
Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài, dự án:
Trang 28CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI
Trang 29Lĩnh vực truy vấn thông tin đa phương tiện đã được nghiên cứu từ khi con người biết số hóa thế giới thực dưới dạng văn bản, hình ảnh, âm thanh, chuyển động Hiện nay, lĩnh vực này thường được nghiên cứu theo các hướng chuyên biệt như: truy vấn văn bản (Text Retrieval), truy vấn hình ảnh (Image Retrieval), truy vấn video (Video Retrieval), truy vấn âm thanh, tiếng nói (Speech/Audio Retrieval), truy vấn chuyển động (Motion tracking) Có không nhiều các kết quả nghiên cứu về truy vấn thông tin
đa phương tiện có xét đến đầy đủ các đặc trưng văn bản, hình ảnh, âm thanh, chuyển động
Truy vấn thông tin đa phương tiện là bước phát triển tất yếu của lĩnh vực truy vấn thông tin nói chung Nó là sự kết hợp của các lĩnh vực nghiên cứu tiên tiến trong ngành khoa học máy tính và trí tuệ nhân tạo như:
- Giai đoạn truy vấn dựa vào đặc trưng cấp thấp, và
- Giai đoạn truy vấn dựa vào ngữ nghĩa
Trong giai đoạn đầu, người ta tập trung vào việc nghiên cứu các đặc trưng cấp thấp - là các đặc trưng có thể được rút trích một cách tự động và thường được biểu
diễn bằng những vector có số chiều cố định Các đặc trưng phổ biến bao gồm:
- Văn bản: n-gram, túi từ (bag of words), nhãn từ loại (POS)…
- Âm thanh: ZCR, DFT, silence ratio, MFCC …
- Hình ảnh: màu sắc, vân, hình dáng
- Video: bao gồm tất cả các đặc trưng trên cộng với đặc trưng về chuyển động
Trang 30Hình 1: Lỗ hổng ngữ nghĩa
Trong giai đoạn truy vấn dựa vào ngữ nghĩa, người dùng thường quan tâm đến tính ngữ nghĩa của dữ liệu cần tìm Tuy nhiên, sự tương đồng về đặc trưng cấp thấp không nhất thiết dẫn đến sự tương đồng về ngữ nghĩa Vẫn còn một khoảng cách khá
xa giữa thông tin của dữ liệu mà máy tính lưu trữ và khái niệm mà con người thường
tư duy Cần phải có giải pháp để lấp dần khoảng trống ngữ nghĩa Một số giải pháp
đã được nghiên cứu giúp bắc các nhịp cầu nối giữa đặc trưng cấp thấp và ngữ nghĩa – đặc trưng cấp cao Một câu hỏi quan trọng: làm sao các đặc trưng cấp cao có thể tìm
được từ các đặc trưng cấp thấp? Các nghiên cứu giai đoạn gần đây tập trung vào việc
trả lời câu hỏi này
Bản chất của hệ thống truy vấn đa phương tiện là các kết quả truy vấn được sắp hạng dựa trên độ đo dị biệt (hoặc tương đồng) giữa kết quả truy vấn và câu truy vấn Các kiểu truy vấn thông tin đa phương tiện bao gồm:
- Truy vấn dựa vào từ khóa mô tả đối tượng, khái niệm cần truy vấn
- Truy vấn dựa vào mẫu dữ liệu (mẫu văn bản, mẫu video)
- Truy vấn dựa vào việc đặc tả đối tượng, khái niệm thông qua các dữ liệu metadata
Tóm lại, từ phần trình bày tóm lược ở trên, có thể nói, nghiên cứu và xây dựng hệ thống truy vấn thông tin đa phương tiện là đồng thời thực hiện các nghiên cứu về:
Trang 31- Xây dựng hệ thống truy vấn thông tin văn bản dựa trên ngữ nghĩa, lấy đó làm làm nền tảng làm khung sườn cho các hệ thống khác
- Xây dựng hệ thống truy vấn thông tin video (hình ảnh, âm thanh, chuyển động)
ở mức ngữ nghĩa, bao gồm hai tác vụ chính là xây dựng mô hình tổ chức dữ liệu và xây dựng mô hình truy vấn dữ liệu:
o Nhận dạng tiếng nói
o Xây dựng bảng mục lục, chỉ mục cho đoạn video
o Gán nhãn ngữ nghĩa cho các đoạn cơ sở
o Phát hiện các đối tượng, cảnh đặc thù; đối tượng, cảnh tổng quát; đối tượng, cảnh trừu tượng trong đoạn video
o Lọc, duyệt, truy vấn
Nội dung nghiên cứu của đề tài là những nghiên cứu hướng ngữ nghĩa: hướng ngữ nghĩa trong hệ thống truy vấn thông tin văn bản và hướng ngữ nghĩa trong truy vấn video Các nghiên cứu này giúp bổ sung các ưu điểm và khắc phục những khuyết điểm trong các mô hình truy vấn thông tin trước đó
Hình 2a minh họa ý tưởng chính của hệ thống mà đề tài sẽ thực hiện: xây dựng hệ thống truy vấn thông tin đa phương tiện dựa trên sự kết hợp của các đặc trưng: văn bản, hình ảnh, âm thanh và chuyển động Với chỉ một trong các đặc trưng vừa nêu ta không thể xây dựng hệ thống truy vấn thông tin đa phương tiện hoàn hảo, vì thông tin
đa phương tiện mang đồng thời bản chất văn bản, hình ảnh, âm thanh, chuyển động Các thuộc tính này được đặt trong một thực thế chung đó là tiếng Việt với những đặc thù riêng của nó Các đặc thù này được cụ thể hóa bằng hệ cơ sở tri thức tiếng Việt (VKB) nhằm triển khai phục vụ người sử dụng và các ngành nghề liên quan trong việc khai thác thông tin tại Việt nam (hình 2b);
Trang 32Hình 2: (a) Sơ đồ Hệ thống truy vấn thông tin đa phương tiện (mức ngữ nghĩa)
Truy vấn tiếng Việt
Bộ xử lý truy vấn
Hệ thống truy vấn thông tin văn bản (VIRS, VAQS)
Hệ thống truy vấn thông tin video dựa trên ngữ nghĩa VKB
Kết quả
Hệ thống khai thác thông tin đa phương tiện
có hỗ trợ tiếng Việt
Hình 2: (b) Sơ đồ Hệ thống truy vấn thông tin đa phương tiện (mức kết hợp)
Trang 33Chúng ta thử hình dung trong một tương lai gần, khi truy vấn một thông tin nào đấy, bên cạnh văn bản kết quả về thông tin đó, còn có thể có đoạn video liên quan với những hình ảnh và âm thanh đi kèm Con người có thể cảm thụ được thông tin tìm được với thị giác, thính giác và lý trí
Các nội dung nghiên cứu của đề tài do vậy cũng được triển khai bao gồm hai nhánh chính:
- Hệ thống khai thác thông tin văn bản
- Hệ thống khai thác thông tin video
Nhánh thứ nhất bao gồm các nghiên cứu để xây dựng:
- Hệ thống truy xuất thông tin Anh-Việt trực tuyến (VIRS);
- Hệ thống hỏi đáp tiếng Việt trực tuyến (Question - Answerring, VQAS);
- Cơ sở tri thức tiếng Việt (VKB)
Nhánh thứ hai bao gồm các nghiên cứu để xây dựng: Hệ thống truy vấn thông tin video dựa trên ngữ nghĩa, có khả năng kết hợp thông tin văn bản, âm thanh, hình ảnh, chuyển động để nâng cao hiệu quả tìm kiếm Hệ thống này được thực nghiệm trên kho ngữ liệu là các đoạn video thể thao Cụ thể, nó bao gồm 2 nhánh nghiên cứu chính:
- Hệ thống truy vấn thông tin video hướng ngữ nghĩa, có khả năng kết hợp đặc trưng hình ảnh và âm thanh (văn bản trích từ quá trình nhận dạng tiếng nói)
- Hệ thống truy vấn đối tượng chuyển động (xuất hiện trong các đoạn video), có khả năng xử lý mềm dẻo, ngay cả với những đoạn video có chất lượng không tốt
Phần còn lại của chương này là tổng hợp các kết quả mà nhóm đề tài đã thực hiện
Trang 34CHƯƠNG 2 TÓM TẮT KẾT QUẢ ĐẠT ĐƯỢC
Trang 352.1 NHÁNH A: HỆ THỐNG TRUY VẤN THÔNG TIN VĂN BẢN HƯỚNG NGỮ NGHĨA
2.1.1 Đây là một nhánh đề tài thực hiện nghiên cứu về xây dựng hệ thống khai thác thông tin hướng ngữ nghĩa trong văn bản tiếng Việt
2.1.2 Trang thông tin giới thiệu đề tài http://nlp.hcmut.edu.vn/KC01.htm
2.1.3 Nghiên cứu và xây dựng hệ thống khai thác thông tin hướng ngữ nghĩa gồm:
2.1.3.1 Phân hệ 1: Hệ thống truy vấn thông tin hướng đến ngữ nghĩa (VIRS)
Phan Thị Tươi,
PGS.TS
ĐHBK Tp.HCM
- Xác định hướng nghiên cứu thực hiện đề tài
- Nghiên cứu phát triển giải pháp của hệ thống truy vấn thông tin hướng đến ngữ nghĩa hỗ trợ tiếng Việt (VietSIRS) gồm hệ thống con VIRS và VQAS -Chủ trì thực hiện đề tài nhánh
Nguyễn Đức
Dân, GS.TS
ĐH KHXH&NV Tp.HCM
Nghiên cứu thẩm định các giải pháp và chuẩn dữ liệu liên quan tiếng Việt
Nguyễn Chánh
Thành,
ThS.NCS
ĐHBK Tp.HCM
- Thiết kế và xây dựng mô hình hệ thống truy vấn thông tin hướng đến ngữ nghĩa hỗ trợ tiếng Việt (VietSIRS)
- Xây dựng cơ sở tri thức tiếng Việt (VKB) nhằm
hỗ trợ truy xuất thông tin hướng đến ngữ nghĩa và
Trang 36triển khai ứng dụng trong các lĩnh vực có liên quan
- Thiết kế và xây dựng hệ thống con VIRS Nguyễn Quang
Châu, NCS
ĐH CN Tp.HCM
- Thiết kế và xây dựng mô hình hệ thống truy vấn thông tin hướng đến ngữ nghĩa hỗ trợ tiếng Việt (VietSIRS)
- Xây dựng cơ sở tri thức tiếng Việt (VKB) nhằm
hỗ trợ truy xuất thông tin hướng đến ngữ nghĩa và triển khai ứng dụng trong các lĩnh vực có liên quan
- Thiết kế và xây dựng hệ thống con VQAS Phan Phương
hỗ trợ truy xuất thông tin hướng đến ngữ nghĩa và triển khai ứng dụng trong các lĩnh vực có liên quan
- Nghiên cứu khả năng ứng dụng tiếng Việt của các công nghệ hỗ trợ (GATE, Lucene)
Tên: Chương trình máy tính: Cơ sở tri thức tiếng Việt (VKB) để phục vụ
việc hiện thực hệ thống VIRS và VQAS
Số lượng: 01
Trang 372.1.5.4 Đăng ký bằng độc quyền giải pháp hữu ích:
GIẢI PHÁP KỸ THUẬT VỀ CHƯƠNG TRÌNH MÁY TÍNH PHỤC VỤ HỎI
ĐÁP VÀ TRUY XUẤT THÔNG TIN DẠNG VĂN BẢN CÓ HỖ TRỢ TIẾNG
VIỆT (MS: 2-2010-00144, 06-07-2010)
2.1.5.5 Bài báo:
TẠP CHÍ KHOA HỌC
1 Tuoi T.Phan, Thanh C.Nguyen Vietnamese knowledge base development
and exploitation The International Journal of Business Intelligence and Data Mining
(IJBIDM), 2010 ISSN (Online): 1743-8195, ISSN (Print): 1743-8187
2 Nguyễn Chánh Thành, Phan Thị Tươi Mô hình mở rộng truy vấn trong truy
xuất thông tin Tạp chí Công Nghệ Thông tin & Truyền Thông: Các công trình nghiên
cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin và Truyền thông, số 2 (23)
kỳ 3, Việt nam, 2010 ISSN 0866–7039
CHƯƠNG SÁCH
3 Tuoi T.PHAN, Thanh C.NGUYEN, Thuy N.T.HUYNH Question Semantic Analysis in Vietnamese QA System The Advances in Intelligent Information and Database Systems book, Serie of Studies in Computational Intelligence, Volume 283, pp.29-40, 2010 Springer-Verlag ISSN 1860-949X DOI 10.1007/978-3-642-12090-9
HỘI NGHỊ KHOA HỌC QUỐC TẾ
4 Thanh C.NGUYEN, Hai M.LE, Tuoi T.PHAN Building Knowledge Base
for Vietnamese Information Retrieval The 11th International Conference on
Information Integration and Web-based Applications & Services, 2009, Malaysia, ACM & ACS ACM ISBN 978–1–60558–660–1
5 Chau Q Nguyen, Tuoi T Phan, 2009 Key Phrase Extraction: A Hybrid
Assignment and Extraction Approach In Proceedings of the 11th International
Conference of Information Integration and Web-based Applications & Services (iiWAS 2009), 14-16 December 2009, Malaysia, ACM & ACS, pp 274-281 OCG ISBN 978-
3-85403-260-1, ACM ISBN 978-1-60558-660-1
6 Chau Q Nguyen, Tuoi T Phan, 2009 An Ontology–Based Approach for
Key Phrase Extraction In Proceedings of the 47th Annual Meeting of the Association
for Computational Linguistics and the 4th International Joint Conference on Natural
Trang 38Language Processing of the Asian Federation of Natural Language Processing IJCNLP 2009), ISBN 978-1-932432-47-5, August 2 - 7, 2009, Singapore, Companion
(ACL-Vol, pp.181-184
7 Chau Q Nguyen, Luan T Hong, Tuoi T Phan, 2009 A Support Vector
Machines Approach to Vietnamese Key Phrase Extraction, In Proceedings of the 2009
IEEE-RIVF International Conference on Computing & Communication Technologies (IEEE-RIVF 2009), ISBN 978-1-4244-4567-7, IEEE eXpress, pp.131-135
Nguyễn Quang Châu
2.1.6 Kết quả chi tiết của các sản phẩm đạt được:
2.1.6.1 Phương pháp đánh giá kết quả
Tuân theo các phương pháp đánh giá dựa trên các độ đo về tính chính xác (P), tính bao phủ (R)
Dựa theo chuyên gia để đánh giá trong những trường hợp liên quan đến ngữ nghĩa
2.1.6.2 Chương trình máy tính: Hệ thống truy vấn thông tin hướng đến ngữ nghĩa (VIRS)
2.1.6.2.1 [A] Tiền xử lý truy vấn tiếng Việt đầu vào để phục vụ khai thác thông tin văn bản và khai thác thông tin video
Trang 39 Văn bản thể thao nhiều, nhưng thiếu từ điển thể thao
2.1.6.2.2 [B] Truy vấn thông tin (dạng tiếng Anh, hay dạng tiếng Việt theo cách
so trùng từ chính xác) trên Internet (Web) bởi kết hợp với một động cơ tìm kiếm thông tin sẵn có trên Internet (Google, Yahoo…) Đầu vào là truy vấn tiếng Việt của người dùng dạng câu đơn/cụm danh từ đơn/từ khóa đơn Đầu ra là danh mục các kết quả cần tìm trả về bởi công cụ tìm kiếm thông tin đã dùng