Tôi cũng xin gửi lời cảm ơn tới PGS.TS Yusuke Miyao National Institute of Informatics, người đã hướng dẫn và tạo điều kiện cho tôi trong quá trình nghiên cứu đề tài tại Nhật Bản.. Tôi cũ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-* -
ĐÀO BẢO LINH
SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-* -
ĐÀO BẢO LINH
SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60.48.01.03
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LÊ ANH CƯỜNG
Hà Nội - 2015
Trang 3NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
Trang 4LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn tới thầy giáo hướng dẫn, PGS TS Lê Anh Cường (University of Enginerring and Technology) người đã trực tiếp hướng dẫn và tạo điều kiện tốt nhất để tôi hoàn thành luận văn này
Tôi cũng xin gửi lời cảm ơn tới PGS.TS Yusuke Miyao (National Institute
of Informatics), người đã hướng dẫn và tạo điều kiện cho tôi trong quá trình nghiên cứu đề tài tại Nhật Bản
Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại học Công Nghệ, những người đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiện cho tôi trong quá trình học tập và thực hành ở trường
Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn học và gia đình đã ủng
hộ, giúp đỡ tôi trong suốt quá trình tôi thực hiện luận văn này
Hà Nội, ngày 8 tháng 9 năm 2015
Học viên
Đào Bảo Linh
Trang 5LỜI CAM ĐOAN
Tôi xin cam đoan luận văn với đề tài “Sinh câu miêu tả cho hình ảnh sử
dụng mô hình ngôn ngữ” là công trình nghiên cứu của riêng tôi Các số liệu, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế
Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng
và chính xác những gì do tôi đóng góp
Luận văn này được hoàn thành trong thời gian tôi làm Học viên tại Khoa Công Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội
Học viên
Đào Bảo Linh
Trang 61
MỤC LỤC
Mục lục 1
Danh mục từ viết tắt 3
Thuật ngữ sử dụng 4
Danh mục bảng biểu 5 Danh sách hình vẽ Error! Bookmark not defined
MỞ ĐẦU Error! Bookmark not defined Chương 1 MÔ TẢ BÀI TOÁN Error! Bookmark not defined 1.1 Bài toán và Ý nghĩa Error! Bookmark not defined 1.2 Các nghiên cứu liên quan Error! Bookmark not defined 1.3 Phạm vi nghiên cứu của luận văn Error! Bookmark not defined Chương 2 PHƯƠNG PHÁP Error! Bookmark not defined 2.1 Tập văn bản Error! Bookmark not defined
2.1.1 Các loại tập văn bản Error! Bookmark not defined 2.1.2 Cấu trúc của tập văn bản Error! Bookmark not defined 2.1.3 Chú thích (annotation) Error! Bookmark not defined 2.1.4 Sử dụng tập văn bản Error! Bookmark not defined
2.2 Mô hình ngôn ngữ Error! Bookmark not defined
2.2.1 Khái quát Error! Bookmark not defined 2.2.2 Tầm quan trọng của mô hình ngôn ngữ N-gram Error! Bookmark
not defined
2.2.3 Mô hình ngôn ngữ N-gram Error! Bookmark not defined 2.2.4 Xích Markov Error! Bookmark not defined 2.2.5 Ước lượng xác suất Error! Bookmark not defined 2.2.6 Đánh giá mô hình xác suất qua độ hỗn loạn thông tin Error!
Bookmark not defined
2.3 Thuật toán tìm kiếm Error! Bookmark not defined
2.3.1 Thuật toán tìm kiếm theo chiều rộng Error! Bookmark not defined 2.3.2 Thuật toán tìm kiếm theo chiều sâu Error! Bookmark not defined 2.3.3 Thuật toán tìm kiếm theo lựa chọn tốt nhất(Best-first search) Error!
Bookmark not defined
Chương 3 MÔ HÌNH BÀI TOÁN Error! Bookmark not defined
Trang 72
3.1 Tổng quan mô hình Error! Bookmark not defined 3.2 Phát hiện đối tượng Error! Bookmark not defined
3.2.1 Đề cử vùng Error! Bookmark not defined 3.2.2 Trích chọn đặc trưng Error! Bookmark not defined
3.3 Sinh câu miêu tả cho đối tượng Error! Bookmark not defined Chương 4 THỰC NGHIỆM Error! Bookmark not defined 4.1 Môi trường cài đặt Error! Bookmark not defined 4.2 Quá trình thử nghiệm Error! Bookmark not defined
4.2.1 Nhận dạng đối tượng Error! Bookmark not defined 4.2.2 Tập văn bản huấn luyện Error! Bookmark not defined 4.2.3 Kết quả hệ thống sinh câu miêu tả Error! Bookmark not defined
KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 6 PHỤ LỤC Error! Bookmark not defined
Trang 83
Danh mục từ viết tắt
Ký hiệu viết
tắt
Viết đầy đủ Ý nghĩa
SVM support vector machine Máy hỗ trợ vector
NLP Natural Language
Processing
Xử lý ngôn ngữ tự nhiên
CNN Convolutional Neural
Network-CNN
Mạng nơ-ron nhân chập
BFS
Best-first search Tìm kiếm theo lựa chọn tối
ưu
Trang 94
Thuật ngữ sử dụng
Tiếng Anh Tiếng Việt
Breadth-first search Tìm kiếm theo chiều rộng
Depth-first search Tìm kiếm theo chiều sâu
Graph-based segmentation Phân đoạn ảnh dựa trên đồ thị
Bag-of-words Tập các từ rời rạc nhau
Computer vision Thị giác máy
Text Description Văn bản miêu tả
Trang 105
Danh mục bảng biểu
Bảng 2.2-1 Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập văn bản
Trang 116
TÀI LIỆU THAM KHẢO
Tiếng Việt
1 Phạm Thọ Hoàn, Phạm Thị Anh Lê (2011): Giáo trình trí tuệ nhân tạo, Khoa Công nghệ thông tin, trường Đại học Sư Phạm Hà Nội, tr 10-31
2 Đinh Mạnh Tường (2002): Giáo trình trí tuệ nhân tạo: NXB Khoa học
Kỹ thuật, tr 16-41
3 Nguyễn Duy Tiến (2000): Các mô hình xác suất và ứng dụng, NXB Đại học quốc gia Hà Nội, tr 11-32
4 Đặng Hùng Thắng (2007): Quá trình ngẫu nhiên và tính toán ngẫu nhiên NXB Đại học quốc gia Hà Nội, tr 5-6
Tiếng Anh
5 B Z Yao, X Yang, L Lin, M W Lee, and S.-C Zhu (2010) I2T: Image Parsing to Text Description Proceedings of the IEEE , pp 1485–1508
6 Ushiku, Y., Harada, T., Kuniyoshi, Y (2012): Efficient Image Annotation for Automatic Sentence Generation, ACM MM
7 Hao Fang∗ Saurabh Gupta∗ Forrest Iandola∗ Rupesh K Srivastava∗
Li Deng Piotr Dollár† Jianfeng Gao (2015): From Captions to Visual Concepts and Back, Microsoft Research
8 Stuart J Russell and Peter Norvig (2009) Artificial Intelligence: A Modern Approach 3rd Edition, Prentice Hall, Upper Saddle River, New Jersey
9 I Endres and D Hoiem (2010) Category independent object proposals,
In ECCV
10 J Uijlings, K van de Sande, T Gevers, and A Smeulders (2013) Selective search for object recognition, IJCV
11 Ross Girshick et al Rich feature hierarchies for accurate object detection and semantic segmentation, CVPR14
Trang 127
12 H Harzallah, F Jurie, and C Schmid (2009) Combining efficient object localization and image classification, In ICCV
13 P Arbela ́ez, M Maire, C Fowlkes, and J Malik (2011) Contour detection and hierarchical image segmentation, TPAMI
14 P F Felzenszwalb and D P Huttenlocher (2004) Efficient Graph Based Image Segmentation IJCV, pp 167–181
15 Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi (2011) Understanding images with natural sentences ACM Multimedia,ACM, pp
679-682
16 A Krizhevsky, I Sutskever, and G Hinton (2012) ImageNet classification with deep convolutional neural networks In NIPS
17 Richard Szeliski (2010) Computer Vision: Algorithms and Applications , Springer, 655-656
18 Daniel Jurafsky, James H Martin (2009) Speed and language processing, 2nd edition, pp 2
Website:
19 http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/mo-hinh-ngon-ngu
20 https://en.wikipedia.org/wiki/Computer_vision