1. Trang chủ
  2. » Luận Văn - Báo Cáo

SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ

73 438 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 3,14 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MỞ ĐẦUNgày nay internet đang phát triển nhanh chóng, việc chia sẻ dữ liệu đaphương tiện như hình ảnh và các đoạn phim trên các trang web cũng trở nên phổbiến, kéo theo vấn đề là một số d

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-* -ĐÀO BẢO LINH

SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG

MÔ HÌNH NGÔN NGỮ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-* -ĐÀO BẢO LINH

SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LÊ ANH CƯỜNG

Trang 3

Hà Nội - 2015

NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin gửi lời cảm ơn tới thầy giáo hướng dẫn, PGS TS LêAnh Cường (University of Enginerring and Technology) người đã trực tiếphướng dẫn và tạo điều kiện tốt nhất để tôi hoàn thành luận văn này

Tôi cũng xin gửi lời cảm ơn tới PGS.TS Yusuke Miyao (National Institute

of Informatics), người đã hướng dẫn và tạo điều kiện cho tôi trong quá trìnhnghiên cứu đề tài tại Nhật Bản

Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đạihọc Công Nghệ, những người đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiệncho tôi trong quá trình học tập và thực hành ở trường

Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn học và gia đình đã ủng

hộ, giúp đỡ tôi trong suốt quá trình tôi thực hiện luận văn này

Hà Nội, ngày 8 tháng 9 năm 2015

Học viên

Đào Bảo Linh

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn với đề tài “Sinh câu miêu tả cho hình ảnh sử

dụng mô hình ngôn ngữ” là công trình nghiên cứu của riêng tôi Các số liệu, kết

quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng đượccông bố trong bất kỳ một công trình nào khác

Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liênquan ở trong nước và quốc tế

Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng

Trang 6

MỤC LỤC

Mục lục 1

Danh mục từ viết tắt 3

Thuật ngữ sử dụng 4

Danh mục bảng biểu 5

Danh sách hình vẽ 6

MỞ ĐẦU 7

Chương 1 MÔ TẢ BÀI TOÁN 8

1.1 Bài toán và Ý nghĩa 8

1.2 Các nghiên cứu liên quan 10

1.3 Phạm vi nghiên cứu của luận văn 11

Chương 2 PHƯƠNG PHÁP 12

2.1 Tập văn bản 12

2.1.1 Các loại tập văn bản 12

2.1.2 Cấu trúc của tập văn bản 13

2.1.3 Chú thích (annotation) 14

2.1.4 Sử dụng tập văn bản 14

2.2 Mô hình ngôn ngữ 15

2.2.1 Khái quát 15

2.2.2 Tầm quan trọng của mô hình ngôn ngữ N-gram 15

2.2.3 Mô hình ngôn ngữ N-gram 17

2.2.4 Xích Markov 18

2.2.5 Ước lượng xác suất 20

2.2.6 Đánh giá mô hình xác suất qua độ hỗn loạn thông tin 21

2.3 Thuật toán tìm kiếm 22

2.3.1 Thuật toán tìm kiếm theo chiều rộng 22

2.3.2 Thuật toán tìm kiếm theo chiều sâu 24

2.3.3 Thuật toán tìm kiếm theo lựa chọn tốt nhất(Best-first search) 25

Chương 3 MÔ HÌNH BÀI TOÁN 29

3.1 Tổng quan mô hình 29

3.2 Phát hiện đối tượng 29

Trang 7

3.2.1 Đề cử vùng 30

3.2.2 Trích chọn đặc trưng 34

3.3 Sinh câu miêu tả cho đối tượng 35

Chương 4 THỰC NGHIỆM 40

4.1 Môi trường cài đặt 40

4.2 Quá trình thử nghiệm 41

4.2.1 Nhận dạng đối tượng 41

4.2.2 Tập văn bản huấn luyện 42

4.2.3 Kết quả hệ thống sinh câu miêu tả 43

KẾT LUẬN 44

TÀI LIỆU THAM KHẢO 45

PHỤ LỤC 47

Trang 9

Danh mục từ viết tắt

Ký hiệu viết

tắt

SVM support vector machine Máy hỗ trợ vector

Trang 11

Thuật ngữ sử dụng

Breadth-first search Tìm kiếm theo chiều rộng

Depth-first search Tìm kiếm theo chiều sâu

Graph-based segmentation Phân đoạn ảnh dựa trên đồ thị

Trang 12

Danh mục bảng biểu

Bảng 2.2-1 Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tậpvăn bản

Trang 13

Danh sách hình vẽ

Hình 1-1 Các nghiên cứu của thị giác máy liên quan tới vấn đề nhận dạng đối

tượng 8

Hình 2-1 Minh hoạ thuật toán tìm kiếm theo lựa chọn tốt nhất 26

Hình 3-1 Mô hình sinh câu miêu tả cho hình ảnh 29

Hình 3-2 Hệ thống phát hiện đối tượng 30

Hình 3-3 Thống kê kết quả maximum recall đối với số lượng cửa sổ trên ảnh giữa phương pháp SVM kết hợp HOG, phương pháp SVM kết hợp BOF, phương Pháp SVM kết hợp HOG và BOF Kết quả thử nghiệm trên tập dữ liệu PASCAL VOC 2007 [11] 31

Hình 3-4 Kiến trúc của mạng neural nhân chập CNN 34

Hình 3-5 Mẫu huấn luyện biến dạng 35

Hình 3-6 Thí dụ sinh câu bất kỳ theo ngữ cảnh là các từ person, standing, tree Ký hiệu +, - tương ứng với ý nghĩa có thể mở rộng và không thể mở rộng, OWs nghĩa là "từ ngẫu nhiên" trong tập các ứng viên 36

Hình 3-6 Thí dụ minh hoạ về sự khác biệt ngữ nghĩa khi thay đổi thứ tự của từ 39

Hình 4-1 Nhận dạng đối tượng trong ảnh 41

Hình 4-2 Minh hoạ thành phần trong tập dữ liệu Microsoft COCO 42

Hình 4-3 Minh hoạ kết quả sinh câu miêu tả 43

Trang 15

MỞ ĐẦU

Ngày nay internet đang phát triển nhanh chóng, việc chia sẻ dữ liệu đaphương tiện như hình ảnh và các đoạn phim trên các trang web cũng trở nên phổbiến, kéo theo vấn đề là một số dữ liệu không được đặt tiêu đề hay thiếu cácmiêu tả, gây khó khăn cho việc tìm kiếm và khai thác thông tin trên internet, từ

đó chúng tôi quyết định nghiên cứu phát triển đề tài “Sinh câu miêu tả cho hìnhảnh sử dụng mô hình ngôn ngữ” Đề tài này sẽ tập trung vấn đề sinh ra câu miêu

tả cho hình ảnh Bài toán nghiên cứu của của luận văn cũng nằm trong cácnghiên cứu liên quan đến việc phát triển các hệ thống tự động miêu tả video, vàcác hệ thống trợ lý miêu tả lại môi trường xung quanh cho người mù, hay hỗ trợviệc tiếp thu tri thức hoặc môi trường của Robot

Sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ ( LanguageModel ) là bài toán được kết hợp giữa thị giác máy (Computer Vision) và xử lýngôn ngữ tự nhiên (Natural Language Processing), tương ứng với hai giai đoạnchính là nhận dạng đối tượng trong ảnh và sau đó sinh câu miêu tả Trong môhình này, xử lý ngôn ngữ tự nhiên đóng vai trò hết sức quan trọng, ảnh hưởngnhiều đến chất lượng của hệ thống Đề tài này luận văn sẽ ứng dụng một môhình mới trong nhận dạng đối tượng hình ảnh, đây là mô hình được huấn luyện

từ trước bởi trung tâm thí nghiệm thị giác máy trường đại học Berkeley, và tậptrung chủ yếu cho phát triển hệ thống trong giai đoạn miêu tả mối quan hệ, nộidung của hình ảnh với đầu vào là các đối tượng đã được nhận dạng

Để giải quyết bài toán này luận văn sẽ áp dụng thuật toán tìm đường đi tối

ưu Best-First Search (BFS), và mô hình ngôn ngữ n-gram được huấn luyện từtập dữ liệu văn bản bao gồm các câu miêu tả hình ảnh

Luận văn sẽ trình bày các kiến thức liên quan tới bài toán này đồng thời càiđặt phương pháp đã sử dụng để sinh câu cho ảnh, cuối cùng là những địnhhướng nghiên cứu trong tương lai dựa trên kết quả ban đầu đã đạt được

Trang 17

Chương 1 MÔ TẢ BÀI TOÁN

1.1 Bài toán và Ý nghĩa

Nhận dạng đối tượng trong ảnh là bài toán khá quen thuộc với hầu hếtnhững người làm nghiên cứu trong lĩnh vực khoa học máy tính nói chung, haythị giác máy nói riêng, có rất nhiều phương pháp với các mục đích khác nhau đãđược đề xuất nhằm nhận dạng khuân mặt, nhận dạng vị trí, nhận dạng đối tượng,

trong đó nổi bật là các công trình nghiên cứu như: Pictorial structures Fishcher

and Elschlager 1973 IEEE ( hình 1-1a), Eigenfaces Turk and Pentland 1991b( hình 1-1b), Real-time face detection Viola and Jones 2004, Springer( hình 1-1c), Instance (known object) recognition Lowe 1999 IEEE( hình 1-1d), Feature-based recognition Fergus, Perona, and Zisserman 2007( hình 1-1e), Region-based recognition Mori, Ren, Efros et al 2004 IEEE( hình 1-1f), Simultaneous recognition and segmentation Shotton, Winn, Rother et al 2009 Springer ( hình 1-1g), Location recognition Philbin, Chum, Isard et al 2007 IEEE( hình 1-1h), Using context Russell, Torralba, Liu et al 2007( hình 1-1i).

Hình 1-1 Các nghiên cứu của thị giác máy liên quan tới vấn đề nhận dạng

đối tượng [17].

Trang 18

Những năm gần đây nhiều nghiên cứu trong khoa học máy tính đang cónhững bước đột phá rõ rệt khi liên tục công bố các kết quả nghiên cứu về trí tuệnhân tạo, cho phép tạo ra những hệ thống Robot có khả năng thu nhận thông tin

từ môi trường tự nhiên và phân tích để đưa ra phản ứng phù hợp, ví dụ nhưRobot có khả năng gấp khăn, hay có thể giữ trạng thái thăng bằng trong các điềukiện tác động khác nhau, hay Robot có thể giao tiếp với con người bằng giọngnói và hành động các hệ thống này được kết hợp từ các nghiên cứu trong cáclĩnh vực riêng như: Thị giác máy, xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo ,điều này cho thấy kết hợp các công trình nghiên cứu trong các lĩnh vực khácnhau đang phát huy hiệu quả, đặc biệt là mô phỏng khả năng của con người hiệnđại, đó là khả năng nghe, nhìn, phân tích, hành động hoặc nói chuyện

Trong lĩnh vực thị giác máy các nghiên cứu cải tiến các hệ thống nhận dạngcũng đang phát triển mạnh mẽ, hiện nay trung tâm nghiên cứu thị giác máythuộc trường đại học Berkeley đang phát triển hệ thống nhận dạng các đối tượngtrong ảnh thông qua huấn luyện mô hình theo phương pháp Deep Learning, cụthể năm 2013 một mô hình có tên mô hình R-CNN (R-CNN model) được pháttriển cho phép nhận dạng các đối tượng trong hình ảnh, nhưng nhược điểm là hệthống tiêu tốn tài nguyên và chậm chạp, ngay sau đó mô hình Fast R-CNN rútngắn được thời gian, tới đầu năm 2015 họ công bố hệ thống Neural Talk, hệthống cải tiến này có khả năng nhận dạng đối tượng trong ảnh và nhận dạngđược cả hành động của các đối tượng đó Từ đó có thể thấy rằng các hệ thốngthông minh này đang có những bước cải tiến rõ rệt về hiệu năng cũng như chấtlượng

Việc sinh câu miêu tả cho hình ảnh được quy về bài toán tìm ra câu có xácsuất lớn nhất có thể cho các đối tượng đã nhận dạng được trong ảnh Vậy vấn đềđặt ra là làm thế nào để từ hai hay nhiều từ rời rạc mà ta có thể bổ sung các từvào sao cho thành lập/sinh câu có ngữ nghĩa tốt? Chúng tôi nghiên cứu mộtphương pháp giải quyết bài toán sinh câu áp dụng phương pháp tìm đường đi tốtnhất giữa các đỉnh của đồ thị, trong đó mỗi đỉnh là 1 từ, và hàm chi phí đượctính dựa trên giá trị xác suất giữa các đỉnh Có thể thấy rằng, trong điều kiện cụthể, chúng ta có đầu vào nhiều hơn 2 từ, vì thế cho nên bài toán được nâng lênthành tìm đường đi tối ưu qua nhiều đỉnh cho trước, chính vì thế việc tìm ra một

Trang 19

câu có ý nghĩa và tối ưu được về mặt thời gian và tài nguyên hệ thống là vấn đềkhó khăn có thể sẽ mất nhiều thời gian để có thể giải quyết được vấn đề này.Đối với nghiên cứu khoa học, giải quyết bài toán này không chỉ có ý nghĩatrong phạm vi sinh câu miêu tả hình ảnh mà còn có ý nghĩa khi nghiên cứu vấn

đề sinh câu miêu tả cho các đoạn phim ngắn bằng việc kết hợp hoặc xây dựng

mô hình phát hiện đối tượng trong các đoạn phim đó tại các thời điểm khác nhauvới kết quả nghiên cứu mà chúng tôi đã thực hiện Đối với thực tiễn dựa trênnhững nghiên cứu về sinh câu miêu tả cho hình ảnh, chúng ta có thể xây dựngcác hệ thống phục vụ cho đời sống con người như các hệ thống nhu có khả năngthu nhận hình ảnh và đưa ra câu miêu tả dưới dạng văn bản hoặc dạng giọng nói,như một người trợ lý Mặt khác trong thời đại bùng nổ của internet nhữngnghiên cứu về sinh câu miêu tả cho hình ảnh cũng mở ra ý tưởng về hệ thốngcho phép tìm kiếm hình ảnh thông qua các miêu tả có hiệu quả cao hơn, ngay cảđối với những hình ảnh có tên và mô tả mặc định hoặc không đúng với nội dunghình ảnh, giúp cho người sử dụng internet dễ dàng tiếp cận với tài nguyên khicần thiết

1.2 Các nghiên cứu liên quan

Nghiên cứu về sinh câu từ ảnh lần đầu tiên được nhóm tác giả B Z Yao,

X Yang, L Lin, M W Lee, and S.-C Zhu đề xuất vào năm 2010 Ý tưởng củanghiên cứu này là từ bức ảnh đầu vào, áp dụng kỹ thuật Image Parsing để phânđoạn thành các đối tượng [5], mỗi đối tượng tiếp tục được phân chia thành nhiềuthành phần, sau đó từ các biểu diễn ngữ nghĩa (semantic representation) sinh câutrong khi phải bảo đảm chính xác về mặt ngữ pháp

Một nghiên cứu khác đã được công bố, thông qua một mô hình ngữ phápthực nghiệm (experimental grammar model) để hình thành câu, với đầu vào làcác keyphrases (cụm từ khóa), các keyphrases này được giả định là nhận đượcsau khi phân tích nội dung của ảnh [6] Phương pháp này có ưu điểm là khôngcần phải phân loại thủ công theo các trường nhất định (các trường này có thể làcác đối tượng, các hành động và khung cảnh) như các phương pháp đã đượcnghiên cứu trước đó

Mới đây nhất, năm 2015 một phương pháp tự động sinh câu miêu tả ảnhđược đề xuất [7], quy trình sinh câu miêu tả được thực hiện thông qua 3 bước:Với đầu vào là 1 ảnh hệ thống sẽ phát hiện đối tượng và hành động, sinh câu và

Trang 20

xếp hạng cho các câu, đầu ra là một câu miêu tả tốt nhất cho bức ảnh đầu vào.Phương pháp này có sử dụng một mô hình ngôn ngữ được huấn luyện từ cácmiêu tả của hơn 400.000 ảnh thuộc tập dữ liệu Microsoft COCO

Ngoài ra còn có một vài nghiên cứu khác áp dụng chủ đề này cho miêu tảcác đoạn video, qua nhiều năm các phương pháp được đề xuất đã có nhiều thayđổi, cho phép các hệ thống sinh câu gần với ngôn ngữ tự nhiên hơn, cụ thể làviệc gần đây các nhà khoa học đã nghiên cứu về chủ đề này sử dụng các môhình ngôn ngữ đem lại hiệu quả tốt hơn Nhận thấy hiệu quả của hướng tiếp cậnmới, chúng tôi đã nghiên cứu một phương pháp sinh câu miêu tả cho hình ảnh,

sử dụng mô hình ngôn ngữ tự nhiên

1.3 Phạm vi nghiên cứu của luận văn

Ý tưởng chủ đạo của luận văn chúng tôi nghiên cứu là sinh câu miêu tả chohình ảnh, vì vậy để có được kết quả chúng ta phải thực hiện cả công đoạn pháthiện đối tượng trong ảnh và sinh câu miêu tả từ các đối tượng đã được phát hiện,tuy nhiên một mặt là do hiện nay trong lĩnh vực thị giác máy các nhà nghiên cứucũng đang nghiên cứu và đưa ra các mô hình tối ưu để phát hiện đối tượng, mặtkhác do điều kiện cụ thể về thời gian cho nên chúng tôi quyết định sử dụng môhình phát hiện đối tượng đã được huấn luyện từ trước như một giả thiết với đầuvào là một ảnh và đầu ra là các đối tượng/ nhãn để tập trung cho công đoạn 2,nghiên cứu phương pháp sinh câu từ các nhãn vừa thu được Sau đó ghép 2 côngđoạn lại sẽ là hệ thống tổng thể cho phép trả về kết quả là một câu tương ứng vớihình ảnh đầu vào

Tuy nhiên do đặc thù của hệ thống khi cài đặt có sử dụng kết quả nghiêncứu mô hình phát hiện đối tượng, cho nên trong luận văn chúng tôi sẽ trình bày

ở mức tìm hiểu, mục đích là để chúng ta có cái nhìn toàn diện hơn trên tổng thể

hệ thống

Luận văn sẽ trình bày những nội dung sau: Khái niệm về tập văn bản, môhình ngôn ngữ và phương pháp đánh giá, sau đó là các thuật toán tìm kiếm đặctrưng như thuật toán tìm kiếm theo chiều rộng, tìm kiếm theo chiều sâu và thuậttoán tìm kiếm theo lựa chọn tốt nhất Ngoài ra, chúng tôi cũng trình bày mô hìnhbài toán mà chúng tôi nghiên cứu, bao gồm: Giới thiệu tổng quan mô hình bàitoán, phương pháp phát hiện đối tượng trong ảnh, và phương pháp sinh câu miêu

Trang 21

tả cho hình ảnh Chương cuối sẽ trình bày về thực nghiệm của chúng tôi trongđiều kiện cụ thể.

Trang 22

Chương 2 PHƯƠNG PHÁP

2.1 Tập văn bản

Để xây dựng được mô hình ngôn ngữ chúng ta cần có tập văn bản mẫuhuấn luyện Cùng với từ điển, tập văn bản là những tài nguyên ngôn ngữ vôcùng căn bản và cần thiết cho xử lý ngôn ngữ tự nhiên (Natural LanguageProcessing: NLP) Từ điển là tập hợp các tri thức về ngôn ngữ, cách sử dụng và

ý nghĩa của từng từ thì tập văn bản là dữ liệu về cách sử dụng, cách viết của từ

Đối với tập văn bản hẹp, vấn đề lớn nhất là “để đảm bảo tính đại diện vàcân bằng của tập văn bản, thì phải lấy những chủng loại ngôn ngữ nào, và tỉ lệ làbao nhiêu” Không có 1 con số cụ thể và khách quan nào về những tỉ lệ này Vì

sự khó khăn của việc xây dựng tập văn bản hẹp, mà phần lớn tập văn bản hiệnnay đều là các tập văn bản rộng

2.1.1 Các loại tập văn bản

 Tập văn bản thô: Đơn giản chỉ là tập hợp các dữ liệu mà không có xử

lý gì thêm

 Tập văn bản được gắn nhãn: Các dữ liệu trong tập văn bản đã được

xử lý như phân tích từ, phân tích cú pháp, gắn nhãn từ loại, …

Ngoài cách chia trên, ta cũng có thể phân loại tập văn bản theo cấu tạo củanó:

Trang 23

 Tập văn bản biệt lập : Dữ liệu lấy vào 1 cách ngẫu nhiên, biệt lập vàkhông phân biệt với nhau.

 Tập văn bản theo danh mục : Dựa vào các danh mục để chia dữ liệutrong tập văn bản thành các nhóm

 Tập văn bản trùng lặp : Các dữ liệu trong tập văn bản có thể ở nhiềunhóm cùng lúc

 Tập văn bản theo thời gian : Các dữ liệu sắp xếp theo thời gian thuthập và thời gian xuất hiện

2.1.2 Cấu trúc của tập văn bản

Như đã trình bày ở trên, có hai hướng khi thiết kế một tập văn bản : Thứ làquan tâm và tính toán đến sự cân bằng (tính đại diện, phổ biến, đầy đủ) của tậpvăn bản, và thứ hai là tập trung vào số lượng mà không quan tâm đến sự cânbằng Tuỳ theo 2 hướng xây dựng này mà các tập văn bản sẽ có cấu trúc và quátrình xây dựng khác nhau

Khi xây dựng các tập văn bản hẹp, thường trải qua các quá trình sau :

 Tính toán, thiết kế tập văn bản: Đây là quá trình quan trọng nhấtquyết định đặc điểm, tính chất của tập văn bản Trước đó, ta phảikiểm tra những điều sau : (a) mục đích sử dụng tập văn bản, (b) kíchthức tập văn bản hay số lượng ngôn ngữ, (c) các chủng loại văn bảnđược chọn, (d) phương pháp phân tầng, phương pháp tính tỉ suất cấuthành, (e) độ dài các văn bản sẽ lấy, (f) bản quyền tác giả, phươngpháp công khai, và nhiều yếu tố khác

 Lấy mẫu (sampling): Từ tập hợp mẫu ta chọn ra lần lượt từng thànhphần (là các văn bản) Quá trình này phải tuân theo tỉ suất cấu thànhđược thiết lập từ bước 1 để xác định độ dài văn bản, số lượng vănbản ở mỗi tầng Sau khi xác định được các yếu tố này, người tathường dùng phương pháp chọn ngẫu nhiên các mẫu để xây dựng cáctầng

 Xây dựng hình thức (Formalization): Quá trình gắn thêm các tag cầnthiết cho các mẫu

Trang 24

 Chú thích (annotation): Bổ xung thêm thông tin về hình thái, phântách từ, cấu trúc câu …

 Sửa, bổ xung thêm các văn bản, thông tin liên quan: Các thông tinliên quan như quyền tác giả, giới thiệu, phương pháp, nguồn thôngtin, …

2.1.3 Chú thích (annotation)

Chú thích là quá trình bổ sung tri thức cho văn bản gốc Ví dụ như chúthích thêm thông tin về tự loại, chú thích thông tin cú pháp, chú thích thông tinngữ nghĩa Quá trình chú thích không làm mất đi nội dung gốc mà chỉ bổ sungthêm thông tin

Có 2 dạng chú thích chính :

 Chú thích được ghi cùng nội dung

 Chú thích tách biệt khỏi nội dung

Chúng ta sẽ xem xét ví dụ dưới đây :

“hôm nay trời đẹp.”

Với dạng 1, chú thích ghi cùng nội dung, ta sẽ có :

<N>hôm nay</N> <N>trời</N> <A>đẹp</A>

Nằm trong cụm <N> </N> là danh từ, <A> </A> là tính từ

Có thể thấy, khi ta bỏ các chú thích đi, ta thấy chú thích đã làm văn bảngiàu thông tin hơn và giữ thông tin câu văn ban đầu

Với dạng 2, chú thích tách biệt khỏi nội dung, ta sẽ có :

<start=0 end=16><N start=0 end=7><N start=8 end=12><A start=13end=16>

Các ví dụ này do tác giả tạo ra nhằm làm rõ hơn về khái niệm chú thích,không phải là dạng chú thích chuẩn được sử dụng trong thực tế

Trang 25

Đối với các chú thích ngữ học, sẽ có nhiều thông tin hơn được đưa vào.Với mỗi dạng tập văn bản (có lẽ) sẽ có 1 dạng tag khác nhau, vì thế nên đọc kĩcác tài liệu liên quan đến tập văn bản để thao tác được chính xác.

2.1.4 Sử dụng tập văn bản

Tập văn bản được sử dụng trong thống kê ngôn ngữ học, để quan sát vàphân tích các hiện tượng ngôn ngữ Từ khoảng những năm 1990, với sự pháttriển vượt bậc của tốc độ máy tính, hàng loạt tập văn bản được làm tự động haybán tự động đã được ra đời, điều này cũng làm tăng kích thước tập văn bản và

Thí dụ:

P(“It is raining heavily”) > P(“Raining heavily it is”)

Mô hình ngôn ngữ được áp dụng nhiều trong lĩnh vực xử lý ngôn ngữ tựnhiên như: Dịch máy, kiểm tra lỗi chính tả, tra cứu thông tin, phân đoạn từ vàcác ứng dụng khác Chính vì vậy mô hình ngôn ngữ hết sức quan trọng, làm tiền

đề cho các nghiên cứu trong các lĩnh vực liên quan Thí dụ, một mô hình ngônngữ kém sẽ kéo theo xác suất của câu cũng thay đổi theo, điều này ảnh hưởngrất nhiều đến kết quả và quá trình đánh giá kết quả của việc sinh một câu, ví dụnhư trong nhận dạng tiếng nói

Một mô hình ngôn ngữ sẽ cho chúng ta biết xác suất của một chuỗi từP(w1,w2,…,wk)

Trang 26

2.2.2 Tầm quan trọng của mô hình ngôn ngữ N-gram.

Mô hình ngôn ngữ quan trọng trong việc phát hiện từ bị nhiễu Trong nhậndạng giọng nói, với đầu vào là các tín hiệu âm thanh có nhiễu, độ nhập nhằng,hay là sự tương đồng cao Thí dụ, khi phát âm câu “I saw the van” nếu chỉ đơnthuần chuyển tín hiệu âm thanh thành câu, thì sẽ dễ dàng gặp trường hợp câuphát âm trở thành “eyes awe of an”, trong trường hợp này nếu thử nghiệm tínhxác suất với một mô hình ngôn ngữ ta sẽ thấy rằng P(“I saw the van”) > P(“eyesawe of an”) Trường hợp khác trong nhận dạng chữ viết tay, có những từ liênquan đến ngữ nghĩa của câu nhưng vì một lý do nào đó mà không rõ ràng, mờnhoè, ta phải sử dụng các biện pháp suy luận với một danh sách các ứng viên đểchọn ứng viên làm sao tạo thành câu có xác suất là cao nhất

Một ví dụ khác, mô hình ngôn ngữ đóng vai trò quan trọng trong dịch máythống kê, một thí nghiệm khác[18] cho thấy rằng, nếu dịch một câu từ tiếng

hợp:

he briefed to reporters on the chief contents of the statement

he briefed reporters on the chief contents of the statement

he briefed to reporters on the main contents of the statement

he briefed reporters on the main contents of the statement

Dựa vào mô hình ngôn ngữ ta có thể xác định briefed reporters được sử

dụng nhiểu hơn briefed to reporters, và main contents được sử dụng nhiều hơn

chief contents và câu cuối cùng là câu có xác suất là lớn nhất.

Trong sửa lỗi chính tả (spelling correction), có 2 nhiệm vụ chính là pháthiện từ lỗi và sửa từ lỗi, nhiều nhà nghiên cứu cũng đề xuất nhiều phương phápcho các mục đích khác nhau

Thí dụ:

They are leaving in about fifteen minuets to go to her house.

The design an construction of the system will take more than a year.

Trang 27

Những lỗi thế này xảy ra rất nhiều, chúng ta cũng không thể nào xác định

từ sai bằng cách gắn cờ cho từ không có trong từ điển, nhưng chúng ta có thể

biết được cụm từ “in about fifteen minuets” ít có khả năng xảy ra hơn “in about

fifteen minutes” Chúng ta có thể sử dụng một bộ spelling checker để ước tính

xác suất, đồng thời đưa ra gợi ý một cụm từ có xác suất cao nhất

Ngoài ra, mô hình ngôn ngữ N-gram còn được ứng dụng rộng rãi trong cáclĩnh vực khác như dự đoán từ (Word Prediction), gán nhãn từ loại (Part-Of-Speech Tagging ), Sinh ngôn ngữ tự nhiên (Natural Language Generation)

2.2.3 Mô hình ngôn ngữ N-gram

Áp dụng công thức luật xích (Chain Rule), ta có xác suất của một dãy từđược tính như sau:

P(w1w2…wk) = P(w1) P(w2|w1) P(w3|w1w2)

… P(wk|w1w2 …wk-1)

(2.1.1)

Cách tính xác suất của một từ với điều kiện các từ đứng trước nó:

Giả sử ta muốn tính xác suất của một từ w với một chuỗi từ h trước nó,

P(w,h) Với h là “its water is so transparent that”, w là “the”

Hay để tính:

P(the| its water is so transparent that)

Theo công thức xác suất có điều kiện:

(2.1.2)

Để tính được xác suất việc đầu tiên là ước lượng tần suất xuất hiện củachuỗi h “its water is so transparents that” ký hiệu là C(its water is sotransparents that) và bao nhiêu lần chuỗi h được theo sau bởi “the” ký hiệu làC(its water is so transparents that the) trong tập văn bản Sau đó áp dụng côngthức sau để tính ra xác suất:

Trang 28

Bằng cách áp dụng công thức trên chúng ta có thể tính được xác suất trongnhiều trường hợp, nhưng không phải tất cả các trường hợp, dữ liệu chúng ta thuthập được đôi khi không thể bao quát được tất cả trường hợp Vấn đề gặp ở đây

là vấn đề về dữ liệu thưa Hơn nữa như chúng ta đã biết, ngôn ngữ vốn dĩ có tínhchất sáng tạo, các chuỗi câu mới mang ý nghĩa có thể được tạo ra bất cứ khi nào

và được ngầm hiểu bởi con người với nhau Quay lại thí dụ trên chỉ cần ta thay

“its water is so transparent that” bằng “Walden Pond’s water is so transparentthat the” mà từ này được tạo ra trong khi bộ dữ liệu chưa được cập nhập thì cóthể sẽ dẫn đến xác suất tính được là 0

Mặt khác, nếu cứ liên tục cập nhập thêm các trường hợp mới thì bộ nhớ sẽngày càng lớn, với xu hướng sáng tạo phát triển thì đây là việc làm tiêu tốn tàinguyên hệ thống và đôi khi còn giảm hiệu năng hoạt động nữa

Vì thế, người ta đưa ra một phương pháp để tính xác suất hiệu quả hơnbằng cách áp dụng xấp xỉ Markov Như vậy, thay vì một từ phụ thuộc vào cảdãy đứng trước nó thì từ đó sẽ phụ thuộc vào n từ đứng liền trước nó

2.2.4 Xích Markov

Xét một hệ nào đó được quan sát tại các thời điểm rời rạc 0, 1, 2, Giả sửcác quan sát đó là , Khi đó ta có một dãy các đạilượng ngẫu nhiên ( ) trong đó là trạng thái của hệ tại thời điểm n Giảthiết rằng mỗi , n = 0, 1, là một đại lượng ngẫu nhiên rời rạc Ký hiệu E

là tập giá trị của các ( ) Khi đó E là một tập hữu hạn hay đếm được, cácphần tử của nó được ký hiệu là i, j, k Ta gọi E là không gian trạng thái củadãy

Ta nói rằng dãy các đại lượng ngẫu nhiên ( ) là một xích Markov nếuvới mọi < < < và với mọi , , ∈ E

Trang 29

Ta coi thời điểm là tương lai, là hiện tại còn , ,

là quá khứ Như vậy, xác suất có điều kiện của một sự kiện B nào đó trongtương lai nếu biết hiện tại và quá khứ của hệ cũng giống như xác suất có điềukiện của B nếu chỉ biết trạng thái hiện tại của hệ.[4]

Bài toán dự đoán từ tiếp theo của một chuỗi chưa đầy đủ chúng ta đi xétđiều kiện để xảy ra sự kiện B trong tương lai, hay nói cách khác dự vào xác suấtcủa từ hiện tại và các từ đứng trước để dự đoán từ tiếp theo của chuỗi đó

Trong mô hình ngôn ngữ n-gram, thông thường để tìm xác suất một chuỗicác từ chúng ta đi tìm tích của từng từ một dựa trên giá trị xác suất của các từđứng trước, theo luật xích (Chain Rule):

(2.2.4-1)

Theo công thức 2.2.4-1, chúng ta thấy rằng nếu xét ở thời điểm k là thờiđiểm hiện tại, thì k+1 là thời điểm tương lai và từ thời điểm bắt đầu tới thờiđiểm k-1 là quá khứ Nếu chúng ta giới hạn số lượng từ đứng trước ở mức m nào

đó thì có thể đảm bảo được kết quả dự đoán phân bố xác suất trong khi khôngnhững có thể tiết kiệm được tài nguyên hệ thống mà còn có thể giảm được đáng

kể thời gian tính toán khi dữ liệu tính toán lớn

Phân bố xác suất câu không giới hạn số lượng từ đứng trước tương đươngvới trường hợp giới hạn m từ đứng trước được biểu diễn dưới dạng công thứcnhư sau:

Trang 30

đứng trước càng nhỏ đồng nghĩa với ràng buộc sẽ thấp hơn, chất lượng kết quảcũng có thể vì thế mà bị tác động Do đó việc tăng số lượng từ đứng trước trongkhả năng có thể là việc hết sức cần thiết để nâng cao chất lượng kết quả Do đó,

ta quy ước mô hình ngôn ngữ unigrams, bigrams, trigrams tương ứng với môhình phụ thuộc vào 1 từ , 2 từ và 3 từ Trong 1 vài trường hợp số phụ thuộc này

có thể tăng lên, người ta quy ước chung là n-grams, với điều kiện 1 từ phụ thuộcvào n-1 từ trước nó, tạo thành các cụm n từ gọi là n-gram

2.2.5 Ước lượng xác suất

Để làm rõ quy tắc ước lượng xác suất cho mô hình ngôn ngữ, chúng ta đivào xét một dạng đặc trưng của các mô hình ngôn ngữ là mô hình trigrams chotập văn bản huấn luyện

Xác suất xảy ra một từ thoả mãn điều kiện xuất hiện ngay sau chuỗi được ký hiệu là P( ), giá trị này được tínhbằng thương của số lần mà chuỗi được theo sau bởi và số lầnxuất hiện chuỗi trong tập văn bản

(2.2.4-3)

Xét thí dụ trên tập dữ liệu thực tế, cụ thể là trên bộ dữ liệu văn bản gồm tậpcác câu miêu tả hình ảnh trích xuất từ Microsoft COCO dataset phiên bản pháthành năm 2014, chúng ta ước lượng xác suất cho các từ xuất hiện sau các chocụm từ “An empty”, “A man”:

An empty (count: 1225) A man (count: 41483)

Trang 31

“bathroom” trong điều kiện có cặp từ “An empty” đứng trước là P(bathroom|Anempty) 0.0506, thực hiện tương tự với các word khác chúng ta có thể tínhđược giá trị cho mô hình trigram và các mô hình xác suất khác.

2.2.6 Đánh giá mô hình xác suất qua độ hỗn loạn thông tin

Mô hình ngôn ngữ trong các điều kiện hay phương thức khác nhau mà đưa

ra kết quả khác nhau, như độ lớn của tập văn bản huấn luyện, hay phương pháplàm mịn được áp dụng hay không, và thiết lập giá trị cho tham số bao nhiêu…Những yếu tố đó tác động trực tiếp lên chất lượng của một mô hình ngôn ngữ.Vậy, làm thế nào để đánh giá cho mô hình ngôn ngữ? câu hỏi này sẽ được giảiđáp ở mục này

Chúng ta có thể trực quan đánh giá thông qua kết quả khi sử dụng mô hìnhngôn ngữ tuy nhiên cách đánh giá này phụ thuộc vào ứng dụng Ở đây chúng taxét cách đánh giá độc lập ứng dụng và chỉ dựa trên tập văn bản đánh giá Người

ta đưa ra một độ đo Perplexity(PP) để nói lên Cross entropy của tập văn bản test.Entropy chéo được định nghĩa như sau:

(2.2.6-1)

Với n là số lượng từ trong một câu, việc tính entropy chéo cho 1 câu là đilấy âm của logarithm cơ số 2 của phân phối xác suất toàn bộ câu, chia cho tổng

Trang 32

số lượng câu Khi cài đặt tính toán chúng ta có thể áp dụng công thức tươngđương dưới đây:

2.3 Thuật toán tìm kiếm

Trong bài toán chúng ta đang xét, nếu coi mỗi từ là một nút trong một đồthị và khoảng cách (chi phí) giữa mỗi nút là giá trị xác suất thì chúng ta có thểđưa về bài toán tìm đường đi tốt nhất

Chúng ta có nhiều phương pháp để tìm kiếm đường đi, mỗi phương pháptốt trong một bài toán cụ thể nào đó, trong chương này chúng tôi sẽ đưa ra mộtvài phương pháp tìm kiếm tiêu biểu nhất có thể áp dụng để giải quyết bài toánnày

2.3.1 Thuật toán tìm kiếm theo chiều rộng

Giải thuật tìm kiếm lời giải theo chiều rộng là cài đặt cụ thể của giải thuậtchung tìm kiếm lời giải, trong đó có sử dụng cấu trúc dữ liệu kiểu hàng đợi(Queue) để lưu giữ các trạng thái nút lá của cây tìm kiếm Các nút lá sinh ratrong quá trình thực thi giải thuật sẽ được cập nhật vào một hàng đợi theonguyên tắc nút nào được đưa vào hàng đợi trước sẽ được lấy ra trước trong quátrình mở rộng cây

Thuật toán này thực ra là sự cải biến về thứ tự duyệt đỉnh trên đồ thị củatìm kiếm theo chiều sâu bằng cách thay vì dùng một STACK thì ta lại dùng một

Trang 33

hàng đợi QUEUE để kết nạp đỉnh được thăm Như vậy, đỉnh được thăm càngsớm sẽ càng sớm trở thành duyệt xong (cơ chế First In First Out - vào trước ratrước) Thủ tục được miêu tả dưới đây:

Chúng ta có một số nhận xét sau đây về thuật toán tìm kiếm theo bề rộng:

• Trong tìm kiếm theo bề rộng, trạng thái nào được sinh ra trước sẽ đượcphát triển trước, do đó danh sách L được xử lý như hàng đợi Trong

Trang 34

bước 2.3, ta cần kiểm tra xem u có là trạng thái kết thúc hay không Nóichung các trạng thái kết thúc được xác định bởi một số điều kiện nào

đó, khi đó ta cần kiểm tra xem u có thỏa mãn các điều kiện đó haykhông

• Nếu bài toán có nghiệm (tồn tại đường đi từ trạng thái ban đầu tới trạngthái đích), thì thuật toán tìm kiếm theo bề rộng sẽ tìm ra nghiệm, đồngthời đường đi tìm được sẽ là ngắn nhất Trong trường hợp bài toán vônghiệm và không gian trạng thái hữu hạn, thuật toán sẽ dừng và chothông báo vô nghiệm

2.3.2 Thuật toán tìm kiếm theo chiều sâu

Tư tưởng chính của thuật toán: Giả sử chúng ta đang xét trên đồ thịG(V,E) Từ một đỉnh u_V hiện thời nào đó ta sẽ thăm tới đỉnh kề v của u và quátrình được lặp lại đối với đỉnh v ở bước tổng quát, giả sử hiện tại đang xét đỉnhu0, chúng ta sẽ có hai khả năng sẽ xảy ra:

-Nếu như tồn tại một đỉnh v0 kề với u0 mà chưa được thăm thì đỉnh v0 đó

sẽ trở thành đỉnh đã thăm và quá trình tìm kiếm lại bắt đầu từ đỉnh v0 đó

-Ngược lại, nếu mọi đỉnh kề với u0 đều đã thăm thì ta sẽ quay trở lại đỉnh

mà trước đó ta đến đỉnh u0 để tiếp tục quá trình tìm kiếm

Như vậy, trong quá trình thăm đỉnh bằng thuật toán tìm kiếm theo chiềusâu, đỉnh được thăm càng muộn càng sớm được duyệt xong ( Cơ chế Last InFirst Out - Vào sau ra trước ) Do đó, ta có thể tổ chức quá trình này bằng mộtthủ tục đệ quy như sau:

Trang 35

u trong từng bài toán đặt ra cụ thể.

Như ta đã biết, tư tưởng của chiến lược tìm kiếm theo độ sâu là, tại mỗibước, trạng thái được chọn để phát triển là trạng thái được sinh ra sau cùngtrong số các trạng thái chờ phát triển Do đó thuật toán tìm kiếm theo độ sâu làhoàn toàn tương tự như thuật toán tìm kiếm theo bề rộng, chỉ có một điều khác

là, ta xử lý danh sách L các trạng thái chờ phát triển không phải như hàng đợi

mà như ngăn xếp Cụ thể là trong bước 2.4 của thuật toán tìm kiếm theo bề rộng,

ta cần sửa lại là “Đặt v vào đầu danh sách L”

Sau đây chúng ta sẽ đưa ra các nhận xét so sánh hai chiến lược tìm kiếmmù:

• Thuật toán tìm kiếm theo chiều rộng luôn luôn tìm ra nghiệm nếu bàitoán có nghiệm Song không phải với bất kỳ bài toán có nghiệm nàothuật toán tìm kiếm theo độ sâu cũng tìm ra nghiệm! Nếu bài toán cónghiệm và không gian trạng thái hữu hạn, thì thuật toán tìm kiếm theo

độ sâu sẽ tìm ra nghiệm Tuy nhiên, trong trường hợp không gian trạngthái vô hạn, thì có thể nó không tìm ra nghiệm, lý do là ta luôn luôn đixuống theo độ sâu, nếu ta đi theo một nhánh vô hạn mà nghiệm khôngnằm trên nhánh đó thì thuật toán sẽ không dừng Do đó người takhuyên rằng, không nên áp dụng tìm kiếm theo dộ sâu cho các bài toán

có cây tìm kiếm chứa các nhánh vô hạn

• Độ phức tạp của thuật toán tìm kiếm theo độ sâu[1,2]

Trang 36

2.3.3 Thuật toán tìm kiếm theo lựa chọn tốt nhất(Best-first search)

Như chúng ta đã biết nếu tìm kiếm theo chiều sâu thì chúng ta không cầnquan tâm đến việc mở rộng các nhánh, tránh tiêu tốn tài nguyên hệ thống mộtcách không cần thiết nhưng có có thể bị sa vào nhánh mà có thể không thể tìm ralời giải như tìm kiếm theo chiều sâu Thuật toán tìm kiếm theo lựa chọn tốt nhất

sẽ giúp chúng ta giải quyết cả 2 vấn đề này Trong cùng một thời điểm chúng tavừa có thể khai thác hướng theo chiều sâu trong khi vẫn luôn quan sát hướngkhác để luôn sẵn sàng triển khai nếu phát hiện một hướng khác tiềm năng hơn

Ý tưởng cơ bản của thuật toán được miêu tả như sau:

Mỗi bước của tìm kiếm tốt nhất – đầu tiên sẽ liệt kê tất cả các trạng thái cóthể vào trong một danh sách đã được quy ước từ trước sau đó luôn luôn quan sátcác trạng thái trong danh sách này, chọn một trạng thái có khả năng cao nhất để

mở rộng, đồng thời những trạng thái phát sinh cũng sẽ được đưa vào trạng tháiquan sát để luôn luôn so sánh với những trạng thái tiềm năng, khi phát hiện ramột trạng thái khác có khả năng cao hơn thì chuyển qua trạng thái mới để pháttriển mở rộng trạng thái đó Quá trình được thực hiện theo nguyên tắc này chotới khi thoả mãn điều kiện dừng

Như vậy, với tiếp cận này, ta sẽ ưu tiên đi vào những nhánh tìm kiếm cókhả năng nhất (giống tìm kiếm leo đồi dốc đứng), nhưng ta sẽ không bị lẩn quẩntrong các nhánh này vì nếu càng đi sâu vào một hướng mà ta phát hiện ra rằnghướng này càng đi thì càng tệ, đến mức nó xấu hơn cả những hướng mà ta chưa

đi, thì ta sẽ không đi tiếp hướng hiện tại nữa mà chọn đi theo một hướng tốt nhấttrong số những hướng chưa đi

Xét thí dụ sau:

Ngày đăng: 29/01/2016, 20:46

HÌNH ẢNH LIÊN QUAN

Bảng 2.2-1. Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập  văn bản. - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Bảng 2.2 1. Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập văn bản (Trang 9)
Hình 2 Minh hoạ thuật toán tìm kiếm theo lựa chọn tốt nhất. - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Hình 2 Minh hoạ thuật toán tìm kiếm theo lựa chọn tốt nhất (Trang 33)
Hình 3. Hệ thống phát hiện đối tượng[9]. - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Hình 3. Hệ thống phát hiện đối tượng[9] (Trang 37)
Hình 3. Thống kê kết quả Maximum Recall đối với số lượng cửa sổ trên  ảnh giữa phương pháp SVM kết hợp HOG, phương pháp SVM kết hợp BOF,  phương Pháp SVM kết hợp HOG và BOF - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Hình 3. Thống kê kết quả Maximum Recall đối với số lượng cửa sổ trên ảnh giữa phương pháp SVM kết hợp HOG, phương pháp SVM kết hợp BOF, phương Pháp SVM kết hợp HOG và BOF (Trang 38)
Hình 3. Mẫu huấn luyện biến dạng[9]. - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Hình 3. Mẫu huấn luyện biến dạng[9] (Trang 43)
Hình 3. Thí dụ sinh câu bất kỳ theo ngữ cảnh là các từ person, standing,   tree. Ký hiệu +, - tương ứng với ý nghĩa có thể mở rộng và không thể mở rộng,   OWs nghĩa là &#34;từ ngẫu nhiên&#34; trong tập các ứng viên. - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Hình 3. Thí dụ sinh câu bất kỳ theo ngữ cảnh là các từ person, standing, tree. Ký hiệu +, - tương ứng với ý nghĩa có thể mở rộng và không thể mở rộng, OWs nghĩa là &#34;từ ngẫu nhiên&#34; trong tập các ứng viên (Trang 44)
Hình 4. Nhận dạng đối tượng trong ảnh. - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Hình 4. Nhận dạng đối tượng trong ảnh (Trang 49)
Hình vẽ dưới đây thể hiện kết quả của giai đoạn 2, giai đoạn sinh câu cho  hình ảnh với đầu vào là tập các từ đầu vào nhận được từ kết quả của giai đoạn 1,  giai đoạn nhận dạng đối tượng. - SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ
Hình v ẽ dưới đây thể hiện kết quả của giai đoạn 2, giai đoạn sinh câu cho hình ảnh với đầu vào là tập các từ đầu vào nhận được từ kết quả của giai đoạn 1, giai đoạn nhận dạng đối tượng (Trang 51)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w