Phân tích tự động dữ liệu video số hỗ trợ truy tìm thông tin thị giác dựa vào nội dung
Trang 1Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
PHAN V ĨNH PHÝỚC -0112275
KH ÓA LUẬN CỬ NHÂN TIN HỌC
GI ÁO VIÊN HÝỚNG DẪN Th.s L Ý QUỐC NGỌC
id3289046 pdfMachine by Broadgun Software - a great PDF writer! - a great PDF creator! - http://www.pdfmachine.com http://www.broadgun.com
Trang 2Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Luận vãn của chúng em sẽ rất khó hoàn thành nếu không có sự truyền đạt kiến
thức quắ báu và sự hýớng dẫn tận tình của Thầy Lý Quốc Ngọc Chúng em xin chân
thành cám õn sự chỉ bảo của thầy
Chúng con xin gửi tất cả lòng biết õn, sự kắnh trọng đến ông bà, cha mẹ, cùng
toàn thể gia đình, những ngýời đã nuôi dạy, đã cho chúng con niềm tin và nghị lực để
výợt qua mọi khó khãn
Chúng em xin trân trọng cám õn quý Thầy cô trong Khoa Công nghệ thông tin
trýờng Đại học Khoa học Tự nhiên Tp.Hồ Chắ Minh đã tận tình giảng dạy, truyền đạt
những kiến thức quý báu và tạo điều kiện cho chúng em đýợc thực hiện luận vãn này
điểm khó khãn nhất, tiếp thêm động lực và ý chắ, giúp chúng tôi hoàn thành đýợc luận
vãn
Mặc dù đã cố gắng nỗ lực hết sức mình, song chắc chắn luận vãn không khỏi
còn nhiều thiếu sót Chúng em rất mong nhận đýợc sự thông cảm và chỉ bảo tận tình
của quý Thầy cô và các bạn
Tp.HCM, 7/2005
Nhóm sinh viên thực hiện Nguyễn Vãn Kỷ Cang Ờ Phan Vĩnh ýớc Ờ Nguyễn Quốc Tuấn
Trang 3Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
NH ẬN XÉT CỦA GIÁO VIÊN HÝỚNG DẪN
Trang 4
Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
NH ẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Trang 5
Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
M ỤC LỤC
L ỜI CẢM ÕN 2
M ỤC LỤC 5
DANH S ÁCH CÁC HÌNH VẼ 8
DANH S ÁCH CÁC BẢNG 10
T ÓM TẮT LUẬN VÃN 11
CH ÝÕNG 1 MỞ ÐẦU 12
1 Gi ới thiệu tổng quan 13
2 C ác hýớng nghiên cứu liên quan ðến ðề tài 17
3 Qui tr ình chính ðýợc thực hiện trong luận vãn 19
3.1 Giai ðoạn ngoại tuyến (off-line) 19
3.2 Giai ðoạn trực tuyến (on-line) 20
3.3 Các lĩnh vực liên quan: 20
4 C ấu trúc luận vãn 21
CH ÝÕNG 2 MỘT SỐ KHÁI NIỆM VÀ ÐẶC TRÝNG TRONG XỬ LÝ ẢNH SỐ V À VIDEO SỐ 22
1 M ột số khái niệm, ðịnh nghĩa trong xử lý video 23
1.1 Khung hình (frame) 23
1.2 Ðoạn cõ sở (shot) 24
1.3 Chuyển cảnh 24
2 Kh ông gian màu 26
2.1 Không gian ðộ xám 26
2.2 Không gian màu RGB 27
2.3 Không gian màu CMY 29
2.4 Không gian màu HSV 30
3 L ýợc ðồ màu (Color Histogram) 33
3.1 Ðịnh nghĩa 33
3.2 Thuật toán tính lýợc ðồ màu : 34
3.3 Ý nghĩa của lýợc ðồ màu 38
3.4 Ðánh giá ýu ðiểm, khuyết ðiểm 38
3.5 Ứng dụng 39
4 L ýợc ðồ týõng quan màu (Color Correlogram) 40
4.1 Giới thiệu lýợc ðồ týõng quan màu 40
4.2 Tính lýợc ðồ týõng quan màu 40
4.3 Lýợc ðồ tự týõng quan màu 40
4.4 Ứng dụng 41
5 Bi ên dạng (Edge) 41
Trang 6Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
5.2 Phýõng pháp phát hiện biên 41
6 Ðặc trýng chuyển ðộng (Motion) 46
6.1 Giới thiệu 46
6.2 Lýợc ðồ chuyển ðộng 46
6.3 Ảnh chuyển ðộng 47
7 C ác ðặc trýng toàn cục của ðoạn cõ sở 48
7.1 Ðặc trýng ảnh trung bình 49
7.2 Lýợc ðồ tự týõng quan màu trung bình 50
7.3 Lýợc ðồ chuyển ðộng trung bình 51
7.4 Ảnh chuyển ðộng trung bình 52
8 T óm tắt chýõng 53
CH ÝÕNG 3 PHÂN TÍCH TỰ ÐỘNG VIDEO SỐ THÀNH CÁC ÐOẠN CÕ SỞ .54
1 Gi ới thiệu sõ lýợc phân ðoạn ðoạn cõ sở 55
2 M ột số tài liệu in, bài báo ðiển hình về phân ðoạn cõ sở 57
2.1 Kỹ thuật mô hình Markov ẩn (The Hidden Markov Model) 57
2.2 Phát hiện chuyển cảnh dựa vào phân tích và týõng tác nghe nhìn 59
2.3 Phát hiện chuyển cảnh dựa vào lýợc ðồ 59
2.4 So sánh các kỹ thuật phát hiện biên ðoạn cõ sở 60
3 C ác hýớng tiếp cận phân ðoạn ðiển hình 61
3.1 Sự sai biệt về lýợc ðồ màu 61
3.2 Tỉ số thay ðổi biên cạnh 62
3.3 Sự phân tích ðặc trýng âm thanh 62
3.4 Sự phân tích phát hiện chuyển ðộng 63
4 M ột số phýõng pháp cải tiến 63
4.1 Phýõng pháp hai ngýỡng 65
4.2 Kết hợp lýợc ðồ màu và toán tử hình thái học Morphology và giải thuật Watershed 67
4.3 Lýợc ðồ tự týõng quan màu 71
5 Ðánh giá các phýõng pháp 73
5.1 Ðộ ðo Precision, Recall 73
5.2 Thống kê kết quả 74
5.3 Ðánh giá các phýõng pháp 76
6 T óm tắt chýõng 77
CH ÝÕNG 4 TỔ CHỨC CÁC ÐOẠN CÕ SỞ THEO CẤU TRÚC CÂY 79
1 Gi ới thiệu 80
2 T ổ chức các ðoạn cõ sở theo cấu trúc cây nhị phân 80
2.1 Giải thuật phân lớp phân cấp 80
2.2 Tạo liên kết lân cận 81
Trang 7Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2.4 Cụ thể hóa giai ðoạn phân lớp trong giải thuật phân lớp phân cấp ở mục 2.1
ở trên 83
3 X ây dựng bảng mục lục và chỉ mục 85
4 X ác ðịnh các lớp của các ðoạn cõ sở và phần tử ðại diện của lớp 88
4.1 Lớp của các ðoạn cõ sở 88
4.2 Phần tử ðại diện của lớp 89
5 Khung h ình chính ðại diện cho ðoạn cõ sở 89
5.1 Giới thiệu 89
5.2 Cách xác ðịnh khung hình chính 90
6 T óm tắt chýõng 91
CH ÝÕNG 5 TRUY VẤN DỮ LIỆU VIDEO SỐ 92
1 Gi ới thiệu 93
2 C ác phýõng pháp truy vấn dữ liệu video số 93
2.1 Dữ liệu nhập là ðoạn cõ sở 93
2.2 Dữ liệu nhập là ðoạn video clip 98
3 K ết quả thực nghiệm 100
4 Nh ận xét 100
5 T óm tắt chýõng 101
CH ÝÕNG 6 HỆ THỐNG ÐÃ CÀI ÐẶT 102
1 C ác chức nãng chính và hýớng dẫn sử dụng chýõng trình 103
1.1 Giới thiệu sõ về Giao diện của chýõng trình 105
1.2 Các chức nãng chính: 108
2 C ác thuật toán cài ðặt 116
2.1 Không gian màu : 116
2.2 Các thuật toán phân ðoạn 116
2.3 Các thuật toán tính ðặc trýng 117
2.4 Các thuật toán xây dựng cây phân lớp phân cấp 117
CH ÝÕNG 7 KẾT LUẬN 118
1 C ác kết quả ðạt ðýợc 119
2 H ýớng phát triển 119
T ÀI LIỆU THAM KHẢO 120
Trang 8Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Hình 1 Đoạn video dùng dể truy vấn 16
Hình 2 kết quả truy vấn 16
Hình 3 Qui trình chắnh 19
Hình 4 Các khung hình 23
Hình 5 Đoạn cõ sở 24
Hình 6 Chuyển cảnh tức thì 25
Hình 7 Chuyển cảnh tiệm tiến 25
Hình 8 Không gian màu độ xám 26
Hình 9 Không gian RGB 27
Hình 10 Không gian RGB 28
Hình 11 Không gian RGB 28
Hình 12 Không gian CMY 29
Hình 13 Các thành phân tạo nên không gian màu HSV 30
Hình 14 Không gian màu HSV dýới dạng đối týợng hình nón 32
Hình 15 Lýợc đồ màu 33
Hình 16 Mắt ngýời không nhạy cảm với sự thay đổi màu sắc 36
Hình 17 Không gian màu HSV đã đýợc định lýợng 37
Hình 18Các màu đã đýợc định lýợng trong không gian HSV 38
Hình -19 Những ảnh khác nhau nhýng có lýợc đồ màu giống nhau 39
Hình 20 42
Hình 21 44
Hình 22 46
Hình 23 Biên đoạn cõ sở 55
Hình 24.Tắnh sự khác biệt đặc trýng giữa những khung hình liên tiếp 56
Hình 25 Đýờng sai biệt về đặc trýng lýợc đồ giữa các khung hình liên tiếp 56
Hình 26Sõ đồ giải thuật phân đoạn 57
Hình 27 Chuyển cảnh tức thì dễ phát hiện 63
Hình 28 Chuyển cảnh tiệm tiến khó phát hiện 64
Hình 29 65
Hình 30 Kết quả phân đoạn bằng phýõng pháp 2 ngýỡng 67
Hình 31 Đýờng sai biệt lýợc đồ màu toàn cục 68
Hình 32 69
Hình 33 70
Hình 34 Đýờng cong ban đầu (ở trên) và sau khi qua toán tử hình thái học (ở dýới) Đýờng màu đỏ là những nõi phát hiện chuyển cảnh 71
Hình 35 Phân đoạn theo lýợc đồ tự týõng quan màu và toán tử hình thái học, giải thuật
Trang 9Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Hình 36 Liên kết lân cận cho bảng mục lục 81
Hình 37 Liên kết lân cận cho bảng chỉ mục 82
Hình 38 Dãy liên kết lân cận ban ðầu 83
Hình 39Kết quả sau khi liên kết 2 ðoạn cõ sở có khoảng cách bé nhất 84
Hình 40Kết quả của giai ðoạn phân lớp phân cấp 85
Hình 41 86
Hình 42 Cây sau khi rút gọn 87
Hình 43 88
Hình 44 Các khung hình trong ðoạn cõ sở 90
Hình 45 Khung hình chính của ðoạn cõ sở trên 90
Hình 46 Ðặc trýng hình dạng 96
Hình 47 Truy tìm với dữ liệu nhập là ðoạn cõ sở 98
Hình 48 Màn hình chính 104
Hình 49 Menubar 105
Hình 50 Toolbar 107
Hình 51 Ba lựa chọn phân ðoạn 108
Hình 52.Duyệt các ðoạn cõ sở 109
Hình 53 Xem các khung hình của ðoạn cõ sở 110
Hình 54 111
Hình 55 112
Hình 56 Truy vấn với dữ liệu nhập là ðoạn cõ sở 114
Hình 57 Truy vấn với dữ liệu nhập là ðoạn video 115
Hình 58 Truy vấn với dữ liệu nhập là ảnh tĩnh 116
Trang 10Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Bảng 1 Bảng thống kê kết quả phân ðoạn 76
Bảng 2 Kết quả truy tìm 100
Trang 11Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Tên đề tài : Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin thị giác
dựa vào nội dung
Nội dung của luận vãn gồm có hai phần chắnh Thứ nhất là phân tắch tự động
dữ liệu video số Thứ hai là hỗ trợ truy tìm
Phân tắch tự động dữ liệu video số là việc chuyển những dữ liệu video ban đầu
vốn rất lớn về kắch thýớc thành các đặc trýng cấp cao với kắch thýớc bé là các đoạn cõ
sở đã đýợc phân cấp phân lớp, giúp lýu trữ và quản lý dữ liệu video hiệu quả hõn
Hỗ trợ truy tìm thông tin thị giác là việc đýa ra một phýõng pháp mới trong việc
việc truy tìm sẽ trở nên dễ dàng hõn, tiện lợi hõn, chắnh xác hõn, và nhanh chóng hõn
Hýớng nghiên cứu này đang thu hút đýợc sự quan tâm của nhiều ngýời do nhu
cầu ngày càng tãng về lýu trữ và truy vấn dữ liệu video số Trong khuôn khổ luận vãn
này, chúng tôi trình bày một số phýõng pháp phân đoạn, xây dựng cây phân cấp phân
lớp, truy tìm video, và tắch hợp các phýõng pháp này vào một chýõng trình cài đặt
Trang 12Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
CH ÝÕNG 1 M Ở ÐẦU
Chýõng này giới thiệu tổng quan về tình hình sử dụng dữ liệu video trên thế giới,
những vấn ðề phát sinh, các hýớng nghiên cứu giải quyết Trong chýõng này cũng giới thiệu sõ lýợc qui trình xử lý chính trong luận vãn và cấu trúc báo cáo luận vãn
Nội dung của chýõng :
1 Giới thiệu tổng quan
2 Các hýớng nghiên cứu liên quan ðến ðề tài
4 Cấu trúc luận vãn
Trang 13Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
1 Gi ới thiệu tổng quan
nhất Nhờ có thị giác mà chúng ta tiếp nhận thông tin từ thế giới bên ngoài một cách
giữ lại những thông tin thị giác tiếp nhận đýợc Mới đầu chỉ là những hình thù đýợc
khắc một cách thô sõ trong các hang động, trên những tảng đá, để truyền lại kinh nghiệm cho thế hệ sau Trải qua một quãng thời gian sau, con ngýời phát minh ra giấy
viết Từ đây, thông tin thị giác đýợc lýu giữ dýới hình thức mới tiện lợi hõn Rồi con
ngýời phát minh ra máy ảnh để chụp ảnh tĩnh, và máy quay phim để thu ảnh động
thu đýợc rất chắnh xác, gần nhý giống với những gì mắt ta cảm nhận đýợc Không
những vậy mà nó còn là những đoạn video thể hiện một cách sống động thế giới và
những gì mắt ta thấy đýợc Con ngýời nhý có đýợc quyền nãng đóng bãng thời gian và
không gian Nhờ đó, kiến thức của con ngýời về thế giới ngày càng tãng, trình độ khoa
học kỹ thuật càng lúc càng cao
Và máy tắnh xuất hiện Sự ra đời của máy tắnh đánh dấu một kỷ nguyên mới,
thời kỳ của máy tắnh và kỹ thuật số Tất cả đều đýợc số hóa nếu có thể Điều này dẫn đến sự bùng nổ về thông tin thị giác, khiến chúng trở thành một phần không thể thiếu
nắm đýợc thông tin, ngýời đó có sức mạnh trong tay Thông tin thì không thiếu, thậm
chắ quá nhiều dẫn đến thừa thông tin Vấn đề là việc chọn lọc tìm kiếm, lýu giữ, và sử
dụng nhý thế nào cho hợp lý
Phần lớn dữ liệu video số hiện nay đýợc lýu giữ dýới dạng thô và đýợc gán
nhãn, đánh chỉ mục bằng vãn bản.Chẳng hạn nhý trong một cõ sở dữ liệu video có
Trang 14Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
này đýợc đánh chỉ mục và gán nhãn là Ộeuro2004_France_EnglandỢ, cho biết đây là
đoạn video về trận đấu ở Euro 2004 giữa hai đội bóng Pháp và Anh Sở dĩ hiện nay
phýõng pháp gán nhãn chỉ mục dựa vào vãn bản này đýợc sử dụng nhiều vì nó đõn
giản, cho kết quả tìm kiếm nhanh Tuy nhiên không lúc nào kết quả cũng làm vừa lòng
ngýời truy tìm, thậm chắ ngýời dùng phải mất khá nhiều công sừc Vắ dụ nhý trong cõ
sở dữ liệu video đề cập ở trên có thể còn có nhiều đoạn video týõng tự nhý
euro2004_Portugal_Spain.mpg, euro2004_Russia_Greece.mpg , Ầ Một ngýời nào đó
muốn truy tìm những cảnh ghi bàn thắng trong Euro 2004 Ngýời đó sẽ tìm kiếm các
đoạn video với từ khóa là Ộeuro 2004Ợ Kết quả truy tìm là rất nhiều đoạn video có liên
duyệt qua các đoạn video vừa tìm đýợc, mỗi đoạn video phải duyệt từ đầu đến cuối,
duyệt tiếp Độ dài trung bình một đoạn video về trận đấu bóng đá là 90 phút, nếu đuợc
nén dýới dạng MPEG1 thì có dung lýợng khoảng 800MB Euro 2004 có tổng cộng 31
trận đấu Nhý vậy, để hoàn thành công việc, ngýời truy tìm phải tải một dung lýợng
46.5 gi ờ để duyệt dữ liệu video Nếu duyệt với tốc độ nhanh gấp 5 lần, tức là chỉ xem
lýớt qua, thì cũng phải mất 9.3 giờ, chýa kể thời gian tải dữ liệu video Rõ ràng cách
các đoạn video một cách thủ công, lại thêm một lần nữa mất rất nhiều thời gian và
công sức Mà thông tin không chỉ có thể thao, mà còn ở nhiều lĩnh vực khác, và dữ liệu
ngày càng nhiều, càng phong phú, và tãng thêm rất nhanh mỗi ngày, việc gán nhãn chỉ
mục thủ công càng tốn nhiều chi phắ Chýa kể đến sự khác biệt về ngôn ngữ tự nhiên
Chẳng hạn nhý kho dữ liệu đó do những nguời Nhật gán nhãn chỉ mục theo tiếng Nhật,
bắt buộc chúng ta cũng phải biết tiếng Nhật mới có thể truy tìm đuợc thông tin Đây là
Trang 15Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
nhý nhau với mọi nguời, mọi ngýời đều cảm nhận giống nhau, không phân biệt ngôn
ngữ, sắc tộc
Những công việc gán nhãn chỉ mục trên đều đýợc làm thủ công do cách thức
lýu trữ chýa hợp lý, chýa phát triển kịp với sự bùng nổ của thông tin Từ đó nảy sinh
nhiều ngữ nghĩa hõn, để con ngýời có thể tìm kiếm và sử dụng hiệu quả thông tin thị
giác
Bây giờ, giả sử một ngýời lại tìm thông tin về những bàn thắng trong Euro 2004,
nhýng là tìm trong những bài viết, những bài báo, vãn bản mô tả những cảnh ghi bàn
đó Công việc trở nên dễ dàng hõn nhiều, chúng ta chỉ cần vào một trang tìm kiếm nào
đó trên mạng internet, gõ vào các từ khóa Ộsút tung lýới, ghi bàn, euro 2004Ợ, sẽ có rất nhiều bài viết đýợc tìm thấy Lúc này, cách thức tìm kiếm đi trực tiếp vào nội dung vãn
bản cần tìm nên kết quả chắnh xác và dễ chấp nhận hõn Vậy tại sao chúng ta không
tìm kiếm thông tin thị giác dựa vào nội dung?
Luận vãn của chúng tôi tìm hiểu và phát triển một phýõng pháp giúp phân tắch
tự động cấu trúc video số giúp lýu trữ, quản lý, tìm kiếm một cách hiệu quả thông tin
chúng ta chỉ cần có một đoạn video nhỏ mô tả cảnh quả bóng đang bay vào khung
thành, và chúng ta dùng đoạn video đó làm Ộtừ khóaỢ để truy tìm các bàn thắng trong
dữ liệu video, với ý nghĩa là : tìm những đoạn video nào mà có cảnh quả bóng bay vào
Trang 16Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
V í dụ :
Ðoạn video dùng ðể truy vấn là cảnh ảnh trái bóng ðang bay vào khung thành
H ình 1 Ðoạn video dùng dể truy vấn
Kết quả truy vấn :
Trang 17Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2 C ác hýớng nghiên cứu liên quan đến đề tài
Trýớc nhu cầu ngày càng lớn trong việc quản lý dữ liệu video, nhiều nhóm nghiên cứu đã nhảy vào cuộc Đã có nhiều thuật toán về nén dữ liệu video số cho kết
quả rất khả quan và đang đýợc áp dụng rộng rãi Các định dạng file video MPEG1,
chứ không giải quyết đýợc việc lýu trữ hiệu quả để truy tìm
vào thực tế một số phýõng pháp lýu trữ và truy tìm dựa vào nội dung, cho thấy đây là
một hýớng phát triển mới và rất có triển vọng Sau đây là một số nhóm tiêu biểu:
Đại học Carnegie Mellon
Nhóm phát triển thuộc Đại học Carnegie Mellon đang thực hiện một dự án thý
viện thông tin cho phép ngýời dùng truy tìm video bằng ngôn ngữ tự nhiên Các
býớc xử lý để tạo nên thý viện video : phát hiện các đoạn cõ sở bằng cách sử dụng
phýõng pháp độ sai biệt về lýợc đồ màu, rồi rút trắch khung hình chắnh, nhận dạng khuôn mặt, nhận dạng chữ viết qua video, và tìm ảnh dựa vào đặc trýng lýợc đồ
màu trong các không gian màu và vân khác nhau
Nhóm nghiên cứu của IBM
Nhóm nghiên cứu của IBM đã phát triển một hệ thống truy tìm video theo nội
Hệ thống sử dụng IBM Cue Video để phát hiện đoạn cõ sở và lựa chọn khung hình
chắnh một cách tự động
Trang 18Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Đại học Johns Hopkins
Nhóm nghiên cứu JHU/APL đã phát triển một hệ thống truy tìm tự động video
dựa vào nội dung của các khung hình video số Mỗi khung hình chắnh đýợc đánh
chỉ số bởi chắnh đặc trýng lýợc đồ màu và vân ảnh của nó
Đại học Maryland Đại học Maryland, đang làm việc với những nhà nghiên cứu từ đại học Oulu,
mở rộng các phýõng thức đýợc dùng cho việc truy tìm ảnh
Đại học Bắc Texas
Nhóm Đại học Bắc Texas trắch các khung hình từ dữ liệu video theo chu kỳ 5
giây Những khung hình này sẽ qua tiến trình chọn khung hình chắnh để bỏ đi
những khung hình thừa Những khung hình chắnh sau đó sẽ đýợc đýa vào ứng dụng UNTỖs Brighton Image Searcher, dựa vào các độ đo toán học týõng ứng với những đặc tắnh quan trọng của ảnh Độ chắnh xác của quá trình chọn khung hình chắnh
týõng đối khả quan
Có thể thấy rằng, hiện nay, lĩnh vực xử lý video theo nội dung khá hấp dẫn và thu
hút đýợc sự quan tâm của ngày càng nhiều nhóm nghiên cứu vì những nhu cầu và ứng
dụng thực tế của nó Tuy nhiên, phần lớn những nghiên cứu vẫn còn ở trong lý thuyết,
còn những hệ thống đã cài đặt áp dụng thì chỉ có kết quả týõng đối Vì vậy, trong luận
vãn này, chúng tôi nghiên cứu và thực hiện cài đặt một số phýõng pháp giúp lýu trữ và
mạnh mẽ hiện nay
Trang 19Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
3 Qui tr ình chắnh đýợc thực hiện trong luận vãn
Gồm 2 giai đoạn : Giai đoạn ngoại tuyến và giai đoạn trực tuyến (xem hình)
H ình 3 Qui trình chắnh
Mục đắch của giai đoạn này phân tắch và lýu trữ những đặc trýng cấp cao của
dữ liệu video, gồm các býớc : Đầu tiên, dữ liệu video dýới dạng tập tin video thông thýờng (avi, mpeg) đýợc đýa vào bộ phân đoạn để phân tắch đoạn video ban đầu thành các đoạn
cõ sở
Trang 20Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Tiếp theo, tiến hành rút trắch đặc trýng của các đoạn cõ sở để tạo thành cõ
sở dữ liệu các đặc trýng của các đoạn cõ sở Các đặc trýng có thể là đặc
trýng màu, đặc trýng chuyển động, đặc trýng biên cạnh, Ầ
Kế đến, phân lớp các đoạn cõ sở và chọn phần tử đại diện, tạo nên cõ sở dữ
liệu các lớp của các đoạn cõ sở với phần tử đại diện
một cõ sở dữ liệu có thể truy vấn Giai đoạn này thực hiện truy vấn dữ liệu
Đýa đoạn video cần truy vấn vào, phân tắch đoạn video này thành các đoạn
cõ sở giống nhý ở giai đoạn ngoại tuyến trên
Sau đó tiến hành rút trắch đặc trýng của các đoạn cõ sở của đoạn video truy
vấn, rồi thực hiện phân chia các đoạn cõ sở và chọn phần tử đại diện
So sánh các đặc trýng của các đoạn cõ sở của đoạn video truy vấn với các đặc trýng của các đoạn cõ sở đýợc lýu trong cõ sở dữ liệu tạo ra ở giai đọan ngoại tuyến Ứng với mỗi đoạn cõ sở của đoạn video truy vấn, chọn ra và
xếp hạng những đoạn cõ sở gần nhất với nó, ta có kết quả của truy vấn
Trang 21Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
4 C ấu trúc luận vãn
4.1.CHÝạNG 1 : MỞ ĐẦU
Chýõng này giới thiệu tổng quát về xử lý video trên thế giới, sõ lýợc về đề tài,
lý do chọn, hýớng tiếp cận đề tài, các nghiên cứu đã và đang đýợc thực hiện 4.2.CHÝạNG 2 : MỘT SỐ KHÁI NIỆM VÀ ĐẶC TRÝNG TRONG XỬ LÝ ẢNH SỐ VÀ VIDEO SỐ
Nội dung chắnh của chýõng này là giới thiệu một số khái niệm, đặc trýng hay sử
dụng trong xử lý ảnh số và video số nhý : các không gian màu, lýợc đồ màu, đặc trýng chuyển động, Ầ
4.3.CHÝạNG 3 : PHÂN TÍCH TỰ ĐỘNG VIDEO SỐ THÀNH CÁC ĐOẠN Cạ
SỞ
Chýõng này trình bày về vấn đề phân tắch video thành các đoạn cõ sở, bao gồm
các khái niệm cõ bản, một số phýõng pháp thýờng dùng, các phýõng pháp cải
tiến đýợc dùng trong luận vãn
4.4.CHÝạNG 4 : TỔ CHỨC CÁC ĐOẠN Cạ SỞ THEO CẤU TRÚC CÂY
Nội dung chắnh của chýõng là các thuật toán tổ chức các đoạn cõ sở theo cấu
trúc cây, xây dựng bảng mục lục và bảng chỉ mục và phân lớp các đoạn cõ sở 4.5.CHÝạNG 5 : TRUY VẤN DỮ LIỆU VIDEO SỐ
Chýõng này nói về các thuật toán dùng cho việc truy vấn, truy tìm video số 4.6.CHÝạNG 6 : HỆ THỐNG ĐÃ CÀI ĐẶT
Chýõng này giới thiệu về chýõng trình đã cài đặt, các chức nãng chắnh của
chýõng trình, các thuật toán đã cài đặt, và hýớng dẫn sử dụng
4.7.CHÝạNG 7 : KẾT LUẬN
Ở phần này, chủ yếu là những kết quả đạt đýợc, những đóng góp mới và hýớng
phát triển trong týõng lai
Trang 22Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
CH ÝÕNG 2 M ỘT SỐ KHÁI NIỆM VÀ ÐẶC
Chýõng này giới thiệu về các ðặc trýng hay dùng trong xử lý ảnh số và video số Ðó là
các ðặc trýng về màu sắc, ðặc trýng chuyển ðộng, biên cạnh, … Ngoài ra cũng giới thiệu sõ qua các không gian màu, lýợc ðồ màu, lýợc ðồ týõng quan màu
Nội dung của chýõng :
1 Một số khái niệm, ðịnh nghĩa trong xủ lý video
2 Không gian màu
Trang 23Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
1 M ột số khái niệm, ðịnh nghĩa trong xử lý video
Một ðoạn video gồm nhiều ảnh tĩnh ðặt liên tiếp nhau tạo nên chuyển ðộng
Vd :
H ình 4 Các khung hình
Ðể ðoạn video có thể tạo cảm giác chuyển ðộng, các khung hình phải ðýợc quay
với tốc ðộ phù hợp Vì mắt ngýời chỉ có thể nhận ðýợc 24 hình/giây, nên nếu nhý
ðýợc sự rời rạc giữa những khung hình, mà chỉ thấy những cảnh liên tục Có nhiều
hệ video và mỗi hệ có tốc ðộ quay khác nhau nhý : NTSC 30 hình/giây, PAL 24
hình/giây, SECAM 29.99 hình/giây
thì một giây có 30 khung hình, vậy một phút có 1800 khung hình, một giờ có
Trang 24Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
1.2.Đoạn cõ sở (shot) Đoạn cõ sở là một chuỗi một hay nhiều khung hình liên tiếp nhau theo thời gian
mô tả một hành động liên tục, đýợc giới hạn bởi 2 chuyển cảnh
`
H ình 5 Đoạn cõ sở
Một đoạn video có thể có nhiều đoạn cõ sở, mà cũng có thể chỉ là một đoạn cõ
sở Những đoạn cõ sở đại diện cho toàn bộ đoạn video, và truy xuất đến chúng cũng
đoạn cõ sở là thắch hợp nhất cho việc duyệt và truy tìm thông tin dựa vào nội dung 1.3.Chuyển cảnh
Nhý đã nói ở trên, chuyển cảnh là những đýờng biên phân chia các đoạn cõ sở Ngoài các chuyển cảnh tự nhiên thì ngày càng xuất hiện nhiều chuyển cảnh do
chỉnh sửa video tạo nên Các phần mềm xử lý phim nổi tiếng nhý Adobe Premiere
hoặc Ulead MediaStudio cung cấp hõn 100 kiểu chỉnh sửa video để tạo nên những đoạn chuyển cảnh khác nhau Tuy nhiên, hõn 99% rõi vào một trong những loại chuyển cảnh sau :
Chuyển Cảnh
Trang 25Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Lànhững chuyển cảnh rõ ràng, dứt khoát, ngay lập tức và dễ nhận biết
H ình 6 Chuyển cảnh tức thì
ðối týợng mờ dần và chìm vào nền của ảnh hoặc cảnh cũ mờ dần và ðan
H ình 7 Chuyển cảnh tiệm tiến
Trang 26Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2 Kh ông gian màu
Một không gian màu là một mô hình ðại diện cho màu về mặt giá trị ðộ sáng; một
không gian màu xác ðịnh bao nhiêu thông tin màu ðýợc thể hiện Nó ðịnh nghĩa không
những giá trị ðộ sáng Một thành phần màu còn ðýợc gọi là một kênh màu
Mỗi ðiểm ảnh trong ảnh có thể ðýợc ðại diện bởi một ðiểm trong không gian màu 3 chiều Những không gian màu thýờng ðýợc dùng ðể bao gồm RGB, CMY, Munsell,
Sau ðây là một số không gian màu thýờng gặp
2.1.Không gian ðộ xám
Không gian ðộ xám chỉ có một thành phần, biến ðổi từ ðen ðến trắng, nhý trong
hình Không gian ðộ xám ðýợc dùng chủ yếu trong việc hiển thị và in ấn trắng ðen
và ðộ xám
H ình 8 Không gian màu ðộ xám
Trang 27Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2.2.Không gian màu RGB
Không gian RGB là không gian màu ðýợc sử dụng rộng rãi trong việc hiển thị
hình ảnh Ý týởng tạo ra không gian màu RGB ðến từ cái cách mà mắt con ngýời
hoạt ðộng Nó có những cõ quan cảm nhận ðể phát hiện ra 3 màu khác nhau : ðỏ(red), lục (green), lam (blue) Không gian màu RGB cũng gồm có 3 thành phần
màu : Red, Green, và Blue Những thành phần này ðýợc gọi là màu gốc ðể cộng
vào, vì mỗi màu ðýợc tạo nên bằng cách cộng thêm các phần tử vào màu ðen(0,0,0)
H ình 9 Không gian RGB
Trang 28Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
H ình 10 Không gian RGB
Trang 29Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2.3.Không gian màu CMY
Không gian CMY ðýợc dùng chủ yếu trong in ấn CMY là viết tắt của
ứng với ba màu mực in Chúng ðýợc gọi là những màu gốc ðể trừ, vì mỗi màu
sự chiếu sáng của màu ðỏ, Magenta hấp thu màu xanh lục, Yellow hấp thu màu
H ình 12 Không gian CMY
Mối quan hệ giữa RGB và CMY :
G M
R C
111
Trang 30Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
2.4.Không gian màu HSV
Mô hình HSV(Hue, Saturation, Value), còn gọi là HSB (Hue, Saturation,
Hue, loại màu (chẳng hạn màu đỏ, xanh, hay vàng)
Có giá trị từ 0 - 360 hoặc từ 0 - 2đ
Saturation, độ thuần khiết của màu
Có giá trị từ 0 Ờ 100%, thýờng đýợc chuẩn hoá về 0 Ờ 1
Độ thuần khiết của một màu càng thấp, độ xám của màu đó càng nhiều và màu đó càng mờ
Value, độ sáng của màu
Có giá trị từ 0 Ờ 100%, thýờng đýợc chuẩn hóa về 0 Ờ 1
Mô hình HSV đýợc tạo ra từ nãm 1978 bởi Alvy Ray Smith Nó là một
phép biến đổi phi tuyến của không gian màu RGB Mô hình HSV giúp tách
bạch màu (H, S) và độ sáng (V), phù hợp với cảm nhận của con ngýời
H ình 13 Các thành phân tạo nên không gian màu HSV
Trang 31Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Mô hình HSV thýờng đýợc dùng nhiều trong các ứng dụng đồ họa máy
tắnh Trong các chýõng trình ứng dụng, khi một ngýời dùng phải chọn một màu
Hình) Trong đó, thành phần loại màu Hue đýợc thể hiện bằng một vùng hình
tròn, còn một vùng tam giác riêng biệt thýờng đuợc dùng để thể hiện thành phần
Saturation v à Value Trục đứng của tam giác ứng với Saturation, và trục ngang ứng với Value Bằng cách này, một màu có thể đýợc chọn bằng cách đầu tiên
chọn loại màu từ vùng hình tròn, rồi chọn độ thuần khiết và độ sáng týõng ứng
Một phýõng thức khác hình dung về mô hình HSV là hình nón Trong
cách thể hiện này, thành phần Hue đýợc mô tả nhý là một dạng hình nón 3 chiều
của bánh xe màu Thành phần Saturation đýợc thể hiện bằng khoảng cách đến
tâm của vòng tròn cắt hình nón, và thành phần Value là khoảng cách đến điểm
cuối của hình nón Cách thể hiện khác là sử dụng một hình nón lục giác (có đáy
và thiết diện là hình lục giác) thay vì hình nón tròn Phýõng thức này thắch hợp
với việc hình dung toàn bộ không gian màu HSV trong một đối týợng đõn
Trang 32Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
H ình 14 Không gian màu HSV dýới dạng ðối týợng hình nón
Trang 33Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
3 L ýợc ðồ màu (Color Histogram)
3.1.Ðịnh nghĩa
Lýợc ðồ màu của ảnh cho biết sự phân bố của các màu trong ảnh
n
i n i
Trang 34Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
3.2.Thuật toán tắnh lýợc đồ màu :
Giải thuật tạo lýợc đồ ảnh màu trong không gian RGB
Býớc 1 Tạo mảng 3 chiều histogram, kắch thýớc 2b
x2bx2b(b : số bit
Býớc 2 Với mọi giá trị r, g, b nằm trong khoảng [0-2b
] Histogram[r][g][b] = 0
Býớc 3 Với mọi điểm ảnh có toạ độ x, y
Rút trắch thành phần màu r, g, b của điểm ảnh đó Histogram[r][g][b] += 1
Phần lớn các ảnh đýợc sử dụng trong máy tắnh hiện nay đều sử dụng
không gian màu RGB gồm có 224
một ảnh RGB cần tốn nhiều chi phắ lýu trữ và thời gian tắnh toán Ngoài ra, khi
lýợc đồ màu đýợc ứng dụng vào việc truy tìm ảnh số hay video số thì không
Mô hình màu HSV giúp tách bạch giữa màu sắc(H,S) và độ sáng (V),
phù hợp cho việc truy tìm ảnh số và video số Nhýng những ảnh thông
thýờng hay những đoạn video số lýu trong máy tắnh thýờng sử dụng
không gian màu RGB, nên phải chuyển đổi từ RGB sang không gian HSV
Trang 35Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Thuật toán chuyển từ RGB sang HSV
Gọi R,G,B là giá trị nhập của RGB với giá trị trong khoảng [0,1] hay [0,255]
H := -1;
Return;
} Diff := V-Min;
If (H <= 0) H := H + ð/2;
}
Trang 36Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
sáng, nhýng nó vẫn chýa thực sự phù hợp với cách truy tìm thông thị giác của
nhỏ là mắt ngýời không phân biệt đýợc, do đó, có những ảnh nhìn rất giống
H ình 16 Mắt ngýời không nhạy cảm với sự thay đổi màu sắc
Để cải tiến phù hợp cho việc ứng dụng trong tìm kiếm, các màu trong không
lýợng, một trong những cách đó là
ành 3 vùng
Trang 37Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Khi đó, tổng số màu bằng HxSxI = 162 màu, chi phắ tắnh toán và lýu trữ giảm đi
rất nhiều, và lýợc đồ màu này rất thắch hợp cho việc truy tìm thông tin thị giác
H ình 17 Không gian màu HSV đã đýợc định lýợng
Trang 38Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
H ình 18Các màu đã đýợc định lýợng trong không gian HSV
3.3.Ý nghĩa của lýợc đồ màu
Đối với một màu c i , H ci (I) th ể hiện số điểm ảnh có màu c i trong ảnh I Nói cách
khác, với mỗi điểm ảnh trong ảnh I, H ci (I) thể hiện xác suất điểm ảnh đó có màu là
c i Không có mang thông tin về không gian
3.4.Đánh giá ýu điểm, khuyết điểm
Ýu điểm
Tắnh toán lýợc đồ màu ắt tốn chi phắ, đõn giản, nhanh chóng
Lýợc đồ màu bất biến đối với một số phép biến đổi hình học nhý phép
biến đổi Affine : tịnh tiến, xoay, sự co, giãn
Trang 39Phân tích tự ðộng dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
Khuyết ðiểm
Lýợc ðồ màu chỉ xét phân bố toàn cục về màu của ảnh mà không xét ðến
yếu tố cục bộ về vị trí, làm mất thông tin về quan hệ không gian giữa các
màu Dẫn ðến việc có thể có nhiều ảnh khác nhau nhýng lại có cùng lýợc
Trang 40Phân tắch tự động dữ liệu video số hỗ trợ truy tìm thông tin dựa vào nội dung
4 L ýợc đồ týõng quan màu (Color Correlogram)
4.1.Giới thiệu lýợc đồ týõng quan màu
phân bố theo không gian, Một đặc trýng mới đýợc giới thiệu gọi là lýợc đồ
týõng quan màu
Lýợc đồ týõng quan màu hứa hẹn mô tả không chỉ là phân phối màu của các điểm ảnh mà còn là sự týõng quan về không quan giữa các cặp màu
4.2.Tắnh lýợc đồ týõng quan màu
Gọi [D] là tập gồm D khoảng cách d1,d2, ,d D đýợc đo bằng độ đo L
Lýợc đồ týõng quan màu của ảnh I đýợc xác định với cặp màu c , i c j và khoảng cách d nhý sau:
Pr [ 2 || 1 2| ]
, ,
2 1
d p
p I p
I p I p
d c
c j
Trong đó I là ảnh, kắch thýớc MxN (Điểm ảnh), I c pI|I p c ,
lýợc đồ týõng quan màu thể hiện xác suất cặp điểm ảnh bất kỳ p1 và p2 chịu sự
ràng buộc về màu (p1có màu c i,p2 có màu c j ) và vị trắ ( p1 p2 L d)
4.3.Lýợc đồ tự týõng quan màu
Nếu chúng ta xét đến tất cả sự kết hợp có thể có của các cặp màu, kắch
thýớc của lýợc đồ týõng quan màu sẽ rất lớn, hõn nữa, thời gian tắnh toán sẽ lâu
Do đó, một phiên bản đõn giản hõn đýợc sử dụng, gọi là lýợc đồ tự týõng quan
m àu Lýợc đồ này chỉ quan tâm đến sự týõng quan về không gian giữa những
màu giống nhau và do đó giảm đýợc số chiều và chi phắ tắnh toán
Lýợc đồ tự týõng quan màu đýợc xác định nhý sau:
)()
( (,)
) (