Hầu hết các nghiên cứu về phân tích nội dung video liên quan đến tự động phát hiện ranh giới giữa các bức ảnh chụp từ camera.. Video được cấu thành từ một tập liên tiếp các khung hình fr
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG
Đề tài:
NGHIÊN CỨU LẤY KEY-FRAME TỰ ĐỘNG DỰA VÀO SỰ SO
SÁNH KẾT QUẢ TÁCH BIÊN CỦA ẢNH
Mã số: S2017-07-06
BÁO CÁO CHUYÊN ĐỀ
GIỚI THIỆU PHÂN TÍCH VIDEO VÀ PHÂN ĐOẠN VIDEO
Chủ nhiệm đề tài: Đinh Thị Huyền Mai
Người thực hiện chuyên đề: Đinh Thị Huyền Mai
Lớp: CNTT – K12E
Người phối hợp thực hiện: Hoàng Văn Hải
Thái Nguyên, tháng năm 2017
Trang 2CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Giới thiệu phân tích video
Việc gia tăng và sử dụng video kỹ thuật số trực tuyến ngày càng phổ biến đã tạo
ra nhu cầu phân tích nội dung video tự động Hầu hết các nghiên cứu về phân tích nội dung video liên quan đến tự động phát hiện ranh giới giữa các bức ảnh chụp từ camera
1.1.1 Video là gì?
Video được cấu thành từ một tập liên tiếp các khung hình (frame), còn được gọi là ảnh, ghi nhận lại các hình ảnh quan sát được của các sự kiện xảy ra trong một khoảng thời gian Để đoạn video có thể tạo cảm giác chuyển động, các khung hình phải được quay với tốc độ phù hợp Vì mắt người chỉ có thể nhận được 24 hình/giây, nên nếu như trong một giây, lần lượt 24 hình hoặc nhiều hơn được phát thì mắt sẽ không nhận
ra được sự rời rạc giữa những khung hình, mà chỉ thấy những cảnh liên tục
Theo chuẩn của hệ NTSC thì một giây có 30 khung hình, vậy một phút có 1800 khung hình, một giờ có 60x1800 = 108000 khung hình Có thể thấy rằng số lượng khung hình cho một đoạn video thường là rất lớn, cần phải có một đơn vị cấp cao hơn cho video số
Có hai dạng tín hiệu video thông dụng là: tín hiệu tuần tự (analog) và tín hiệu video số (digital) Chúng ta chỉ xem xét đến video được biểu diễn dưới dạng số và bỏ qua phần tín hiệu âm thanh của video
Mô hình cấu trúc một chuỗi video bao gồm các thành phần sau:
Frame (khung hình): là thành phần cơ bản trong chuỗi video Mỗi khung hình tương ứng với một ảnh trong thế giới thực tại một thời điểm xác định
Shot là một dãy các khung hình liên tiếp được camera ghi nhận không
có sự ngắt quãng nào xảy ra Shot là một đơn vị cơ bản để xây dựng phân tích nội dung video
Các shot liên tiếp nhau được kết hợp lại thành một cảnh (scene) dựa trên nội dung
Tất cả các scene tạo thành một chuỗi video
Trang 3Hình 1.1 Mô hình cấu trúc của video
1.1.2 Các dạng video
1.1.2.1 Video tương tự
NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung hình,
30 khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi trường 262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình
trong một giây, quét cách dòng Khung gồm hai trường chẵn lẻ, mỗi trường bao gồm 312.5 dòng
1.1.2.2Video số
Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCIR (Consultative
Committee for International Radio)
Bảng 1.1 Các tiêu chuẩn của video số
CCIR 601525/60 NTSC
CCIR 601625/50 PAL/SECAM
CIF QCIF
Độ phân giải
độ chói
720x480 360x576 352x288 176x144
Độ phân giải
màu sắc
360x480 360x576 176x144 88x72
Lấy mẫu màu 4:2:2 4:2:2 4:2:0 4:2:0
Số trường /s 60 50 30,15,10,7.5 30,15,10,7.5 Cách quét Cách dòng Cách dòng Liên tục Liên tục
Trang 41.1.3Chuyển cảnh trong video
Một cảnh (scene) được định nghĩa là một tập hợp của một hoặc nhiều bức ảnh chụp liền nhau tập trung vào một đối tượng hoặc đối tượng quan tâm Ví dụ, một người đi bộ xuống hành lang vào phòng sẽ là một cảnh, mặc dù góc quay khác nhau của camera có thể được hiển thị Ba bức ảnh cho thấy ba người khác nhau đi bộ xuống hành lang có thể là một cảnh nếu đối tượng quan trọng là hành lang chứ không phải người Chuyển cảnh là sự chuyển đổi đưa người xem từ một shot này sang shot khác
Hình 1.2 Ví dụ mô tả chuyển cảnh
Có hai loại khác nhau của quá trình chuyển đổi có thể xảy ra giữa các chuyển cảnh:
a Chuyển cảnh đột ngột (abrupt transition), còn gọi là Cut (cắt cứng).
Xảy ra chỉ trong một khung hình khi camera dừng và khởi động lại hoặc do cắt cảnh khi biên tập video
Cut: Cut (cắt cứng) là một sự thay đổi đột ngột từ shot này sang cảnh khác, xảy ra giữa hai khung hình
Hình 1.3 Cut
b Chuyển cảnh thay đổi dần dần (gradual transitions):
Khác với chuyển cảnh đột ngột các khung hình biến đổi không có sự đột biến mà thay đổi dần dần Các cảnh thay đổi dần dần thường do các kỹ xảo khi biên tập video làm thay đổi màu, thay đổi về không gian hay phối hợp chúng với nhau Một số chuyển cảnh ở loại này như : Fade, Dissolve (chồng
Trang 5mờ), Wipe Một số loại chuyển tiếp khác nhau hay còn gọi là đường biên giữa các shot được định nghĩa như sau:
Fade: là sự thay đổi chậm độ sáng thường dẫn đến hoặc bắt đầu với một frame màu đen Một fade là quá trình chuyển đổi dần dần giữa một cảnh và một ảnh liên tục (fadeout) hoặc giữa một hình ảnh liên tục và một cảnh (fadein)
Hình 1.4.a Fade in
Hình 1.4.b Fade out
Dissolve: Dissolve (chồng mờ) xảy ra khi hình ảnh của cảnh quay đầu tiên trở nên mờ hơn và hình ảnh của cảnh quay thứ hai trở nên sáng hơn, với các frame trong quá trình chuyển đổi hiển thị một hình ảnh chồng lên hình ảnh khác
Hình 1.5 Dissolve
Wipe: Được thực hiện bằng cách cảnh đầu tiên bị cuộn dần lại thay thế vào đó
là cảnh hai xuất trong một khuôn mẫu bình thường chẳng hạn như trong một đường từ cạnh trái của frame Có nhiều hình thức wipe như: cuộn theo đường chéo, cuộn theo trục thẳng đứng, nằm ngang,
Hình 1.6 Wipe
c Các loại chuyển đổi dần dần khác:
Trang 6Có rất nhiều kỹ thuật hiệu ứng đặc biệt sáng tạo được sử dụng trong các hình ảnh chuyển động Đây là những điểm chung rất hiếm và khó phát hiện
Nghiên cứu này liên quan đến việc phát hiện ranh giới cảnh trong video dựa trên các ranh giới shot và phân tích bản âm thanh Cung cấp cấu trúc cấp cao hơn này
là quan trọng bởi vì chúng ta nhận thấy video là một bộ sưu tập các cảnh, không phải
là bức ảnh Nghiên cứu này đòi hỏi một thuật toán phát hiện biên ranh giới tốt để xác định chính xác các bước chuyển tiếp từ từ Nhiều nhà nghiên cứu làm việc trong lĩnh vực này đã bày tỏ sự cần thiết phải so sánh không thiên vị các kỹ thuật hiện có
1.2 Giới thiệu phân đoạn video (Tách shot)
Phân đoạn video (tách shot) là quá trình phân tích và chia nội dung hình ảnh video thành các đơn vị cơ sở gọi là các shot
Tách shot tự động có thể ứng dụng vào bước tiền xử lý cho các hệ thống phân tích video, phát hiện các đoạn video trùng lặp để tránh lưu trữ thừa các video và tiết kiệm không gian nhớ Ngoài ra, tách shot tự động còn được dùng trong việc duyệt, tìm kiếm, sửa chữa các video
Các yếu tố chính ảnh hưởng đến kết quả phân đoạn video như tính tương quan cao về nội dung giữa các khung video trong cùng một shot; chuyển động của camera
và đối tượng, sự thay đổi độ sáng đột ngột; các hiệu ứng biên tập…
1.2.1Phát hiện shot
Bài toán đặt ra là : một video V gồm n shot, tìm vị trí bắt đầu và vị trí kết thúc của mỗi shot Phát hiện shot cũng được biết như là phát hiện biên của shot hay phát hiện sự biến đổi Phát hiện shot là nền tảng cho bất kỳ loại phân tích video và ứng dụng video vì nó cho phép phân chia nhỏ video thành các thành phần cơ bản của nó: các shot Có nhiều kỹ thuật để tách shot như phát hiện cạnh, đường biên, so trùng histogram
Việc lấy mẫu chính là chọn gần đúng một khung hình video đại diện cho mỗi shot, và được gọi là các key-frame Key-frame đại diện mô tả nội dung chính của shot Quá trình phân đoạn video tiến hành phân tích, phát hiện sự chuyển đổi từ shot này sang shot khác hay chính là phát hiện ranh giới giữa các shot (đó chính là sự khác biệt giữa các khung liền kề) Hình 1.7 sau đây mô tả sự chuyển đổi giữa các shot
Trang 7Hình 1.7 minh họa chuyển đổi giữa các shot
Trong hình vẽ trên sự chuyển đổi shot xảy ra giữa khung hình thứ 3 và thứ 4 Phân đoạn video được sử dụng trong việc phân tích, hiểu video, gồm các lĩnh vực sau:
- Tóm lược video, chỉ mục video và thu hồi thông tin
- Biên soạn và biên tập video
- Phát hiện và ước lượng chuyển động
- Video giám sát…
1.2.2Các yếu tố chính ảnh hưởng đến việc phát hiện phương phát phân đoạn
Việc xác định phương pháp phân đoạn thường phụ thuộc vào phạm vi yêu cầu của ứng dụng, các yếu tố chính ảnh hưởng đến việc xác định phương pháp phân đoạn là:
- Thời gian thực hiện: Nếu phân đoạn phải được thực hiện trong thời gian thực
Ví dụ, để kiểm soát tốc độ trong điện thoại truyền hình, thì cần các thuật toán đơn giản
và hoàn toàn tự động Mặt khác, người ta có thể sử dụng hình thức bán tự động, các thuật toán tương tác cho các ứng dụng độc lập như lập chỉ mục video hoặc mã hóa video độc lập để có được các phân đoạn có nhiều ý ngữ nghĩa
- Sự chính xác của phân đoạn: Nếu phân đoạn được sử dụng để nâng cao hiệu quả nén hoặc điều khiển tỷ suất nén, hoặc nếu phân đoạn là cần thiết cho việc biên tập
và biên soạn video dựa trên đối tượng hoặc so sánh, tìm kiếm các hình tương tự thì việc ước lượng đường biên và kết quả thực tế cần phải rất chính xác
- Tính phức tạp của cảnh quay: độ phức tạp của nội dung video có thể được mô hình về số lượng máy ảnh chuyển động, màu sắc và tính đồng nhất của chất liệu của các đối tượng, sự tương phản giữa các đối tượng, tính trơn mịnh của chuyển động của các đối tượng, sự xuất hiện vào/ra của các đối tượng Rõ ràng, video càng phức tạp càng đòi hỏi các thuật toán phân đoạn tinh vi hơn Ví dụ, ta có thể dễ dàng phát hiện cắt cảnh hơn là phát hiện chuyển cảnh theo kiểu wipe hoặc fade
Có thể thấy rằng, để phát hiện chuyển cảnh, phần lớn các kỹ thuật đều đi tính toán sự sai ở các khung hình, trong nội dung tiếp theo đề tài tập trung nghiên cứu về
Trang 8kỹ thuật trừ ảnh và việc áp dụng kỹ thuật trừ ảnh vào phát hiện chuyển cảnh trong video
1.2.3 Một số hướng tiếp cận trong phân đoạn video
Trong những năm gần đây, những nghiên cứu về việc phát hiện tự động đoạn
cơ sở đang bùng nổ, những ứng dụng ngày càng nhiều và càng có nhiều thuật toán được công bố để giải quyết vấn đề phân đoạn cơ sở cho những mức độ phức tạp khác nhau của dữ liệu thật Để phân đoạn video thông thường có hai cách tiếp cận:
• Xử lý trên video nén (thông thường theo chuẩn MPEG) Không yêu cầu phải giải nén mà xử lý trực tiếp trên video nén nên tốc độ xử lý nhanh Tuy cách tiếp cận này có nhược điểm là thuật toán xử lý phụ thuộc vào chuẩn nén video, nên khó có thể đưa ra một thuật toán tổng quát cho các loại video nén khác nhau
• Xử lý trên video không nén Nếu là video nén phải giải nén rồi mới xử lý Việc xử lý video được tiến hành trên từng khung hình (frame), coi mỗi khung hình như một ảnh tĩnh