Các thí nghiệm ban đầu về thị giác máy tính diễn ra vào những năm 1950, sử dụng một số mạng nơ-ron đầu tiên để phát hiện các cạnh của vật thể và sắp xếp các vật thể đơn giản thành các lo
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ
Trang 3MỞ ĐẦU………
2 CHƯƠNG I: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI 3
1.Lý do chọn đề tài 3
2 Mục đích chọn đề tài 3
3.Đối tượng và phạm vi nghiên cứu 4
4.Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài 4
CHƯƠNG II: CƠ SỞ LÝ THUYẾT 5
1 Computer Vision là gì? 5
1.1 L ch s c a Computer Visionị ử ủ 5 1.2 Computer Vision trong thếế gi i ngày nayớ 7 1.3 Cách th c ho t đ ng c a Computer Visionứ ạ ộ ủ 9 2 Tổng quan về xử lý ảnh 11
2.1 Đ nh nghĩaị 11
2.2 Các quá trình x lý nhử ả 11
2.3 nh và bi u diếễn nhẢ ể ả 13
2.4 Ph m vi ng d ng c a x lý nhạ ứ ụ ủ ử ả 16
Trang 43 Phương pháp theo vết chuyển động 26
3.1 Thu t toán Meanshifậ 27
3.2 Thu t toán Camshifậ 28
Trang 55.3 Colab 35
5.4 FLV Converter 36
CHƯƠNG IV: CÀI ĐẶT VÀ THỬ NGHIỆM 37
1 Cài đặt chương trình 37
1.1 Cài đ t các th vi n s d ngặ ư ệ ử ụ 37 1.2 M t sốế tnh nắng b sungộ ổ 38 2 Thử nghiệm 39
3 Một số hình ảnh chụp từ video kết quả 47
KẾT LUẬN 48
1 Kết quả đạt được 48
2 Hạn chế 48
3 Hướng phát triển 49
TÀI LIỆU THAM KHẢO 50
Trang 6Hình 1: Minh họa Computer Vision
Hình 2: Mạng nơron
Hình 3: Quá trình xử lý hình ảnh
Hình 4: Các giai đoạn chính trong xử lý ảnh
Hình 5: Quan hệ trong vùng lân cận giữa các điểm ảnh Hình 6: Cấu trúc phân đoạn của video
Hình 7: Biểu đồ luồng chung của các giải thuật trừ nền Hình 8: Phép lọc Gauss
Hình 9: Hình ảnh chụp từ video kết quả
Trang 7MỞ ĐẦU
Hiện nay trong công nghiệp hóa hiện đại hóa đất nước, yêu cầu ứng dụng tự động hóa ngày càng cao vào trong đời sống sinh hoạt, sản xuất ( yêu cầu điều khiển tự động, linh hoạt, gọn nhẹ và tiện lợi, ) Mặt khác nhờ công nghệ thông tin, công nghệ điện tử đã phát triển nhanh chóng làm xuất hiện các loại thiết bị điều khiển và giám sát trong đó có camera Nhận thức được xu hướng chung, với những ưu điểm mà camera mang lại, việc đầu tư vào lĩnh vực này là cần thiết, quan trọng đối với nhà khoa học, doanh nghiệp và chính sách định hướng, quan tâm của nhà nước Lĩnh vực nào cũng vậy, để phát triển bền vững, vươn lên tầm cao mới, điều kiện tiên quyết là cần phải đi đôi xây dựng cơ sở khoa họclàm nền tảng, cập nhật, ứng dụng các công nghệ hiện đại, và triển khai thành cácsản phẩm ứng dụng phù hợp nhu cầu thực tế Theo tinh hình và tiêu chí trên, đề tài này đã được chọn và từng bước đáp ứng nghiên cứu về công nghệ xử lý ảnh, chạy thử nghiệm, đánh giá và định hướng để tốt hơn, đáp ứng thực tế cũng như các tiêu chí khoa học hơn Đề tài thực hiện:” Nghiên cứu, xây dựng phần mềm đếm người ra vào ( Phân biệt người vào và người ra, nhận diện được đối tượng người chuyển động)” do TS Phạm Minh Hoàn hướng dẫn Đề tài gồm các nội dung sau:
Chương I: Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài
Chương II: Cơ sở lý thuyết
Chương III: Các phương pháp nghiên cứu
Chương IV: Cài đặt và thử nghiệm đánh giá kết quả
Dưới đây là bản báo cáo cũng như là cả một quá trình nghiên cứu, chỉnh sửa của
cả nhóm Mặc dù có chuẩn bị nguồn thông tin, làm báo cáo, xong trong quá trình còn xảy ra sai sót gì kính mong thầy góp ý giúp chúng em hoàn thiện hơn.Xin trân thành cảm ơn!
Trang 8BÁO CÁO KẾT QUẢ
CHƯƠNG I: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC
LĨNH VỰC ĐỀ TÀI 1.Lý do chọn đề tài
Nhận thức được việc xu hướng chung, với những ưu điểm mà camera mang lạitrong việc xử lý ảnh nhận dạng mẫu vật, việc đầu tư vào lĩnh vực này là cần thiết, quan trọng đối với các nhà khoa học, doanh nghiệp và chính sách định hướng, quan tâm của nhà nước Lĩnh vực nào cũng vậy, để phát triển bền vững vươn lên tầm cao mới, điều kiện tiên quyết là cần phải đi đôi với xây dựng cơ sởkhoa học làm nền tảng, cập nhật, ứng dụng các công nghệ hiện đại, và triển khai thành các sản phẩm ứng dụng phù hợp cho nhu cầu thực tế Theo tinh thần tiêu
chí trên, đề tài này đã được lựa chọn Đề tài “Nghiên cứu, xây dựng phần mềm đếm người ra vào ( Phân biệt người vào và ra, nhận diện được đối tượng người chuyển động)” giúp em có được nền tảng vững chắc hơn về mắt lý thuyết và
thực tiễn để có thể sâu hơn trong quá trình phát triển và nghiên cứu các ứng dụng của camera vào đời sống trong tương lai
2 Mục đích chọn đề tài
Mục đích của đề tài là xây dựng phần mềm đếm người ra vào ( Phân biệt người vào và ra, nhận diện được đối tượng người chuyển động) trên cơ sở xử lý ảnh Bên cạnh đó, đề tài cần đi sâu nghiên cứu đảm bảo các tiêu chí là điều kiện tiên quyết: cần phải đi đôi xây dựng cơ sở khoa học làm nền tảng cập nhật, ứng dụng các công nghệ hiện đại, và triển khai thành các sản phẩm ứng dụng phù hợp với nhu cầu thực tế Để đạt được mục đích trên, các công việc cần thực hiện: nghiên cứu về công nghệ xử lý ảnh, camera quan sát, lập trình phần mềm cho hệ thống đếm người ra vào (Phần biệt người vào ra, nhận diện được đối tượng chuyển động), chạy thử nghiệm, đánh giá và định hướng để tốt hơn, đáp ứng thực tế cũng như các tiêu chí khoa học hơn
Trang 93.Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu chung của đồ án là nghiên cứu hệ thống đếm người ra vào ( Phân biệt người vào và ra, nhận diện được đối tượng người chuyển động) bằng xử lý ảnh Đối với hệ thống này, phần cơ khí của hệ thống gồm một
camera Phần công nghệ xử lý ảnh, xây dựng các ứng dụng trong thị giác máy tính Xây dựng hệ thống điều khiển với bộ điều khiển sử dụng các ứng dụng của phần mềm lập trình đồ hoạ VSCode, PyCharm
4.Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài.
Ý nghĩa khoa học:
Đề tài này đã từng bước xây dựng cơ sở khoa học làm nền tảng: nghiên cứu
về công nghệ xử lý ảnh, lập trình phần mềm cho hệ thống đếm số lượng Đó là những cơ sở cần thiết, quan trọng để tiếp tục phát triển các hệ thống phức tạp hơn, hiện đại hơn
Ý nghĩa thực tiễn:
Đề tài phần nào đưa ra một cái khung cơ bản cho quá trình nghiên cứu hệ thống nhận dạng và đếm đối tượng Nó là cơ sở cho quá trình phát triển, ứng dụng nhận dạng mẫu vật Đã có sự vận dụng công nghệ hiện đại:công nghệ xử lý ảnh và thử nghiệm thuật toán thông minh
Trang 10BÁO CÁO KẾT QUẢ
CHƯƠNG II: CƠ SỞ LÝ THUYẾT
1 Computer Vision là gì?
Hình 1: Minh họa Computer Vision
Computer Vision (thị giác máy tính) là một lĩnh vực liên ngành đề cập đến cách máy tính có thể được tạo ra để đạt được hiểu biết cấp cao từ hình ảnh hoặc video kỹ thuật số Từ góc độ kỹ thuật, nó tìm cách tự động hóa các nhiệm vụ mà
hệ thống thị giác của con người có thể thực hiện
Thị giác máy tính liên quan đến việc trích xuất tự động, phân tích và hiểu thông tin hữu ích từ một hình ảnh đơn lẻ hoặc một chuỗi hình ảnh Nó liên quan đến việc phát triển cơ sở lý thuyết và thuật toán để đạt được sự hiểu biết trực quan tựđộng Là một ngành khoa học, thị giác máy tính quan tâm đến lý thuyết đằng saucác hệ thống nhân tạo trích xuất thông tin từ hình ảnh Dữ liệu hình ảnh có thể ở nhiều dạng, chẳng hạn như chuỗi video, chế độ xem từ nhiều camera hoặc dữ liệu đa chiều từ máy quét y tế Là một ngành công nghệ, thị giác máy tính tìm cách áp dụng các lý thuyết và mô hình của nó để xây dựng các hệ thống thị giác máy tính
1.1 Lịch sử của Computer Vision
Trang 11Các thí nghiệm ban đầu về thị giác máy tính diễn ra vào những năm 1950, sử dụng một số mạng nơ-ron đầu tiên để phát hiện các cạnh của vật thể và sắp xếp các vật thể đơn giản thành các loại như hình tròn và hình vuông.
Đến những năm 1970, việc sử dụng thương mại đầu tiên của thị giác máy tính
đã diễn giải văn bản được đánh máy hoặc viết tay bằng cách sử dụng nhận dạng
ký tự quang học (Optical Character Recognition – OCR) Sự tiến bộ này được sửdụng để giải thích văn bản viết cho người mù
Khi internet phát triển vào những năm 1990, khiến cho một lượng lớn hình ảnh sẵn có trên mạng sử dụng cho các chương trình nhận dạng và phân tích khuôn mặt phát triển mạnh mẽ Những tập dữ liệu này ngày càng gia tăng, đã giúp máymóc có thể xác định những người cụ thể trong ảnh và video
Ngày nay, một số yếu tố đã hội tụ đã mang lại sự “phục hưng” trong thị giác máy tính:
Công nghệ di động với camera tích hợp đã làm bão hòa của thế giới hình ảnh và video
Sức mạnh tính toán đã trở nên hợp lý hơn và dễ dàng tiếp cận hơn
Phần cứng được thiết kế cho Computer Vision và kỹ thuật phân tích đượcphổ biến rộng rãi hơn
Trang 12BÁO CÁO KẾT QUẢ
Các thuật toán mới như mạng nơ-ron hội tụ có thể tận dụng các khả năng của phần cứng và phần mềm
Tác động của những tiến bộ này đối với lĩnh vực Computer Vision thật đáng kinh ngạc Tỷ lệ chính xác để xác định và phân loại đối tượng đã tăng từ 50% lên 99% trong vòng chưa đầy một thập kỷ – và các hệ thống ngày nay chính xác hơn con người trong việc phát hiện và phản ứng nhanh chóng với các đầu vào trực quan
1.2 Computer Vision trong thế giới ngày nay
Từ nhận dạng khuôn mặt cho đến xử lý hành động trực tiếp của một trận bóng đá, thị giác máy tính có thể cạnh tranh và vượt qua khả năng thị giác của con người trong nhiều lĩnh vực Bằng cách kết hợp với những lĩnh vực khác trong khoa học AI (Artificial Intelligence – Trí tuệ nhân tạo), đã thúc đẩy
Computer Vision trở thành một trong những ngành “hot” nhất trong thời đại ngày nay
a Deep Learning (Học sâu) và Computer Vision
Học sâu huấn luyện máy tính nhìn như thế nào? Tìm hiểu cách hoạt động của các loại mạng nơ-ron khác nhau và cách chúng được sử dụng cho thị giác máy tính Học sâu là một loại học máy huấn luyện máy tính thực hiện các tác vụ giống như con người, chẳng hạn như nhận dạng giọng nói, xác định hình ảnh hoặc đưa ra dự đoán Thay vì tổ chức dữ liệu để chạy thông qua các phương trình được xác định trước, học sâu thiết lập các tham số cơ bản về dữ liệu và huấn luyện máy tính tự học bằng cách nhận dạng các mẫu sử dụng nhiều lớp xử lý
Trang 13Hình 2: Ví dụ về mạng nơron
b Phân tích hình ảnh và AI
Xem và giới thiệu về phân tích hình ảnh và tìm hiểu các kỹ thuật phân tích mà bạn có thể áp dụng cho dữ liệu hình ảnh “Nhận dạng khuôn mặt” là một hệ thống sinh trắc học Hệ thống thường là một đường ống gồm 4 giai đoạn: phát hiện, sắp xếp, đại diện và phân loại Khám phá cách một miếng dán mặt được biến đổi thành một vectơ đặc trưng hoặc một tập hợp các điểm phúc tinh và vị trí tương ứng của chúng
1.3 Cách thức hoạt động của Computer Vision
Trang 14BÁO CÁO KẾT QUẢ
Computer Vision hoạt động theo ba bước cơ bản:
Phân đoạn hình ảnh: phân vùng hình ảnh thành nhiều vùng hoặc nhiều mảnh để kiểm tra một cách riêng biệt
Trang 15 Phát hiện đối tượng: xác định một đối tượng cụ thể trong ảnh Tính năng phát hiện đối tượng nâng cao sẽ nhận dạng nhiều đối tượng trong một hình ảnh: sân bóng, cầu thủ tấn công, cầu thủ phòng thủ, quả bóng, v.v Các mô hình này sử dụng tọa độ X, Y để tạo hộp giới hạn và xác định mọithứ bên trong hộp.
Nhận dạng khuôn mặt: là một loại phát hiện đối tượng nâng cao không chỉnhận dạng khuôn mặt người trong ảnh mà còn nhận dạng một cá nhân cụ thể
Phát hiện cạnh: là một kỹ thuật được sử dụng để xác định cạnh bên ngoài của một đối tượng hoặc phong cảnh để xác định rõ hơn những gì có trong ảnh
Phát hiện mẫu: là một quá trình nhận dạng các hình dạng, màu sắc và các chỉ số thị giác khác được lặp lại trong hình ảnh
Phân loại hình ảnh: nhóm các hình ảnh thành các loại khác nhau
So khớp đặc tính: là một loại phát hiện mẫu phù hợp với các điểm tương đồng trong hình ảnh để giúp phân loại chúng
Trang 16BÁO CÁO KẾT QUẢ
Các ứng dụng đơn giản của Computer Vision có thể chỉ sử dụng một trong các
kỹ thuật này, nhưng các ứng dụng nâng cao hơn, như Computer Vision cho ô tô
tự lái, dựa vào nhiều kỹ thuật để hoàn thành mục tiêu của chúng
2 Tổng quan về xử lý ảnh
2.1 Định nghĩa
Xử lý ảnh (XLA) là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá
trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý muốn của người sử dụng Xử lý ảnh có thể gồm quá trình phân tích, phân lớp các đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh
Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của tin học ứng dụng Xử lý dữ liệu bằng đồ họa đề cập đến những ảnh nhân tạo, các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo bởi các chương trình
Trang 17Xử lý ảnh số bao gồm các phương pháp và kỹ thuật biến đổi, để truyền tải hoặc
mã hoá các ảnh tự nhiên Mục đích của xử lý ảnh gồm:
Biến đổi ảnh làm tăng chất lượng ảnh
Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh.Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành những phần có ý nghĩa để phân biệt đối tượng này với đối tượng khác, dựa vào
đó ta có thể mô tả cấu trúc của hình ảnh ban đầu Có thể liệt kê một số phương pháp nhận dạng cơ bản như nhận dạng ảnh của các đối tượng trên ảnh, tách cạnh, phân đoạn hình ảnh,… Kỹ thuật này được dùng nhiều trong y học (xử lý tếbào, nhiễm sắc thể), nhận dạng chữ trong văn bản
2.2 Các quá trình xử lý ảnh
Hình 4: Các giai đoạn chính trong xử lý ảnh
Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá trình
XLA Ảnh đầu vào sẽ được thu nhận qua các thiết bị như camera, sensor, máy scanner,v.v… và sau đó các tín hiệu này sẽ được số hóa Việc lựa chọn các thiết
bị thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tượng cần xử lý Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị
Tiền xử lý: Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử
bóng, khử độ lệch,v.v… với mục đích làm cho chất lượng ảnh trở lên tốt hơn
Trang 18BÁO CÁO KẾT QUẢ
nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình XLA Quátrình này thường được thực hiện bởi các bộ lọc
Phân đoạn ảnh: Phân đoạn ảnh là bước then chốt trong XLA Giai đoạn này
phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liên thông có thể là cùng màu, cùng mức xám v.v… Mục đích của phân đoạn ảnh là để có một miêu
tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu
Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới dạng
dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó Trong cả hai trường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết Để chuyển đổi chúng, câu hỏi đầu tiên cần phải trả lời
là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trưng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn Biểu diễn dạng vùng lại thích hợp cho những ứng dụng khai thác cáctính chất bên trong của đối tượng, ví dụ như vân ảnh hoặc cấu trúc xương của
nó Sự chọn lựa cách biểu diễn thích hợp cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi dữ liệu ảnh thô sang một dạng thích hợp hơn cho các xử
lý về sau Chúng ta còn phải đ a ra một phương pháp mô tả dữ liệu đã được ƣchuyển đổi đó sao cho những tính chất cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý chúng
Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình XLA Nhận
dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần
Trang 19nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh.Giải thích là công đoạn gán nghĩa cho một tập các đối tượng đã được nhận biết
Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng XLA nào
cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng đểrút trích ra những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…
2.3 Ảnh và biểu diễn ảnh
Ảnh trong thực tế là một ảnh liên tục cả về không gian và giá trị độ sáng
Để có thể xử lý ảnh bằng máy tính thì cần thiết phải tiến hành số hóa ảnh Quá trình số hóa biến đổi các tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng tử hóa các thành phần giá trị
mà về nguyên tắc bằng mắt thường không thể phân biệt được hai điểm liền kề nhau Các điểm như vậy được gọi là các pixel (Picture Element) hay các phần tửảnh hoặc điểm ảnh Ở đây cần phân biệt khái niệm pixel hay đề cập đến trong các hệ thống đồ họa máy tính Để tránh nhầm lẫn ta gọi khái niệm pixel này là pixel thiết bị Khái niệm pixel thiết bị có thể xém xét như sau: khi ta quan sát màn hình (trong chế độ đồ họa), màn hình không liên tục mà gồm các điểm nhỏ,gọi là pixel Mỗi pixel gồm một tập tọa độ (x, y) và màu
Như vậy mỗi ảnh là tập hợp các điểm ảnh Khi được số hóa nó thường được biểudiễn bởi mảng 2 chiều I(n,p): n là dòng và p là cột Về mặt toán học có thể xem ảnh là một hàm hai biến f(x,y) với x, y là các biến tọa độ Giá trị số ở điểm (x,y) tương ứng với giá trị xám hoặc độ sáng của ảnh (x là các cột còn y là các hàng) Giá trị của hàm ảnh f(x,y) được hạn chế trong phạm vi của các số nguyên dương
0 ≤ f(x,y) ≤ fmax
Trang 20BÁO CÁO KẾT QUẢ
Với ảnh đen trắng mức xám của ảnh có thể được biểu diễn bởi một số như sau:
Trong đó SBW(λ ) là đặc tính phổ của cảm biến đ ợc sử dụng và k là hệ số tỷ lệƣxích Vì sự cảm nhận độ sáng có tầm quan trọng hàng đầu đối với ảnh đen trắng nên SBW( λ) được chọn giống như là hiệu suất sáng tương đối Vì f biểu diễn công suất trên đơn vị diện tích, nên nó bao giờ cũng không âm và hữu hạn
và thành phần màu lam qua B(x,y) Bộ ba giá trị R, G, và B nhận được từ
Ở đó SR(λ ),SG(λ ) và SB(λ ) theo thứ tự là những đặc tính phổ của các cảm biến (bộ lọc) đỏ, lục và lam R, G, B cũng không âm và hữu hạn
Ảnh có thể được biểu diễn theo một trong hai mô hình: mô hình Vector hoặc mô hình Raster
Trang 21 Mô hình Vector: Ngoài mục đích tiết kiệm không gian lưu trữ, dễ dàng hiển thị và in ấn, các ảnh biểu diễn theo mô hình vector còn có ưu điểm cho phép dễ dàng lựa chọn, sao chép, di chuyển, tìm kiếm…Theo những yêu cầu nàythì kỹ thuật biểu diễn vector tỏ ra ưu việt hơn Trong mô hình này, người ta sử dụng hướng vector của các điểm ảnh lân cận để mã hóa và tái tạo lại hình ảnh ban đầu Các ảnh vector được thu nhận trực tiếp từ các thiết bị số hóa như
Digitalize hoặc được chuyển đổi từ các ảnh Raster thông qua các chương trình vector hóa
Mô hình Raster: là mô hình biểu diễn ảnh thông dụng nhất hiện nay Ảnh được biểu diễn dưới dạng ma trận các điểm ảnh Tùy theo nhu cầu thực tế mà mỗi điểm ảnh có thể được biểu diễn bởi một hay nhiều bit Mô hình Raster thuận lợi cho việc thu nhận, hiển thị và in ấn Các ảnh được sử dụng trong phạm
vi của đề tài này cũng là các ảnh được biểu diễn theo mô hình Raster
Khi xử lý các ảnh Raster chúng ta có thể quan tâm đến mối quan hệ trong vùng lân cận của các điểm ảnh Các điểm ảnh có thể xếp hàng trên một lưới (raster) hình vuông, lưới hình lục giác hoặc theo một cách hoàn toàn ngẫu nhiên với nhau
Hình 5: Quan hệ trong vùng lân cận giữa các điểm ảnh.
Cách sắp xếp theo hình vuông là được quan tâm đến nhiều nhất và có hai loại: điểm 4 láng giềng (4 liền kề) hoặc 8 láng giềng (8 liền kề) Với điểm 4 láng giềng, một điểm ảnh I(i, j) sẽ có điểm kế cận theo 2 h ớng i và j; trong khi đó ƣ
Trang 22BÁO CÁO KẾT QUẢ
với điểm 8 láng giềng, điểm ảnh I(i, j) sẽ có 4 điểm kế cận theo 2 hướng i, j và 4điểm kế cận theo hướng chéo 45 (Xem hình 1.2)
và nhận dạng đã nghiên cứu và phát triển mạnh mẽ bài toán nhập liệu tự động
3 Nhận dạng đối tượng ảnh
3.1 Khái niệm
Nhận dạng hình ảnh được thực hiện bằng nhiều cách khác nhau, nhưng nhiều
kỹ thuật hàng đầu liên quan đến việc sử dụng các mạng thần kinh chập hình ảnh lọc qua một loạt các lớp tế bào thần kinh nhân tạo Mạng lưới thần kinh xoắn được đặc biệt thiết lập để ghi nhận hình ảnh và xử lý hình ảnh tương tự Thông qua sự kết hợp của kỹ thuật như tổng hợp tối đa, cấu hình sải chân và đệm, bộ lọc thần kinh xoắn làm việc trên hình ảnh để giúp máy tìm hiểu các chương trìnhtrở nên tốt hơn trong việc xác định chủ đề của bức tranh
3.2 Phương pháp nhận dạng
3.2.1 Phương pháp mô tả đặc trưng (Histogram of Oriented Gradients – HOG)Phương pháp mô tả đặc trưng (Histogram of Oriented Gradient – HOG) là một trong những phương pháp phát hiện đối tượng lâu đời nhất Nó được giới thiệu lần đầu tiên vào năm 1986 HOG được sử dụng như 1 thuật toán trích chọn đặc trưng của đối tượng trong ảnh
Trang 23Mục đích của HOG là trừu tượng hóa đối tượng bằng cách trích xuất ra những đặc trưng của đối tượng đó và bỏ đi những thông tin không hữu ích Vì vậy, HOG được sử dụng chủ yếu để mô tả hình dạng và sự xuất hiện của một đối tượng trong ảnh HOG dựa trên việc chia ảnh đầu vào thành các ảnh con, tính toán histogram của ảnh để tổng hợp và trích rút ra các vectơ gọi là vector đặc trưng ứng với từng đối tượng.
Bản chất của phương pháp HOG là sử dụng thông tin về sự phân bố của các cường độ gradient (intensity gradient) hoặc của hướng biên (edge directions) để
mô tả các đối tượng cục bộ trong ảnh Các toán tử HOG được cài đặt bằng cách chia nhỏ một bức ảnh thành các vùng con, được gọi là cell và với mỗi cell, ta sẽ tính toán một histogram về các hướng của gradients cho các điểm nằm trong cell Ghép các histogram lại với nhau ta sẽ có một biểu diễn cho bức ảnh ban đầu Để tăng cường hiệu năng nhận dạng, các histogram cục bộ có thể được chuẩn hóa về độ tương phản bằng cách tính một ngưỡng cường độ trong một vùng lớn hơn cell, gọi là các khối (blocks) và sử dụng giá trị ngưỡng đó để chuẩn hóa tất cả các cell trong khối Kết quả sau bước chuẩn hóa sẽ là một vector đặc trưng có tính bất biến đối với các thay đổi về điều kiện ánh sáng.3.2.2 Mạng nơ-ron tích chập theo vùng (R-CNN)
Mạng nơ-ron tích chập theo vùng (R-CNN) là một cải tiến mới trong kỹ thuật phát hiện đối tượng từ các phương pháp trước đây của HOG và SIFT Trong các
mô hình R-CNN thường trích xuất các đặc trưng cần thiết nhất của đối tượng
Trang 24BÁO CÁO KẾT QUẢ
(thường là khoảng 2000 đặc trưng) bằng cách sử dụng 1 giải thuật chọn lọc (gọi
là selective search) Quá trình lựa chọn các đặc trưng quan trọng nhất có thể được tính toán với sự trợ giúp của thuật toán tìm kiếm chọn lọc
Với R-CNN, việc trích xuất các vùng region proposal được thực hiện thông qua thuật toán Selective Search để trích chọn ra các vùng có khả năng chứa đối tượng (khoảng 2000 vùng) Sau đó, các vùng (ảnh) này được resize về 1 kích thước cố định và đưa qua 1 pretrained CNN model (imagenet), rồi từ đó tiến hành xác định offset và nhãn đối tượng Tuy nhiên, việc đưa các vùng region proposal qua mạng CNN 2000 lần khiến tốc độ thực thi của model cực kì chậm!3.2.3 Faster R-CNN
Mặc dù mô hình R-CNN có thể thực hiện tính toán phát hiện đối tượng và đạt được hiệu quả nhưng vẫn tồn đọng nhiều điểm bất cập, điển hình là tốc độ mô hình Vì vậy, một số phương pháp đã được phát triển để giải quyết vấn đề này và
xử lý các nhược điểm của R-CNN Trong số đó nổi bật nhất chính là mô hình Fast R-CNN và Faster R-CNN
Với Faster-RCNN, thay vì việc sử dụng Selective Search, mô hình được thiết kế thêm 1 mạng con gọi là RPN (Region Proposal Network) để trích rút các vùng
có khả năng chứa đối tượng của ảnh Nhìn chung, sau khi thực hiện RPN, các bước xử lý sau tương tự như Fast-RCNN nhưng nhanh hơn nhiều (vì không sử dụng Selective Search) và được thiết kế như 1 mạng end-to-end trainable
network
Trang 25Mô hình Faster CNN là một trong những phiên bản tốt nhất trong Fast CNN và cải thiện tốc độ hoạt động rất nhiều so với các phiên bản tiền nhiệm Trong khi mô hình R-CNN và Fast R-CNN sử dụng thuật toán tìm kiếm chọn lọc để tính toán các đề xuất vùng, thì phương pháp Faster R-CNN sẽ thay thế phương pháp hiện có này bằng một mạng đề xuất các vùng đặc trưng (Region Proposal Network – RPN).
R-Mạng RPN giảm thời gian tính toán để trích chọn đặc trưng, thường là 10ms chomỗi hình ảnh Mạng này bao gồm các lớp tích hợp mà từ đó chúng ta có thể thu được các đặc trưng cần thiết thông qua từng lớp tích chập liên tiếp nhau Để đưa
ra các vùng đặc trưng, chúng ta sử dụng các hộp neo (anchor box) với các tỉ lệ, kích thước và độ lớn khác nhau Đối với mỗi anchor box tại RPN, chúng ta thực hiện 1 binary classifier để phân loại vùng trích chọn đó có khả năng chứa đối tượng hay không, và dự đoán ra các hộp giới hạn (bounding box) tương ứng.Sau đó, các vùng trích chọn sẽ được đưa qua 1 bộ lọc gọi là non maximum suppression (NMS) để loại bỏ các bounding box dư thừa Đầu ra của NMS đượccho qua 1 lớp gọi là RoI Align (Region of Interest) để cố định kích thước đầu ra
Trang 26BÁO CÁO KẾT QUẢ
của các vùng đặc trưng đã trích chọn được Sau đó, phần xử lý tiếp theo của mô hình sẽ tương tự như mô hình Fast-RCNN
CHƯƠNG III: CÁC PHƯƠNG PHÁP NGHIÊN CỨU
Shot (lia): Là đơn vị cơ sở của video Một lia là một đơn vị vật lý của dòng
video, gồm các chuỗi một hay nhiều khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn
Scene ( Cảnh): Là các đơn vị logic của dòng video, một cảnh gồm một hay
nhiều shot liên quan đến nhau về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc một tình tiết
Trang 27Ngoài ra có thể biểu diễn cấu trúc video dựa trên đối tượng:
Các đặc tính đặc trưng của video
a) Color: Với mỗi một ảnh đều có một biểu đồ màu để biểu diễn sự phân bố màutrong ảnh, biểu đồ màu không phụ thuộc vào việc quay cảnh, dịch chuyển màu, chiếu nhìn ảnh mà phụ thuộc vào hệ màu các phương pháp định lượng được dùng
b) Texture: Đây là một đặc trưng quan trọng của bề mặt, nơi xảy ra việc lặp lại mẫu cơ bản Có hai dạng biểu diễn Texture phổ biến: biểu diễn dạng ma trận đồng thời và biểu diễn Tamura
Ma trận đồng thời mô tả hướng và khoảng cách giữa các điểm ảnh, ta có thể trích chọn được các thống kê có ý nghĩa
Biểu diễn Tamura được thúc đẩy nhờ các nghiên cứu về tâm lý trong việc thu nhận trực giác của con người, nó bao gồm các thuộc tính đo tính thô,
độ tương phản, hướng, tính trơn, tính cân đối và độ thô ráp Các đặc tính