Tên đề tài: XỬ LÝ ẢNH TRÊN NỀN HỆ THỐNG NHÚNG ỨNG DỤNG CHO HỆ THỐNG PHÁT HIỆN KHÓI + Xây dựng hệ thống phát hiện khói dựa trên các phương pháp xử lý ảnh.. Phát hiện khói lửa dựa vào xử
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
T RƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 3Công trình được hoàn thành tại: Trường Đại học Bách Khoa – ĐHQG-HCM Cán bộ hướng dẫn: TS Nguyễn Vĩnh Hảo
Ký tên:
Cán bộ chấm nhận xét 1 :
Ký tên Cán bộ chấm nhận xét 2 :
Ký tên Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm 2015 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 ………
2 ………
3 ………
4 ………
5 ………
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 4NHI ỆM VỤ LUẬN VĂN THẠC SĨ
I Tên đề tài:
XỬ LÝ ẢNH TRÊN NỀN HỆ THỐNG NHÚNG ỨNG DỤNG CHO HỆ
THỐNG PHÁT HIỆN KHÓI
+ Xây dựng hệ thống phát hiện khói dựa trên các phương pháp xử lý ảnh
+ Mô phỏng hệ thống trên nền Window, so sánh độ chính xác các phương pháp trong các môi trường khác nhau
+ Thực thi hệ thống trên board nhúng, kiểm tra độ chính xác, tốc độ thực thi, khoảng cách phát hiện
+ Đề xuất các cải tiến, phương pháp để giảm sai số, tăng độ chính xác cho hệ thống
KHOA ĐIỆN – ĐIỆN TỬ TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 5L ỜI CẢM ƠN
Tôi xin gửi đến thầy TS Nguyễn Vĩnh Hảo lời biết ơn sâu sắc vì đã dành thời gian quý báu để hướng dẫn, tạo điều kiện thuận lợi cũng như cho tôi những lời khuyên
bổ ích để hoàn thành luận văn này
Tôi xin chân thành cảm ơn tất cả các Thầy, Cô trong Bộ môn Tự động hóa đã giúp đỡ và đồng hành cùng tôi trong thời gian thực hiện luận văn
Ngoài ra, trong suốt thời gian học tập tại trường đại học Bách Khoa – ĐHQG
Tp HCM, tôi đã được các Thầy Cô khoa Điện – Điện tử, và đặc biệt là các Thầy Cô bộ môn Tự động hóa giảng dạy tận tình, cho tôi nhiều kiến thức mới bổ ích, bên cạnh đó tôi cũng được các đồng nghiệp, bạn bè đóng góp nhiều ý kiến cũng như các tài liệu có giá trị Xin gửi đến các Thầy, Cô và các bạn lời cảm ơn chân thành nhất
Cuối cùng, tôi xin cám ơn Cha Mẹ, vợ, các anh chị em trong gia đình đã động viên và tạo điều kiện giúp tôi vượt qua những khó khăn trong suốt quá trình học tập và nghiên cứu vừa qua
Tp H ồ Chí Minh, ngày 20 tháng 12 năm 2014
Nguyễn Hoanh
Trang 6TÓM T ẮT LUẬN VĂN
Hỏa hoạn là một thảm họa lớn và có thể tàn phá bất cứ nơi đâu với mức độ hết sức hủy diệt Việc phát hiện sớm khói và lửa cùng với hệ thống robot tự động sẽ giúp dập tắt đám cháy trước khi nó vượt tầm kiểm soát của con người và gây ra các thảm họa nghiêm trọng
Với sự phát triển của khoa học ngày nay, ngày càng có nhiều phương pháp và các loại cảm biến cảnh báo hỏa hoạn được phát triển và ra đời Việc sử dụng cảm cảm biến chuyên dụng chỉ có thể phát hiện hỏa hoạn trong phạm vi hẹp, hơn nữa, các cảm biến này thường đắt tiền, không phù hợp cho áp dụng rộng rãi trong công nghiệp và đời sống
Sự phát triển của vi xử lý, vi điều khiển kéo theo sự phát triển của các thuật toán
xử lý ảnh, và kết quả là sự ra đời của các thuật toán để phát hiện khói, lửa phục vụ cho việc cảnh báo sớm hỏa hoạn Phát hiện khói lửa dựa vào xử lý ảnh có đặc điểm là dùng các camera, webcam nên tầm quan sát khá xa, có thể áp dụng cho môi trường rộng lớn với tốc độ tính toán và xử lý rất nhanh Bên cạnh đó, hệ thống xử lý ảnh này có thể tích hợp vào một camera giám sát khi mà camera giám sát ngày càng được sử dụng nhiều
và có mặt ở rất nhiều nơi
Có ba phương pháp phát hiện khói phổ biến hiện nay đã và đang được nghiên cứu, phát triển: Phương pháp dựa vào chuyển động, phương pháp dựa vào màu sắc và phương pháp dựa vào mức năng lượng
Luận văn nghiên cứu tập trung vào phương pháp nhận dạng dựa trên sự chuyển động, màu sắc và hình dáng Mỗi frame ảnh được tách riêng và thực thi ba phương pháp nhận dạng trên để kết luận frame có phải là khói hay không
Năm đoạn video trong năm môi trường khác nhau sẽ được chọn để đánh giá độ chính xác của từng giải thuật cũng như ưu, nhược điểm của mỗi phương pháp Kết quả phương pháp được mô phỏng trên nền Window trong năm đoạn video đã chọn
Trên nền nhúng, giải thuật sẽ được thực thi trên board nhúng BeagleBone Black
và trong môi trường thật thu được từ Webcam Logitech C520 Tính toán độ chính xác,
Trang 7tốc độ xử lý của board nhúng cũng như khoảng cách phát hiện để tìm ra ưu điểm của phương pháp
Luận văn còn đề xuất giải thuật, phương pháp để tăng độ chính xác của hệ thống, tránh các sai số gây ra để có thể áp dụng kết quả vào trong thực tiễn
Trang 9M ỤC LỤC
MỤC LỤC 5
CHƯƠNG 1: TỔNG QUAN 8
1.1 Đặt vấn đề 8
1.1.1 Giới thiệu sơ lược vấn đề và ý nghĩa khoa học của đề tài 8
1.1.2 Ứng dụng thực tiễn 9
1.2 Nghiên cứu tổng quan 9
1.2.1 Tổng quan bài toán nhận dạng 9
1.2.2 Tổng quan hệ thống nhúng và thu nhận ảnh 12
1.2.3 Các thuật toán phát hiện khói đã công bố 16
1.3 Mục tiêu đề tài 20
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 22
2.1 Những vấn đề cơ bản trong xử lý ảnh số 22
2.1.1 Điểm ảnh 22
2.1.2 Độ phân giải của ảnh 22
2.1.3 Mức xám của ảnh 23
2.1.4 Quan hệ giữa các điểm ảnh 23
2.1.5 Không gian màu 24
2.1.6 Các thành phần cơ bản của hệ thống xử lý ảnh 26
2.2 Thu nhận ảnh 26
2.2.1 Các thiết bị thu nhận ảnh 26
2.2.2 Lấy mẫu và lượng tử hóa 26
Trang 102.2.3 Một số phương pháp biễu diễn ảnh 28
2.2.4 Các định dạng ảnh 30
2.3 Nâng cao chất lượng ảnh 31
2.3.1 Cải thiện ảnh sử dụng các toán tử điểm 31
2.3.2 Cải thiện ảnh dùng toán tử không gian 35
2.3.3 Một số kỹ thuật cải thiện ảnh nhị phân 39
2.4 Nhận dạng ảnh 39
2.4.1 Nhận dạng dựa vào phân hoạch không gian 40
2.4.2 Nhận dạng dựa theo cấu trúc 43
2.4.3 Nhận dạnng dựa trên mạng Nơron 43
2.5 Sơ lược về hệ điều hành Linux và board nhúng BeagleBone Black 46
2.5.1 Hệ điều hành Linux 46
2.5.2 Lĩnh vực ứng dụng Linux 47
2.5.3 Sơ lược về board nhúng BeagleBone Black 50
CHƯƠNG 3: XÂY DỰNG GIẢI THUẬT 52
3.1 Giải thuật tổng quát 52
3.1.1 Nghiên cứu phương pháp: 52
3.1.2 Đề xuất giải thuật 53
3.2 Giải thuật xử lý contour 59
3.3 Giải thuật xử lý màu sắc 61
3.4 Giải thuật xử lý động dựa vào hình dáng 64
3.4.1 Xử lý hình dáng bất thường 65
3.4.2 Xử lý tốc độ lớn lên của vùng khói 66
3.4.3 Giải thuật xử lý kết hợp-phân chia 67
3.5 Kết quả ngõ ra 74
Trang 11CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 76
4.1 Chương trình chạy trên nền Window 76
4.1.1 Kết quả phương pháp trừ nền phát hiện chuyển động 77
4.1.2 Kết quả giải thuật xử lý màu sắc 79
4.1.3 Kết quả giải thuật xử lý động dựa vào hình dáng 83
4.2 Chương trình chạy trên nền nhúng BeagleBone Black 87
4.2.1 Kết quả tốc độ thực thi trên board nhúng 90
4.2.2 Kết quả khoảng cách thực thi trên board nhúng 91
CHƯƠNG 5: HƯỚNG PHÁT TRIỂN 95
5.1 Kết quả đạt được 95
5.2 Hạn chế 95
5.3 Hướng phát triển 96
TÀI LIỆU THAM KHẢO 97
Trang 12CHƯƠNG 1: TỔNG QUAN
1.1 Đặt vấn đề
1.1.1 Giới thiệu sơ lược vấn đề và ý nghĩa khoa học của đề tài
Hỏa hoạn là một thảm họa và có thể tàn phá bất cứ nơi đâu với mức độ hết sức hủy diệt Việc phát hiện sớm khói và lửa cùng với hệ thống robot tự động sẽ giúp dập tắt đám cháy trước khi nó vượt tầm kiểm soát của con người và gây ra các thảm họa nghiêm trọng
Với sự phát triển của khoa học ngày nay, ngày càng có nhiều phương pháp và các loại cảm biến cảnh báo hỏa hoạn được phát triển và ra đời Việc sử dụng cảm cảm biến chuyên dụng chỉ có thể phát hiện hỏa hoạn trong phạm vi hẹp, hơn nữa, các cảm biến này thường đắt tiền, không phù hợp cho áp dụng rộng rãi trong công nghiệp và đời sống
Sự phát triển của vi xử lý, vi điều khiển kéo theo sự phát triển của các thuật toán
xử lý ảnh, và kết quả là sự ra đời của các thuật toán để phát hiện khói, lửa phục vụ cho việc cảnh báo sớm hỏa hoạn Phát hiện khói lửa dựa vào xử lý ảnh có đặc điểm là dùng các camera, webcam nên tầm quan sát khá xa, có thể áp dụng cho môi trường rộng lớn với tốc độ tính toán và xử lý rất nhanh Bên cạnh đó, hệ thống xử lý ảnh này có thể tích hợp vào một camera giám sát khi mà camera giám sát ngày càng được sử dụng nhiều
và có mặt ở rất nhiều nơi Điều này có thể giúp giảm giá thành hệ thống và ngày càng được sử dụng rộng rãi hơn
Có nhiều phương pháp, thuật toán xử lý ảnh để phát hiện khói, lửa nhưng hầu hết chúng đều được phát triển trên nền Window với những công cụ hỗ trợ rất mạnh từ môi trường này Việc phát triển thuật toán trên nền Window có đặc điểm là nhanh, độ chính xác rất cao, tuy nhiên, giá thành rất cao, khả năng di động thấp và chiếm không gian lớn
Đề tài này đề cập việc phát triển thuật toán xử lý ảnh phát hiện khói lửa trên nền nhúng, từ đó nó có thể được tích hợp vào một vi điều khiển và gửi tín hiệu cảnh báo về máy tính hoặc một hệ thống cảnh báo đã xây dựng trước, kịp thời phát hiện ra đám cháy
Trang 13Chương 1: TỔNG QUAN
ngay trước khi nó hình thành Hệ thống còn có thể tích hợp trong các camera giám sát
để cảnh báo khói lửa ở các nhà xưởng, nơi công cộng, khu rừng, hoặc có thể làm bộ phận cảm biến cho robot cứu hỏa
1.1.2 Ứng dụng thực tiễn
Hệ thống phát hiện khói có thể ứng dụng trong các nhà kho rộng lớn, nơi chứa các bình khí gas, khí độc, ứng dụng trên các tuyến đường, đường hầm, nhà ga,… Việc phát hiện sớm đám cháy sẽ giúp chúng ta chủ động dập tắt đám cháy trước khi nó lan rộng và gậy thiệt hại nghiêm trọng
Những nguy cơ gây hỏa hoạn khác như các thiết bị điện quá nóng, nến, hút thuốc, các dụng cụ nấu ăn, thiết bị sưởi ấm cũng cần được giám sát vì nguy cơ gây hỏa hoạn cao và hỏa hoạn thường xảy ra ở những nơi này
Các bữa tiệc ngoài trời, nơi mọi người nấu nướng hay hút thuốc cũng có thể xảy
ra hỏa hoạn và cần được giám sát
Hệ thống này cũng có thể tích hợp vào các camera giám sát để cảnh báo cháy rừng khi mà camera giám sát được gắn ở mọi nơi
1.2 Nghiên c ứu tổng quan
1.2.1 Tổng quan bài toán nhận dạng
1.2.1.1 Khái niệm
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức là một dạng) dựa theo những quy luật và mẫu chuẩn Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có thầy hay học có thầy, trong những trường hợp ngược lại gọi là học không có thầy
Nhận dạng ảnh là giai đoạn cuối của các hệ thống xử lý ảnh Trong lý thuyết về nhận dạng nói chung và nhận dạng ảnh nói riêng có ba cách tiếp cận khác nhau:
- Nhận dạng dựa vào phân hoạch không gian
- Nhận dạng dựa vào cấu trúc
Trang 14- Nhận dạng dựa vào kỹ thuật mạng nơron
Hai cách tiếp cận đầu là cách tiếp cận kinh điển Các đối tượng ảnh quan sát và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng mới là giai đoạn nhận dạng Cách tiếp cận thứ ba hoàn toàn khác Nó dựa vào cơ chế đoán nhận, lưu trữ
và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cần qua giai đoạn cải thiện
mà chuyển ngay sang giai đoạn tổng hợp, đối sánh với các mẫu đã lưu trữ để nhận dạng
Trích chọn đặc
Quá trình tiền xử lý
Hình 1.1 Sơ đồ tổng quát của một hệ thống nhận dạng ảnh
1.2.1.2 Mô hình và bản chất của quá trình nhận dạng
1.2.1.2.1 Mô hình
Trong nhận dạng người ta chia thành hai họ lớn:
- Họ mô tả theo tham số
- Họ mô tả theo cấu trúc
Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng Như vậy, sẽ có hai loại mô hình: mô hình tham số và mô hình cấu trúc
Mô hình tham số: sử dụng một vectơ để đặc tả đối tượng Mỗi phần tử của vectơ
mô tả một đặc tính của đối tượng Thí dụ như trong các đặc trưng chức năng, người ta
sử dụng các hàm cơ sở trực giao để biểu diễn.Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng Tuy nhiên việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng Thí dụ, trong nhận dạng chữ, các tham số là các dấu hiệu:
Số điểm chạc ba, chạc tư
Trang 15Quá trình nhận dạng gồm 3 giai đoạn chính:
- Chọn mô hình biểu diễn đối tượng
- Chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn
- Học trong nhận dạng
Trong việc lựa chọn để biểu diễn đối tượng, đối tượng có thể được xác định theo cách định lượng (mô hình tham số) hay định tính (mô hình cấu trúc) Khi đối tượng đã được xác định, quá trình nhận dạng chuyển sang giai đoạn thứ hai-giai đoạn học (Learning) Học là giai đoạn cung cấp tri thức cho hệ thống Mục đích học nhằm cải
Trang 16thiện, điều chỉnh việc phân loại tập đối tượng thành các lớp Nhận dạng là tìm ra quy luật và các thuật toán để có thể gắn đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên
H ọc có thầy: kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có thầy Đặc
điểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem so sánh với mẫu chuẩn để xem nó thuộc loại nào Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm ra quyết định
H ọc không có thầy: kỹ thuật này phải tự định ra các lớp khác nhau và xác định
các tham số đặc trưng cho từng lớp Học không có thầy đương nhiên là gặp khó khăn hơn Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của lớp cũng không được biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp
và nâng cấp dần để đạt được một phương án phân loại
Trang 17Chương 1: TỔNG QUAN
Điểm mạnh của pandaBoard là có cấu trúc phần cứng khá mạnh với CPU ARM Cortex A9 1GHz dual-core, RAM 1GB, hổ trợ khá đầy đủ kết nối ngoại vi Tuy nhiên, giá thành cao nên phù hợp với các hệ thống đòi hỏi nhanh và phức tạp
1.2.2.2 Các board nhúng phát triển trên dòng vi điều khiển ARM của FriendlyARM
Hình 1.3 Một board nhúng Mini2440 của FriendlyARM sử dụng vi điều khiển
Các board nhúng của FriendlyARM có giá thành thấp, tuy nhiên cấu trúc phần cứng khá yếu nên thích hợp cho các công việc học tập, nghiên cứu không phù hợp cho các hệ thống xử lý ảnh đòi hỏi tốc độ tính toán cao
Trang 181.2.2.3 Raspberry Pi
Hình 1.4 Board nhúng Raspberry Pi d ựa trên vi điều khiển ARM11 và Linux
Board nhúng Raspberry Pi có thế mạnh là hổ trợ ngoại vi rất đầy đủ, tuy nhiên
cấu trúc phần cứng chưa mạnh và không phù hợp cho các hệ thống xử lý ảnh
1.2.2.4 Board nhúng sử dụng trong đề tài
Mạch xử lý trung tâm được sử dụng trong đề tài là board nhúng BeagleBone
Black với vi điều khiển AM335x 1GHz ARM Cortex-A8 Vi điều khiển này rất phù
hợp cho thuật toán xử lý ảnh trên nền hệ thống nhúng do tốc độ xử lý cao, kiến trúc hỗ trợ phân luồng thuật toán xử lý ảnh, có thể xử lý lên đến 30 frames/s với ảnh màu độ phân giải 640x480 Đi kèm là bộ nhớ RAM DDR3 tốc độ cao và dung lượng cao 512MB Board còn được tích hợp sẵn hệ điều hành linux nên rất phù hợp để thực thi các thực toán xử lý ảnh trên nền hệ thống nhúng
Trang 19Chương 1: TỔNG QUAN
Hình 1.5 Board nhúng BeagleBone Black sử dụng trong đề tài
Các thông số của board mạch :
- 512MB DDR3 RAM
- 2GB 8-bit eMMC on-board flash storage
- 3D graphics accelerator
- NEON floating-point accelerator
- 2x PRU 32-bit microcontrollers
- USB client for power & communications
Trang 201.2.2.5 Hệ thống thu nhận ảnh
Camera sử dụng để thu nhận ảnh là loại USB Webcam vì giá thành không quá cao, sử dụng chuẩn kết nối USB trên board BeagleBone Black USB Webcam cụ thể là Logitech HD Webcam C525 Một lợi thế khi sử dụng Logitech Webcam là nó được hỗ trợ driver trên Linux, ta không cần viết driver cho thiết bị nữa
Hình 1.6 Logitech HD Webcam C525 sử dụng trong đề tài
Sau khi thu nhận ảnh và xử lý, board nhúng sẽ gửi kết quả về máy tính thông qua kết nối Ethernet, Wifi hoặc gửi tín hiệu qua một vi điều khiển khác để thực hiện báo động qua chuẩn giao tiếp I2C
1.2.3 Các t huật toán phát hiện khói đã công bố
1.2.3.1 Phương pháp kết hợp thuật toán cổ điển và mạng noron nhân tạo
Phương pháp này được đề cập trong bài báo Real Time based Fire & Smoke
Detection without Sensor by Image Processing Bài báo đề cập việc phát hiện khói lửa trong nhà và ngoài trời thông qua xử lý ảnh thu được từ các camera quan sát Phương pháp sử dụng được chia làm ba bước và thực thi song song:
Bước một là phát hiện các điểm ảnh khói và lửa dựa trên thuật toán phát hiện chuyển động
Trang 21Chương 1: TỔNG QUAN
Bước hai là phân chia các điểm ảnh của khói và lửa riêng biệt trong tổng thể ảnh thu được, bước này thực hiện được nhờ vào thông tin về màu sắc (trong không gian phù hợp, hoặc là tiền xử lý để nâng cao tính năng màu sắc cụ thể)
Bước cuối cùng là việc chọn lựa điểm ảnh dựa trên việc biến đổi của khu vực đã tách ra từ bước hai, việc này sẽ giúp tránh được các cảnh báo sai
Kết quả đầu ra cuối cùng của cả ba thuật toán thực thi song song được hợp nhất trong một mạng noron nhân tạo nhiều lớp
1.2.3.2 Phương pháp phát hiện khói dựa vào phép biến đổi Wavelet
Phương pháp được đề cập trong bài báo Wavelet Based Real-time Smoke Detection in Video
Thuật toán trong bài báo dựa trên việc xác định phân vùng góc cạnh có năng lượng băng tần thấp wavelet giảm theo thời gian Các khu vực này sẽ được dùng để phân tích cùng với các khu vực nền tương ứng dựa trên giá trị màu RGB và thành phần màu Độ méo dạng của khói và độ lồi của vùng khói được xem là manh mối cuối cùng
để đưa ra kết luận
Kết quả bài báo được thể hiện khi áp dụng thuật toán vào xử lý các đoạn video
có sẵn và các đoạn video thu từ các camer giám sát
Trang 22Video Sequences # of Shots with
Movie 2 5 5 Fire in a garden
Movie 3 5 5 Fire in a garden in snow
Movie 4 7 7 A burning box
Movie 5 6 6 A burning pile of woods
Movie 6 3 3 Fire in waste basket in the
garden monitored from an indoor camera
Movie 7 0 0 Three men walking in a
room
Movie 8 8 8 Fire in a fireplace
Movie 9 0 1 A parking car in the night
Hình 1.7 Kết quả của phương pháp áp dụng trên các đoạn video khác nhau
Trang 23Chương 1: TỔNG QUAN
Hình 1.8 Một frame ảnh từ đoạn video cho thấy kết quả nhận dạng khói thành công
1.2.3.3 Phương pháp phát hiện khói dựa vào phân tích không gian và thời gian
Phương pháp được nêu trong bài báo Smoke Detection Using Spatial and Temporal Analyses
Thuật toán phân tích không gian và thời gian được phát triển để nhận dạng nhiều
đối tượng khác nhau dựa trên thuật toán xử lý ảnh
Bài báo phân chia bài toán phát hiện khói và lửa thành bốn loại bài toán: bài toán
phát hiện chuyển động, bài toán phát hiện hình dáng, bài toán phân tích màu sắc, và bài
toán tính toán năng lượng Bài báo phân tích các thuật toán và đưa ra kết luận: không
bài toán nào có thể có kết quả hoàn hảo, mỗi phương pháp đều tạo ra một kết quả sai
tùy vào môi trường cụ thể như điều kiện ánh sáng, độ phức tạp của môi trường, đổ
bóng,…
Phương pháp được sử dụng trong bài báo là phân tích không gian và thời gian
dựa vào kỹ thuật xử lý khối Mô hình của thuật toán phát triển theo các bước như sau
Trang 24Video
Sequence
Candidate Region Extraction
2-D Spatial Wavelet Analysis
1-D Temporal Energy Analysis
1-D Temporal Chromatic Configuration Analysis
SVM Classifier
Alarm Decision Unit
Smoke Detection Result
Hình 1.9 Các bước của thuật toán phân tích không gian và thời gian
Hình 1.10 Kết quả của thuật toán xử lý khối
Kết quả bài báo cho thấy phương pháp thực hiện rất chính xác với nhiều điều kiện môi trường khác nhau Tuy nhiên, một nhược điểm chưa khắc phục được là sự tương phản của ánh sáng trên nền đất ước và sự liên tục điều chỉnh mức độ sáng của camera
1.3 M ục tiêu đề tài
Tạo ra hệ thống có thể phát hiện khói sử dụng hình ảnh thu về từ camera
Hệ thống được thiết kế sao cho có thể phát hiện khói ngay khi nó vừa hình thành
và chưa phát triển quá lớn
Trang 25Hệ thống phải tránh các cảnh báo sai - phát hiện khói nơi không có khói, nghĩa
là bỏ qua các đối tượng giống như là khói
Sử dụng USB Webcam làm thiết bị thu nhận hình ảnh để giảm chi phí hệ thống
Trang 26CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Nh ững vấn đề cơ bản trong xử lý ảnh số
2.1.1 Điểm ảnh
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng Để xử lý bằng máy tính (số), ảnh cần phải được số hoá Số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám) Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng Mỗi một điểm như vậy gọi là điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y)
Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh
số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh
2.1.2 Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh
số được hiển thị Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gian hai chiều
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200)
Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn
Trang 27Chương 2: CƠ SỞ LÝ THUYẾT
2.1.3 Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x, y) của điểm ảnh và độ xám của nó Dưới đây chúng ta xem xét một số khái niệm và thuật ngữ thường dùng trong xử lý ảnh
Định nghĩa: Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá
trị số tại điểm đó
Các thang giá tr ị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là
mức phổ dụng Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng 1byte biểu diễn: 28=256 mức, tức là từ 0 đến 255)
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức
xám ở các điểm ảnh có thể khác nhau
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả 21
mức khác nhau Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1
Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế
giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu: 28*3=224≈ 16,7 triệu màu
2.1.4 Quan hệ giữa các điểm ảnh
Một ảnh số giả sử được biểu diễn bằng hàm f(x, y) Tập con các điểm ảnh là S; cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q Chúng ta nêu một số các khái niệm sau
Các lân c ận của điểm ảnh: Giả sử có điểm ảnh p tại toạ độ (x, y) p có 4 điểm
lân cận gần nhất theo chiều đứng và ngang (có thể coi như lân cận 4 hướng chính: Đông, Tây, Nam, Bắc)
{(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N4(p)trong đó: số 1 là giá trị logic; N4(p) tập 4 điểm lân cận của p
Các lân c ận chéo: Các điểm lân cận chéo N p(p) (Có thể coi lân cận chéo la 4 hướng: Đông-Nam, Đông-Bắc, Tây-Nam, Tây-Bắc)
(p)
p
N = { (x+1, y+1); (x+1, y-1); (x-1, y+1); (x-1, y-1)}
Trang 28T ập kết hợp: N8 (p) =N4 (p) +N p(p) là tập hợp 8 lân cận của điểm ảnh p
Các mối liên kết điểm ảnh:
Các mối liên kết được sử dụng để xác định giới hạn (Boundaries) của đối tượng vật thể hoặc xác định vùng trong một ảnh Một liên kết được đặc trưng bởi tính liền kề giữa các điểm và mức xám của chúng
Giả sử V là tập các giá trị mức xám Một ảnh có các giá trị cường độ sáng từ thang mức xám từ 32 đến 64 được mô tả như sau : V={32, 33, … , 63, 64}
Liên kết m (liên kết hỗn hợp): Hai điểm ảnh p và q với các giá trị cường độ sáng
V được nói là liên kết m nếu q thuộc N4(p) hoặc q thuộc N p(p)
2.1.5 Không gian màu
2.1.5.1 Không gian RGB
Không gian màu RGB được tạo từ 3 thành phần cơ bản R, G, B.Sự pha màu
mang tính chất cộng Mỗi màu được biểu diễn bởi một bộ ba số (R,G,B) Thành phần
R, G, B là 1 số thực có giá trị từ 0 đến 255
Hình 2.1 Hệ màu RGB dưới dạng khối 3 chiều
Trang 29Chương 2: CƠ SỞ LÝ THUYẾT
Hình 2.2 Hệ tọa độ trụ cho không gian màu HSV
2.1.5.3 Không gian YCbCr
Không gian YCbCr thường được dùng trong ảnh JPEG, các các chuẩn video Thích hợp cho việc nén và giải nén dữ liệu theo tần số Các thành phần trong không gian này:
Y: thành phần độ sáng(ảnh xám)
Cb và Cr: thành phần sắc thái màu
Trang 30Các thiết bị thu nhận ảnh thông thường Raster là camera, các thiết bị thu nhận ảnh thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi
từ ảnh Raster Nhìn chung các hệ thống thu nhận ảnh thực hiện 2 quá trình
Thu nhận: biến đổi năng lượng quang học thành năng lượng điện (giai đoạn lấy mẫu)
Tổng hợp: tổng hợp năng lượng điện thành ảnh (giai đoạn lượng tử hóa)
2.2.2 Lấy mẫu và lượng tử hóa
2.2.2.1 Lấy mẫu
Lấy mẫu là một quá trình, qua đó ảnh được tạo nên trên một vùng có tính liên tục được chuyển thành các giá trị rời rạc theo tọa độ nguyên Quá trình này gồm 2 lựa chọn:
Trang 31Chương 2: CƠ SỞ LÝ THUYẾT
- Một là: khoảng lấy mẫu
- Hai là: cách thể hiện dạng mẫu
Lựa chọn thứ nhất được đảm bảo nhờ lý thuyết lấy mẫu của Shannon Lựa chọn thứ hai liên quan đến độ đo (Metric) được dùng trong miền rời rạc
Kho ảng lấy mẫu (Sampling Interval):
Ảnh lấy mẫu có thể được mô tả như việc lựa chọn một tập các vị trí lấy mẫu trong không gian hai chiều liên tục Đầu tiên mô tả qua quá trình lấy mẫu một chiều với việc sử dụng hàm delta:
Các d ạng lấy mẫu (Tesselation)
Dạng lẫy mẫu (Tesselation) điểm ảnh là cách bài trí các điểm mẫu trong không gian hai chiều Một số dạng mẫu điểm ảnh được cho là dạng chữ nhật, tam giác, lục giác Mỗi một mẫu, ngoài việc thể hiện hình dáng còn cho biết đặc điểm liên thông của chúng Ví dụ, mẫu chữ nhật có liên thông 4 hoặc 8 (nói về các mẫu liền kề); mẫu lục giác có liên thông 6; mẫu tam giác có liên thông 3 hoặc 6
Mẫu điểm ảnh chữ nhật Mẫu điểm ảnh tam giác Mẫu điểm ảnh lục giác
Hình 2.4 Các dạng mẫu điểm ảnh
Trang 32l 1 l 2 l 3 l 4 l N-1 l N
Hình 2.5 Khuông lượng tử theo L mức xám
2.2.3 Một số phương pháp biễu diễn ảnh
Sau bước số hóa, ảnh sẽ được lưu trữ hay chuyển sang giai đoạn phân tích Trước khi đề cập đến vấn đề lưu trữ ảnh, cần xem xét ảnh sẽ được biểu diễn ra sao trong bộ nhớ máy tính Một số phương pháp biểu diễn thường dùng chi tiết
- Biểu diễn mã loạt dài (Run-length Code)
- Biểu diễn mã xích (Chain Code)
- Biểu diễn mã tứ phân (Quad Tree Code)
Trang 33Chương 2: CƠ SỞ LÝ THUYẾT
Hình 2.6 Hướng các điểm biên và mã tương ứng: A11070110764545432
2.2.3.3 Mã tứ phân
Theo phương pháp mã tứ phân, một vùng ảnh coi như bao kín một hình chứ nhật Vùng này được chia làm 4 vùng con (Quadrant) Nếu một vùng con gồm toàn điểm đen (1) hay toàn điểm trắng (0) thì không cần chia tiếp Trong trường hợp ngược lại, vùng con gồm cả điểm đen và trắng gọi là vùng không đồng nhất, ta tiếp tục chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các vùng con đó Quá trình chia dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm đen hoặc điểm trắng Quá trình đó tạo thành một cây chia theo bốn phần gọi là cây tứ phân Như vậy, cây biểu diễn ảnh gồm một chuỗi các ký hiệu b (black), w (white) và g (grey) kèm theo ký hiệu mã hóa 4 vùng con Biểu diễn theo phương pháp này ưu việt hơn so với các phương pháp trên, nhất là so
Trang 34với mã loạt dài Tuy nhiên, để tính toán số đo các hình như chu vi, mô men là tương đối khó khăn
2.2.4 Các định dạng ảnh
2.2.4.1 Khái niệm chung
Ảnh thu được sau quá trình số hóa thường được lưu lại cho các quá trình xử lý tiếp theo hay truyền đi Trong quá trình phát triển của kỹ thuật xử lý ảnh, tồn tại nhiều định dạng ảnh khác nhau từ ảnh đen trắng (với định dạng IMG), ảnh đa cấp xám cho đến ảnh màu: (BMP, GIF, JPEG…) Tuy các định dạng này khác nhau, song chúng đều tuân theo một cấu trúc chung nhất Nhìn chung, một tệp ảnh bất kỳ thường bao gồm 3 phần:
- Mào đầu tệp (Header)
- Dữ liệu nén (Data Compression)
- Bảng màu (Palette Color)
Mào đầu tệp: Mào đầu tệp là phần chứa các thông tin về kiểu ảnh, kích thước,
độ phân giải, số bit dùng cho 1 pixel, cách mã hóa, vị trí bảng màu…
Dữ liệu nén: Số liệu ảnh được mã hóa bởi kiểu mã hóa chỉ ra trong phần Header Bảng màu: Bảng màu không nhất thiết phải có ví dụ khi ảnh là đen trắng Nếu
có, bảng màu cho biết số màu dùng trong ảnh và bảng màu được sử dụng để hiện thị màu của ảnh
2.2.4.2 Quy trình đọc một tệp ảnh
Trong quá trình xử lý ảnh, đầu tiên phải tiến hành đọc tệp ảnh và chuyển vào bộ nhớ của máy tính dưới dạng ma trận số liệu ảnh Khi lưu trữ dưới dạng tệp, ảnh là một khối gồm một số các byte Để đọc đúng tệp ảnh ta cần hiểu ý nghĩa các phần trong cấu trúc của tệp ảnh như đã nêu trên Trước tiên, ta cần đọc phần mào đầu (Header) để lấy các thông tin chung và thông tin điều khiển Việc đọc này sẽ dừng ngay khi ta không gặp đựợc chữ ký (Chữ ký ở đây thường được hiểu là một mã chỉ ra định dạng ảnh và đời (version) của nó) mong muốn Dựa vào thông tin điều khiển, ta xác định đựợc vị trí bảng màu và đọc nó vào bộ nhớ Cuối cùng, ta đọc phần dữ liệu nén
Trang 35Chương 2: CƠ SỞ LÝ THUYẾT
Sau khi đọc xong các khối dữ liệu ảnh vào bộ nhớ ta tiến hành nén dữ liệu ảnh Căn cứ vào phương pháp nén chỉ ra trong phần Header ta giải mã được ảnh Cuối cùng
là khâu hiện ảnh Dựa vào số liệu ảnh đã giải nén, vị trí và kích thước ảnh, cùng sự trợ giúp của bảng màu ảnh được hiện lên trên màn hình
2.3 Nâng cao ch ất lượng ảnh
2.3.1 Cải thiện ảnh sử dụng các toán tử điểm
Nâng cao chất lượng là bước cần thiết trong xử lý ảnh nhằm hoàn thiện một số đặc tính của ảnh Nâng cao chất lượng ảnh gồm hai công đoạn khác nhau: tăng cường ảnh và khôi phục ảnh Tăng cường ảnh nhằm hoàn thiện các đặc tính của ảnh như :
- Lọc nhiễu, hay làm trơn ảnh
- Tăng độ tương phản, điều chỉnh mức xám của ảnh
- Làm nổi biên ảnh
Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ thuật trong miền điểm, không gian và tần số Toán tử điểm là phép biến đổi đối với từng điểm ảnh đang xét, không liên quan đến các điểm lân cận khác, trong khi đó, toán tử không gian sử dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét Một số phép biến đổi có tính toán phức tạp được chuyển sang miền tần số để thực hiện, kết quả cuối cùng được chuyển trở lại miền không gian nhờ các biến đổi ngược
Khái ni ệm về toán tử điểm:
Xử lý điểm ảnh thực chất là biến đổi giá trị một điểm ảnh dựa vào giá trị của chính nó mà không hề dựa vào các điểm ảnh khác Có hai cách tiệm cận với phương pháp này Cách thứ nhất dùng một hàm biến đổi thích hợp với mục đích hoặc yêu cầu đặt ra để biến đổi giá trị mức xám của điểm ảnh sang một giá trị mức xám khác Cách thứ hai là dùng lược đồ mức xám (Gray Histogram) Về mặt toán học, toán tử
điểm là một ánh xạ từ giá trị cường độ ánh sáng u(m, n) tại toạ độ (m, n) sang giá tri cường độ ánh sáng khác v(m, n) thông qua hàm f(.), tức là:
Trang 36Nói một cách khác, toán tử điểm là toán tử không bộ nhớ, ở đó một mức xác
[ ]
0,
u∈ N được ánh xạ sang một mức xám v∈ 0,[ N : ] v = f u ( ) Ứng dụng chính của các toán tử điểm là biến đổi độ tương phản của ảnh Ánh xạ f khác nhau tùy theo các ứng dụng Các dạng toán tử điểm được giới thiệu cụ thể như sau:
Trong đó a = b = t gọi là phân ngưỡng
Biến đổi âm bản:
Cắt theo mức:
L a (u)
2.3.1.1 Tăng độ tương phản (Stretching Contrast)
Trước tiên cần làm rõ khái niệm độ tương phản Ảnh số là tập hợp các điểm, mỗi điểm có giá trị độ sáng khác nhau Ở đây, độ sáng để mắt người dễ cảm nhận ảnh song không phải là quyết định Thực tế chỉ ra rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận sáng khác nhau Như vậy, độ tương phản
Trang 37Chương 2: CƠ SỞ LÝ THUYẾT
biểu diễn sự thay đổi độ sáng của đối tượng so với nền Nói một cách khác, độ tương
ph ản là độ nổi của điểm ảnh hay vùng ảnh so với nền Như vậy, nếu ảnh có độ tương
phản kém, ta có thể thay đổi tùy ý theo ý muốn
Ảnh với độ tương phản thấp có thể do điều kiện sáng không đủ hay không đều, hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận ảnh Để điều chỉnh lại độ tương phản của ảnh, cần điều chỉnh lại biên độ trên toàn dải hay trên dải có giới hạn bằng cách biến đổi tuyến tính biên độ đầu vào (dùng hàm biến đổi là hàm tuyến tính) hay phi tuyến (hàm mũ hay hàm lôgarit) Khi dùng hàm tuyến tính các độ dốc α,
β, γ phải chọn lớn hơn một trong miền cần dãn Các tham số a và b (các cận) có thể
chọn khi xem xét lược đồ xám của ảnh Chú ý, nếu dãn độ tương phản bằng hàm tuyến tính ta có:
Hình 2.7 Dãn độ tương phản
2.3.1.2 Tách nhiễu và phân ngưỡng
Tách nhiễu là trường hợp đặc biệt của dãn độ tương phản khi hệ số góc α= γ=0 Tách nhiễu được ứng dụng có hiệu quả để giảm nhiễu khi biết tín hiệu vào trên khoảng
[a, b]
Trang 38Phân ngưỡng là trường hợp đặc biệt của tách nhiễu khi a=b=const Trong trường hợp này, ảnh đầu vào là ảnh nhị phân (có 2 mức) Phân ngưỡng thường dùng trong kỹ thuật in ảnh 2 màu vì ảnh gần nhị phân không cho ảnh nhị phân khi quét ảnh
do có nhiễu từ bộ cảm biến và biến đổi của nền ví dụ trường hợp lọc nhiễu của ảnh vân tay
Hình 2.8 Tách nhiễu và phân ngưỡng
2.3.1.3 Biến đổi âm bản (Digital Negative)
Âm bản nhận được bằng phép biến đổi âm Phép biến đổi rất có nhiều hữu ích trong các phim ảnh dùng trong các ảnh y học
Trang 39Chương 2: CƠ SỞ LÝ THUYẾT
với c là hằng số tỉ lệ δ được coi là nhỏ so với u(m, n) Thường δ được chọn trong khoảng 3-10
2.3.2 Cải thiện ảnh dùng toán tử không gian
Cải thiện ảnh là làm cho ảnh có chất lượng tốt hơn theo ý đồ sử dụng Thường
là ảnh thu nhận có nhiễu cần phải loại bỏ nhiễu hay ảnh không sắc nét bị mờ hoặc cần làm tõ các chi tiết như đường biên ảnh Các toán tử không gian dùng trong kỹ thuật tăng cường ảnh được phân nhóm theo công dụng: làm trơn nhiễu, nổi biên Để làm trơn nhiễu hay tách nhiễu, người ta sử dụng các bộ lọc tuyến tính (lọc trung bình, thông thấp) hay lọc phi tuyến (trung vị, giả trung vị, lọc đồng hình) Từ bản chất của nhiễu (thường tương ứng với tần số cao) và từ cơ sở lý thuyết lọc là: bộ lọc chỉ cho tín hiệu có tần số nào đó thông qua do đó, để lọc nhiễu người ta thường dùng lọc thông thấp (theo quan điểm tần số không gian) hay lấy tổ hợp tuyến tính để san bằng (lọc trung bình) Để làm nổi cạnh (ứng với tần số cao), người ta dùng các bộ lọc thông cao, lọc Laplace
Trước khi xem xét chi tiết các kỹ thuật áp dụng, cần phân biệt các loại nhiễu hay can thiệp trong quá trình xử lý ảnh Trên thực tế tồn tại nhiều loại nhiễu; tuy nhiên người ta thường xem xét 3 loại nhiễu chính: nhiễu cộng, nhiễu nhân và nhiễu xung:
Trang 402.3.2.1 Làm trơn nhiễu bằng lọc tuyến tính: lọc trung bình và lọc dải thông thấp
Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có nhiều bộ lọc thích hợp Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình và lọc đồng hình (Homomorphie); với nhiễu xung ta dùng lọc trung bị, giả trung vị, lọc ngoài (Outlier)
2.3.2.1.1 L ọc trung bình không gian
Với lọc trung bình, mỗi điểm ảnh được thay bằng trung bình trọng số của các điểm ảnh lân cận và được định nghĩa như sau
Nếu , 1
k l w
a
N
= thì Nw là số điểm ảnh trong cửa sổ lọc W Lọc trung bình có trọng
số chính là thực hiện chập ảnh đầu vào với nhân chập H Nhân chập H trong trường hợp này có dạng:
1 1 11
1 1 19