Nội dung của luận văn trình bày về việc phát hiện dị vật nhằm loại bỏ trước khi dị vật gây ra lỗi trong quá trình sản xuất tấm nền Panel tại nhà máy sản xuất điện thoại hiện đại. Mục đích: Giảm thiểu một cách tối đa lỗi liên quan tới dị vật nhằm giảm chi phí phát sinh, tối đa hóa lợi nhuận, giảm giá thành sản phẩm. Mục tiêu luận văn thực hiện: Phát hiện dị vật sau đó đưa ra cảnh báo bằng cách sử dụng công cụ trong xử lý ảnh để đưa ra những phán đoán chính xác nhất về việc có hay không có dị vật trong quá trình sản xuất và đưa ra cảnh báo. Phương pháp thực hiện: Sử dụng thuật toán trừ ảnh( subtrack background) nhằm phát hiện các dị vật phát sinh mới trong quá trình sản xuất.
Trang 11
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ Ứng dụng xử lý ảnh nhằm phát hiện và quản lý dị vật trong hệ thống giám sát chất
Trang 22
Lời cảm ơn
Đề tài “ Ứng dụng xử lý ảnh nhằm phát hiện và quản lý dị vật trong hệ thống giám sát chất lượng Panel” là nội dung tôi chọn để nghiên cứu và làm luận văn tốt nghiệp cao học chuyên ngành Cơ điện tử tại trường đại học Bách Khoa Hà Nội Tôi xin chân thành cảm ơn sâu sắc đến TS Đặng Thái Việt thuộc Bộ môn Cơ Điện
Tử, Viên Cơ Khí – Trường đại học Bách Khoa Hà Nội Thầy đã trực tiếp chỉ bảo và hướng dẫn tôi trong suốt quá trình nghiên cứu để tôi hoàn thiện luận văn Ngoài ra tôi xin chân thành cảm ơn các Thầy, Cô trong Bộ môn Cơ điện tử đã đóng
góp những ý kiến quý báu cho luận văn
Trân trọng cảm ơn!
Tóm tắt nội dung luận văn
Nội dung của luận văn trình bày về việc phát hiện dị vật nhằm loại bỏ trước khi dị vật gây ra lỗi trong quá trình sản xuất tấm nền Panel tại nhà máy sản xuất điện thoại hiện đại
Mục đích: Giảm thiểu một cách tối đa lỗi liên quan tới dị vật nhằm giảm chi phí phát sinh, tối đa hóa lợi nhuận, giảm giá thành sản phẩm
Mục tiêu luận văn thực hiện: Phát hiện dị vật sau đó đưa ra cảnh báo bằng cách sử dụng công cụ trong xử lý ảnh để đưa ra những phán đoán chính xác nhất
về việc có hay không có dị vật trong quá trình sản xuất và đưa ra cảnh báo
Phương pháp thực hiện: Sử dụng thuật toán trừ ảnh( subtrack background) nhằm phát hiện các dị vật phát sinh mới trong quá trình sản xuất
Công cụ sử dụng: Microsoft Visual 2017, Office 2013, OpenCV…
Kết quả đạt được: Thuật toán đưa ra các cảnh báo chính xác tới 88.5%
Định hướng phát triển đề tài: Mở rộng phát hiện các lỗi khác như đứt, gãy…
Học viên Hoàng Đình Tuấn
Trang 33
MỤC LỤC
CHƯƠNG I: TỔNG QUAN NGHIÊN CỨU 9
1.1.Đặt vấn đề 9
1.1.1 Sơ lược về quá trình sản xuất tại các nhà máy sản xuất màn hình điện thoại 11
1.1.2 Ảnh hưởng của dị vật tới chất lượng sản phẩm trong công đoạn dán 12
1.1.3 Lý do lựa chọn đề tài 13
1.2 Lý thuyết về xử lý ảnh và ứng dụng trong thực tế 13
1.2.1 Không gian màu, chuyển đổi giữa các không gian màu 14
1.2.2 Ảnh nhị phân, nhị phân hóa với ngưỡng động 17
1.2.3 Phóng to, thu nhỏ, xoay ảnh 18
1.2.4 Một số phép toán sử dụng trong nội dung luận văn 19
1.3 Các thuật toán liên quan và lựa chọn 25
1.3.1 Phương pháp tách nền (Background subtraction) 25
1.3.2 Phương pháp Template Matching 27
CHƯƠNG II: TÍNH TOÁN THIẾT KẾ CƠ KHÍ 31
2.1 Cơ sở tính toán lựa chọn Camera cho hệ thống giám sát chất lượng Panel 31
2.1.1 Thực nghiệm lựa chọn kích thước dị vật nhỏ nhất cần phát hiện 36
2.2 Thông số thiết bị, vị trí lắp đặt Camera và bản vẽ Jig Panel 38
CHƯƠNG III: THIẾT KẾ THUẬT TOÁN ĐIỀU KHIỂN 44
3.1 Yêu cầu bài toán điều khiển 44
3.2 Xây dựng sơ đồ thuật toán điều khiển hệ thống giám sát chất lượng Panel 45
3.3 Kết quả thực tế tại mô hình thiết bị thử nghiệm 51
TÀI LIỆU THAM KHẢO 60
Trang 44
Danh mục hình ảnh
Hình ảnh 1.1 Các đường song song xuất hiện trở thành con dốc 10
Hình ảnh 1.2 Sơ đồ khối thiết bị dán Window với Panel 11
Hình ảnh 1.3 Cấu tạo cơ bản của một màn hình OLED 12
Hình ảnh 1.4 Không gian màu RGB 15
Hình ảnh 1.5 Không gian màu YMC 16
Hình ảnh 1.6 Không gian màu HSV 17
Hình ảnh 1.7 Ảnh với giá trị threshold khác nhau 18
Hình ảnh 1.8 Thuật toán thu phóng ảnh 19
Hình ảnh 1.9 Thuật toán xoay ảnh 19
Hình ảnh 1.10 Phép giãn nở 20
Hình ảnh 1.11 Phép giãn nở 20
Hình ảnh 1.12 Gradient 22
Hình ảnh 1.13 Ví dụ về phép tìm biên bằng bộ lọc Candy 23
Hình ảnh 1.14 Chuyển đổi Hough 24
Hình ảnh 1.15 Chuyển đổi Hough đường tròn 25
Hình ảnh 2.1 Thông số cơ bản thiết bị liên quan tới tính toán cơ khí 31
Hình ảnh 2.2 Lý thuyết về camera vision 32
Hình ảnh 2.3 Sơ đồ thiết bị, vị trí lắp đặt Camera Vision trong công đoạn 38
Hình ảnh 2.4 Bản vẽ mô tả khu vực làm việc của camera 39
Hình ảnh 2.5 Sơ đồ nguyên lý hoạt động của hệ thống 39
Hình ảnh 2.6 Robot loading Panel từ Tray vào Panel Stage( Jig) 40
Hình ảnh 2.7 Step 2 của chu trình làm việc 40
Hình ảnh 2.8 Step 2 của chu trình làm việc 41
Hình ảnh 2.9 Step 4 trường hợp phát sinh dị vật trên stage 42
Hình ảnh 2.10 Bản vẽ Jig chân không hút Panel 43
Hình ảnh 3.1 Sơ đồ lắp đặt hệ thống điều khiển 44
Hình ảnh 3.2 Sơ đồ thuật toán 46
Hình ảnh 3.3 Lọc tìm biên các đặc tính của Jig bằng bộ lọc Candy 47
Hình ảnh 3.4 Đăng ký ngoại lệ tọa vị trí các đặc tính cố hữu của Jig 47
Hình ảnh 3.5 Đăng ký Main Pattern 48
Hình ảnh 3.6 Đăng ký Sub Pattern 1 48
Hình ảnh 3.7 Đăng ký Sub Pattern 2 48
Hình ảnh 3.8 Các điểm đăng ký ngoại lệ dùng làm đặc tính hình ảnh 49
Trang 55
Hình ảnh 3.9 Ảnh live chưa xác định được vùng ROI 50
Hình ảnh 3.10 Giải thích ý tưởng thuật toán 51
Hình ảnh 3.11 Thiết bị đánh giá chương trình vision dị vật trên Jig 52
52
Hình ảnh 3.12 Mô hình thiết kế vị trí đặt camera và Jig kiểm tra dị vật 52
Hình ảnh 3.13 Kết quả thực nghiệm phát hiện chính xác dị vật kích thước 0.2mm………57
Hình ảnh 3.14 Jig không có dị vật 57
Hình ảnh 3.15 Kết quả Vision Jig không có dị vật: OK 58
Hình ảnh 3.16 Jig có dị vật bị phát hiện bởi Vision camera 1 58
Hình ảnh 3.17 Jig có dị vật bị phát hiện bởi Vision camera 2 58
Trang 66
LỜI NÓI ĐẦU
Cuộc sống ngày càng hiện đại gắn liền với tự động hóa, công nghệ số thì nhu cầu về sử dụng các thiết bị điện tử, sản phẩm công nghệ cao và gắn liền với đời sống sinh hoạt của con người ngày càng nhiều hơn Vì thế việc thiết kế, sản xuất và liên tục cải tiến hơn nữa các thiết bị điện, điện tử phục vụ nhu cầu cuộc sống hàng ngày của con người là rất cần thiết và không ngừng diễn ra quanh chúng
ta Những năm gần đây, nhờ chính sách mở cửa của nhà nước nên các công nghệ sản xuất, thiết bị hiện đại phục vụ sản xuất tự động hóa được nhập khẩu trực tiếp, hoặc nhận đầu tư rất lớn từ các tập đoàn công nghệ hàng đầu thế giới tăng lên đáng
kể, đặc biệt phải kể tới những tập đoàn lớn về công nghệ đến từ Nhật Bản, Hàn Quốc, Trung Quốc… Hưởng lởi từ việc nhập khẩu linh kiện máy móc sản xuất thiết bị điện tử được sản xuất trong nước với chi phí thấp và tạo cơ hội việc làm cho những nhân lực trong nước, qua đó được học hỏi, trau dồi công nghệ từ các đối tác nước ngoài ngày càng trở nên thuận tiện Trong những ngành sản xuất thiết
bị điện tử nói chung thì ngành sản xuất màn hình, thiết bị sử dụng màn hình hiển thị ngày càng phát triển tại Việt Nam, đặc biệt theo xu hướng ngày một hoàn thiện hơn và chất lượng sử dụng cao hơn hướng tới nhu cầu cao của thị trường Do đó, vấn đề kiểm soát tốt được chất lượng sản phẩm trong quá trình sản xuất sẽ giúp giảm thiểu chi phí đi rất nhiều, giúp tăng tính cạnh tranh của sản phẩm được sản xuất trong nước và nâng cao trình độ kỹ thuật của nhân lực sản xuất lên một cách đáng kể
Hơn nữa, xu hướng của các công ty sản xuất màn hình và các thiết bị sử dụng màn hình là ngày càng mỏng hơn và có thể gập, uốn cong nhằm đáp ứng nhu cầu thị trường nên việc sản xuất hàng loạt trong khi vẫn phải đảm bảo chất lượng đòi hỏi công đoạn giám sát chất lượng phải ngày một chính xác hơn và nhanh hơn Việc kiểm soát chất lượng sản phẩm bằng các công nhân ngoại quan do đó không còn đáp ứng được nhu cầu sản xuất vì thế cần phải có các công nghệ tiên tiến hỗ trợ để có thể tăng cao độ chính xác và giảm tối đa thời gian kiểm tra hàng lỗi, kịp thời xử lý trong quá trình sản xuất nhằm giảm tối đa thiệt hại và thời gian sản xuất Một trong những công nghệ tiên tiến hỗ trợ rất tốt cho quy trình giám sát chất lượng được phát triển mạnh mẽ trong vài năm gần đây phải kể đến công nghệ
Trang 77
Computer Vision( thị giác máy tính) Công nghệ này nếu phát triển tốt và ứng dụng phù hợp thì hoàn toàn có thể thay thế con người trong việc tự động phát hiện các lỗi nhỏ nhất với thời gian nhanh nhất do việc kiểm soát hoàn toàn tự động và các camera đang ngày càng hoàn thiện hơn cho phép phát hiện ra các vật thể với kích thước cực nhỏ mà mắt người cũng không thể nhìn thấy được Một trong những yếu tố cực kỳ quan trọng, mang tính sống còn cần giám sát trong các công ty sản xuất màn hình hiện đại chính là dị vật, mặc dù môi trường sản xuất là phòng sạch nhưng dị vật có kích thước nhỏ khó kiểm soát một khi lọt vào quy trình sản xuất
sẽ lập tức gây lỗi đặc tính cho sản phẩm Thông qua hình thức kiểm soát hình ảnh trong thời gian thực bẳng cách sử dụng camera có độ phân giải cao kết hợp với thuật toán xử lý tín hiệu hình ảnh để phân tích, cho ra kết quả xác minh, phán định
có hay không dị vật trong các quy trình sản xuất sẽ giúp phòng tránh rất tốt các sự
cố chất lượng Độ chính xác của phương pháp xử lý ảnh thời gian thực này phụ thuộc rất nhiều vào phần cứng của thiết bị như vi xử lý, card đồ họa của máy tính hay camera ghi lại hình ảnh cũng như là phụ thuộc vào thuật toán tối ưu hay không…
Trước yêu cầu của thực tiễn, em đã lên ý tưởng và nhận sự định hướng thực hiện của thầy hướng dẫn về việc tiến hành lắp đặt hệ thống giám sát, phát hiện và đưa ra cảnh báo khi xuất hiện dị vật trên Jig
“Ứng dụng xử lý ảnh nhằm phát hiện và quản lý dị vật trong hệ thống giám sát chất lượng Panel”
Thuyết minh đồ án gồm 3 chương, nội dung như sau:
Chương 1: TỔNG QUAN NGHIÊN CỨU
- Sơ lược về quá trình sản xuất của các nhà máy sản xuất màn hình điện thoại
- Ảnh hưởng của dị vật tới chất lượng công đoạn dán trong nhà máy sản xuất màn hình điện thoại
Trang 88
Chương 2: TÍNH TOÁN THIẾT KẾ CƠ KHÍ
- Cơ sở tính toán lựa chọn Camera cho hệ thống giám sát chất lượng
- Thông số linh kiện phù hợp với yêu cầu đặt ra
- Mô phỏng hoạt động của hệ thống giám sát chất lượng Panel
Chương 3: THIẾT KẾ THUẬT TOÁN ĐIỀU KHIỂN
- Yêu cầu bài toán điều khiển
- Xây dựng sơ đồ thuật toán điều khiển hệ thống giám sát chất lượng Panel
- Thuật toán tìm kiếm dị vật phát sinh dựa trên giải thuật Template Matching
Dù đã cố gắng hoàn thành đề tài với cường độ làm việc cao, kỹ lưỡng cùng
sự hướng dẫn rất cụ thể, nhiệt tình của các thầy trong bộ môn cơ điện tử cũng như ứng dụng thực tiễn tại cơ quan làm việc, nhưng do hiểu biết còn hạn chế cộng với điều kiện đo kiểm thực nghiệm còn giới hạn về mặt thiết bị nên chắc chắn luận văn này không tránh khỏi được khả năng thiết sót và bất cập Vì vậy em rất mong sự sửa chữa và góp ý của hội đồng, quý thầy cô để em rút ra kinh nghiệm và bổ sung thêm kiến thức cho bản thân
Hà Nội, ngày 08 tháng 5 năm 2020
Học viên thực hiện:
Hoàng Đình Tuấn
Trang 99
CHƯƠNG I: TỔNG QUAN NGHIÊN CỨU
Chương 1 bao gồm các nội dung như sau:
- Sơ lược về quá trình sản xuất của các nhà máy sản xuất màn hình điện thoại
- Ảnh hưởng của dị vật tới chất lượng công đoạn dán trong nhà máy sản xuất màn hình điện thoại
- Lý do lựa chọn đề tài
- Vai trò của hệ thống giám sát chất lượng đối với nhà máy sản xuất công nghiệp
- Lý thuyết về xử lý ảnh và các ứng dụng thực tế sẽ áp dụng trong đề tài
mẽ trên nhiều lĩnh vực như ứng dụng quản lý giao thông đô thị [4], ứng dụng quản
lý dữ liệu sinh trắc học [5], ứng dụng trong các hệ thống giám sát chất lượng, hệ thống nhận diện thông qua cử chỉ của con người [12] …
Trên đà phát triển đó của xử lý ảnh, phải kể đến ứng dụng của nó trong lĩnh vực kiểm tra trực quan( Visual Inspection) liên quan tới việc phân tích các sản phẩm hoặc đối tượng sản xuất khác trên dây chuyền cho mục đích kiểm soát chất lượng Kiểm tra trực quan cũng có thể được sử dụng để đánh giá bên trong và bên ngoài của các thiết bị khác nhau trong một cơ sở sản xuất như bể chứa, bình chịu
áp lực, đường ống và các thiết bị khác Đó là một quá trình diễn ra trong khoảng thời gian đều đặn mỗi ngày góp phần phát hiện ra hầu hết cả khiếm khuyết trong quá trình sản xuất Việc kiểm tra trực quan hầu hết đang được thực hiện thủ công, đòi hỏi sự hiện diện của các công nhân ngoại quan đánh giá và thực hiện theo các đào tạo hoặc kiến thức nhận được từ trước đó Mắt thường chính là là yếu tố then chốt của việc kiểm tra trực quan thủ công, tuy nhiên theo nghiên cứu việc lọt lõi khi tiến hành theo phương pháp này dao động từ 20% ~ 30% [6] Một số khiếm
Trang 1010
khuyết có thể quy cho lỗi của công nhân ngoại quan( tâm trạng, sức khỏe, tại thời điểm kiểm tra), trong khi một số khác là do giới hạn về không gian( ánh sáng, khoảng cách ngoại quan, ); mặc dù có thể giảm bớt được việc lọt lỗi cho công nhân ngoại quan thông qua đào tạo và thực hành, nhưng không thể được loại bỏ hoàn toàn Đặc biệt trong môi trường sản xuất khi con người mệt mỏi có thể dẫn tới kết quả ngoại quan xảy ra nhiều sai sót Lỗi kiểm tra trực quan trong sản xuất thường có hai hình thức – thiếu một khiếm khuyết hiện có hoặc xác định không chính xác một khiếm khuyết tồn tại, dưới đây là một ví dụ về hạn chế của mắt người trong quá trình kiểm tra trực quan:
Hình ảnh 1.1 Các đường song song xuất hiện trở thành con dốc
Chỉ riêng ví dụ bên trên đã chỉ ra mắt người là không thể tin tưởng trong một số trường hợp chưa kể tới tầm nhìn hạn chế đối với các vật có kích thước quá nhỏ
Để cải thiện những hạn chế đó việc kiểm tra trực quan tự động không phụ thuộc vào bất kỳ sự tham gia nào của con người mà thay thế bằng việc sử dụng các camera vision ứng dụng thành tựu của công nghệ xử lý hình ảnh ( Machine vision system) giúp xây dựng nên các hệ thống giám sát chất lượng thông minh tự động thu nhận hình ảnh, tiền xử lý sau đó phân loại, cảnh báo đưa ra kết quả một cách chính xác
Quay trở lại với mục đích ban đầu của đề tài là xây dựng hệ thống giám sát chất lượng của tấm nền Panel trong các nhà máy sản xuất điện thoại thông minh thì việc kiểm tra trực quan thủ công đang trở lên vô cùng khó khăn và thiếu hiệu quả vì một số nguyên nhân sau đây:
- Kích thước của đối tượng cần quan sát rất nhỏ, theo số liệu thống kê của các công ty màn hình thì kích thước đối tượng cần phát hiện dao động từ 0.2 mm
Trang 11Do đó ứng dụng công nghệ xử lý ảnh trong việc xây dựng một hệ thống giám sát chất lượng tự động của quy trình sản xuất tấm nền Panel nhằm nâng cao hiệu quả, năng xuất lao động là đề xuất của tôi trong nội dung đề tài trình bày dưới đây
1.1.1 Sơ lược về quá trình sản xuất tại các nhà máy sản xuất màn hình điện thoại
Để có màn hình điện thoại hoàn chỉnh phải trải qua rất nhiều công đoạn lắp ráp, dán các tấm vật lý với nhau một cách tỉ mỉ, chính xác nhất Việc dán các lớp vật lý được tiến hành hoàn toàn tự động bằng các tay Robot và thiết bị tự động hóa
Quy trình sản xuất đơn giản tại công đoạn bao gồm các khâu như sau:
- Cấp nguyên vật liệu ( Panel, Tấm dính dẫn điện, Window)
- Loading nguyên vật liệu lên các Jig
- Dán ( Sử dụng công nghệ Vision Aligment )
- Unloading bán thành phẩm khỏi các Jig
- Loading bán thành phẩm vào Tray
Hình ảnh 1.2 Sơ đồ khối thiết bị dán Window với Panel
Trang 1212
Hình ảnh 1.3 Cấu tạo cơ bản của một màn hình OLED
1.1.2 Ảnh hưởng của dị vật tới chất lượng sản phẩm trong công đoạn dán
Dị vật phát sinh trong quá trình sản xuất có thể gây ra rất nhiều lỗi nghiêm trọng lên sản phẩm, đặc biệt là các thế hệ điện thoại thông minh sử dụng tấm nền
có kích thước hiển thị nhỏ và độ dày mỏng Hơn cả phải kể đến là lỗi dị vật và lỗi đâm công đoạn sau
Lỗi dị vật: là lỗi phát sinh khi có dị vật nằm giữa một trong các lớp vật lý của màn hình, dị vật có thể phát sinh trong quá trình dán do ô nhiễm vật liệu đầu vào
Dị vật nói tới có kích thước lớn hơn 0.2mm tức là kích thước nhỏ nhất mà mắt thường có thể quan sát được ở cự ly sử dụng điện thoại Gặp lỗi này không thể rework, phải xử lý hủy đối với sản phẩm
Lỗi đâm công đoạn sau: là lỗi phát sinh do dị vật đủ cứng đâm vào bề mặt Panel của màn hình làm cho điểm ảnh ( một hoặc nhiều pixel) bị hỏng không thể hiển thị
Từ các vấn đề nghiêm trọng do dị vật gây ra nêu trên thì việc phát triển một
hệ thống tự động giám sát dị vật tại các bước sản xuất quan trọng là điều vô cùng cần thiết và cấp bách đối với các nhà máy sản xuất màn hình
Trang 1313
1.1.3 Lý do lựa chọn đề tài
Từ quy trình sản xuất sản phẩm tại công đoạn đã nêu ở trên có thể thấy rằng, tại vị trí loading nguyên vật liệu lên các Jig do đặc tính mỏng của nguyên vật liệu nên nếu có dị vật trên Jig thì sẽ lập tức gây ra một trong hai lỗi kể trên vì thế một phương pháp kiểm tra liên tục, giám sát được tình trạng của Jig trước khi loading nguyên vật liệu là vô cùng cần thiết nhằm phòng tránh lỗi phát sinh Áp dụng xử
lý ảnh với chỉ một Vision camera có nhiều ưu điểm phù hợp để áp dụng như sau: Tacttime nhanh phù hợp với dây chuyền tự động
Mỗi sản phẩm hiện tại có thời gian hoàn thành chỉ là 5s, trong thời gian 5s con người khó có thể quan sát kỹ được dị vật có kích thước nhỏ ~ 0.2 mm, tuy nhiên với ứng dụng của xử lý ảnh chỉ cần một camera vision cho mỗi thiết bị thì hoàn toàn có thể phát hiện toàn bộ dị vật phát sinh, đưa ra các cảnh báo khẩn cấp cho kỹ thuật viên có thể xử lý kịp thời
Kích thước nhỏ gọn, có thể tích hợp trong thiết bị
Kích thước phần trong thiết bị hiện tại khá nhỏ chỉ khoảng 500mm x 500mm, với nhiều chi tiết linh kiện phức tạp; tuy nhiên mỗi camera vision chỉ có kích thước khoảng 50mm x 50mm hoàn toàn có thể lắp đặt mà không ảnh hưởng tới vận hành chung của các chi tiết máy khác Đặc tính nhỏ gọn này thực sự phù hợp với thiết bị hiện tại
Có thể quản lý được lịch sử hoạt động dựa trên data
Đối với mỗi hệ thống làm việc thì việc quản lý lịch sử là rất quan trọng Dựa trên data thu thập được về dị vật phát hiện được hàng ngày chúng ta có thể năm bắt đươc tình trạng nguyên vật liệu đầu vào đang ở xu hướng tốt lên hay xấu
đi, có thể matching lỗi phát sinh với các thời điểm phát hiện được dị vật trên Jig, nắm bắt chính xác hiện trạng chất lượng công đoạn,
Trang 1414
Xử lý ảnh và thị giác máy là lĩnh vực mà ngày nay được phát triển và ứng dụng rất rộng rãi trong nhiều lĩnh vực khác nhau nhờ vào sự phát triển ngày càng mạnh mẽ của các hệ thống máy tính, các thuật toán và công trình nghiên cứu khác nhau của nhiều nhà khoa học trên thế giới [16]
Xử lý ảnh là phần cốt lõi của kỹ thuật thị giác máy tính [13] Nhiệm vụ chính của xử lý ảnh là nâng cao chất lượng thông tin hình ảnh theo mục đích và xử
lý những thông tin đó đưa ra kết quả, số liệu nhằm phục vụ các bước kế tiếp có thể
là hiển thị, điều khiển cơ cấu chấp hành hệ thống, lưu trữ vào cơ sở dữ liệu, … Quá trình bắt đầu từ việc thu nhận ảnh nguồn (dạng ảnh số) ở máy tính Dữ liệu ảnh được lưu trữ ở định dạng phù hợp với quá trình xử lý Người lập trình sẽ đưa
ra các thuật toán lên dữ liệu ảnh nhằm thay đổi cấu trúc ảnh phù hợp với các ứng dụng khác nhau Các thuật toán cơ bản nhất thường là: Histogram, Canny Edge, lọc màu RGB, lọc màu HSV, …
1.2.1 Không gian màu, chuyển đổi giữa các không gian màu
Không gian màu là một mô hình toán học dùng để mô tả các màu sắc trong thực tế được biểu diễn dưới dạng số học [7] Trên thực tế có rất nhiều không gian màu khác nhau được mô hình để sử dụng vào những mục đích khác nhau Trong bài này ta sẽ tìm hiểu qua về ba không gian màu cơ bản hay được nhắc tới và ứng dụng nhiều, đó là hệ không gian màu RGB, HSV và CMYK
Không gian màu RGB
RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính và nhiều thiết bị kĩ thuật số khác Ý tưởng chính của không gian màu này là sự kết hợp của 3 màu sắc cơ bản: màu đỏ (R, Red), xanh lục (G, Green) và xanh lơ (B, Blue) để mô tả tất cả các màu sắc khác Nếu như một ảnh số được mã hóa bằng 24bit, nghĩa là 8bit cho kênh R, 8bit cho kênh G, 8bit cho kênh B, thì mỗ kênh này màu này sẽ nhận giá trị từ 0-255 Với mỗi giá trị khác nhau của các kênh màu kết hợp với nhau ta sẽ được một màu khác nhau, như vậy ta sẽ có tổng cộng 255x255x255 = 1.66 triệu màu sắc
Ví dụ: màu đen là sự kết hợp của các kênh màu (R, G, B) với giá trị tương ứng (0, 0, 0) màu trắng có giá trị (255, 255, 255), màu vàng có giá trị (255, 255, 0), màu tím đậm có giá trị (64, 0, 128) Nếu ta dùng 16bit để mã hóa một kênh
Trang 1515
màu (48bit cho toàn bộ 3 kênh màu) thì dãi màu sẽ trãi rộng lên tới 3*2^16 = Một con số rất lớn
Hình ảnh 1.4 Không gian màu RGB
Không gian màu CMYK:
CMYK là không gian màu được sử dụng phổ biến trong ngành công nghiệp
in ấn.Ý tưởng cơ bản của hệ không gian này là dùng 4 màu sắc cơ bản để phục vụ cho việc pha trộn mực in Trên thực tế, người ta dùng 3 màu là C=Cyan: xanh lơ, M=Magenta: hồng xẫm, và Y=Yellow: vàng để biểu diễn các màu sắc khác nhau Nếu lấy màu hồng xẫm cộng với vàng sẽ ra màu đỏ, màu xẫm kết hợp với xanh lơ
sẽ cho xanh lam Sự kết hợp của 3 màu trên sẽ cho ra màu đen, tuy nhiên màu đen ở đây khôn phải là đen tuyệt đối và thường có độ tương phản lớn, nên trong ngành in, để tiết kiệm mực in người ta thêm vào màu đen để in những chi tiết có
màu đen thay vì phải kết hợp 3 màu sắc trên Và như vậy ta có hệ màu CMYK
chữ K ở đây là để kí hiệu màu đen (Black), có nhẽ chữ B đã được dùng để biểu diễn màu Blue nên người ta lấy chữ cái cuối K để biểu diễn màu đen? Nguyên lý làm việc của hệ màu này như sau : Trên một nền giấy trắng, khi mỗi màu này được
in lên sẽ loại bỏ dần đi thành phần màu trắng 3 màu C, M, Y khác nhau in theo những tỉ lệ khác nhau sẽ loại bỏ đi thành phần đó một cách khác nhau và cuối cùng cho ta màu sắc cần in Khi cần in màu đen, thay vì phải in cả 3 màu người ta dùng
Trang 1616
màu đen để in lên Nguyên lý này khác với nguyên lý làm việc của hệ RGB ở chỗ
hệ RGB là sự kết hợp của các thành phần màu, còn hệ CMYK là sự loại bỏ lẫn nhau của các thành phần màu
Hình ảnh 1.5 Không gian màu YMC
Không gian màu HSV:
HSV và cũng gần tương tự như HSL là không gian màu được dùng nhiều trong việc ch ỉnh sữa ảnh, phân tích ảnh và một phần của lĩnh vực thị giác máy tính Hệ không gian này dựa vào 3 thông số sau để mô tả màu sắc H = Hue: màu sắc, S = Saturation: độ đậm đặc, sự bảo hòa, V = value: giá trị cường độ sáng Không gian màu này thường được biểu diễn dưới dạng hình trụ hoặc hình nón Theo đó, đi theo vòng tròn từ 0 -360 độ là trường biểu diễn màu sắc(Hue) Trường này bắt đầu từ màu đỏ đầu tiên (red primary) tới màu xanh lục đầu tiên (green primary) nằm trong khoảng 0-120 độ, từ 120 - 240 độ là màu xanh lục tới xanh lơ (green primary – blue primary) Từ 240 - 360 là từ màu đen tới lại màu đỏ Việc nắm rõ được khái niệm của màu sắc, cách thức tạo ra các màu sắc trong từng không gian màu có ý nghĩa rất lớn trong việc hiểu và chuyển đổi giữa các không gian màu tùy theo từng tình huống bài toán xử lý ảnh yêu cầu, dưới đây tiếp tục giới thiệu
về lý thuyết chuyển đổi giữa các không gian màu và thuật toán hỗ trợ trong OpenCV
Trang 1717
Hình ảnh 1.6 Không gian màu HSV
Chương trình chuyển đổi các không gian màu
Trong OpenCV, các không gian màu được được chuyển đổi qua lại nhờ hàm cvtColor(convert color), nguyên mẫu hàm này như sau:
cv::cvtColor(cv::InputArray src, cv::OutputArray dst, int code)
Trong đó, src, dst là ảnh gốc và ảnh thu được sau khi chuyển đổi không gian màu; code là mã chuyển đổi không gian màu OpenCV định nghĩa khá nhiều chuyển đổi giữa các không gian màu chẳng hạn như Code = CV_BGR2GRAY sẽ chuyển ảnh ở không gian màu RGB sang ảnh xám, Code = CV_HSV2BGR sẽ chuyển ảnh ở không gian màu HSV sang không gian màu RGB …
1.2.2 Ảnh nhị phân, nhị phân hóa với ngưỡng động
Ảnh nhị phân là ảnh mà giá trị của các điểm ảnh chỉ được biểu diễn bằng hai giá trị 0 hoặc 255 tương ứng với hai màu đen hoặc trắng Nhị phân hóa một ảnh là quá trình biến một ảnh xám thành ảnh nhị phân Gọi f(x,y) là giá trị cường
độ sáng của một điểm ảnh ở vị trí (x,y), T là ngưỡng nhị nhị phân Khi đó, ảnh xám f sẽ được chuyển thành ảnh nhị phân dựa vào công thức f(x,y) = 0 nếu f(x,y)
≤ T và f(x,y) = 255 nếu f(x,y) > T Hàm để chuyển nhị phân hóa ảnh trong
OpenCV là hàm threshold() Nguyên mẫu hàm như sau: threshold(cv::InputArray src, cv::OutputArray dst, double thresh, int maxval, int type) Trong đó, src là ảnh đầu vào một kênh màu (ảnh xám …), dst là ảnh sau khi được nhị phân hóa,
Trang 18Hình ảnh 1.7 Ảnh với giá trị threshold khác nhau
1.2.3 Phóng to, thu nhỏ, xoay ảnh
Ảnh số thực chất là một ma trận các điểm ảnh, do đó để có thể phóng to, thu nhỏ hay xoay một tấm ảnh ta có thể sử dụng các thuật toán tương ứng trên ma trận Ta sẽ sử dụng biển đổi affine để quay và thay đổi tỉ lệ to, nhỏ của một ma trận
Biến đổi affine:
Giả sử ta có vector = [ x, y]T và ma trận M 2x2 Phép biển đổi affine trong không gian hai chiều có thể được định nghĩa p’ = Mp trong đó p’ = [ x’, y’]T Viết một cách tường minh ta có:
'
'
y y
Nếu δ = γ = 0, khi đó x’ = αx và y’ = βy, phép biến
đổi này làm thay đổi tỉ lệ của ma trận Nếu là trong ảnh nó sẽ phóng to hoặc thu nhỏ ảnh Hình sau mô tả phép biến đổi với tỉ lệ α = β = 2
Trang 1919
Hình ảnh 1.8 Thuật toán thu phóng ảnh
Nếu ta định nghĩa ma trận:
cos( ) sin(
thì phép biến đổi sẽ quay p thành p’ với góc quay là θ
Hình ảnh 1.9 Thuật toán xoay ảnh
1.2.4 Một số phép toán sử dụng trong nội dung luận văn
Trang 2020
Hình ảnh 1.10 Phép giãn nở
Ta hãy xét một ảnh với đối tượng trong ảnh được biểu diễn bằng màu nền nâu, sau đó dùng cấu trúc phần tử hình vuông (màu đỏ) để làm giản nở ảnh, kết quả là ảnh được giản nở ra và phần giản nở ra ta đánh dấu là dấu x
Hình ảnh 1.11 Phép giãn nở
Ứng dụng của phép giãn nở là làm cho đối tượng trong ảnh được tăng lên
về kích thước, các lỗ nhỏ trong ảnh được lấp đầy, nối liền đường biên ảnh đối với những đoạn rời nhỏ …
Tìm biên ảnh dựa trên bộ lọc Candy
Bộ lọc Canny là sự kết hợp của nhiều bước khác nhau để tìm và tối ưu đường biên, kết quả là cho ra một đường biên khá mảnh và chính xác Quá trình tìm biên sử dụng phương pháp canny có thể được thực hiện qua 4 bước sau:
Bước 1: Loại bớt nhiễu trong ảnh
Người ta loại nhiễu trong ảnh, làm cho ảnh mờ đi bằng cách nhân chập ảnh với một bộ lọc Gause, chẳng hạn bộ lọc Gaus 5x5 với hệ số σ = 1.4:
Trang 2121
(1.3)
Bước 2: Tính toán giá trị gradient trong ảnh
Vì đường biên trong ảnh là nơi phân cách giữa các đối tượng khác nhau, nên tại đó gradient của nó sẽ biến đổi mạnh mẽ nhất Để tính toán gradient trong ảnh, ta có thể sử dụng bộ lọc Sobel, hoặc trực tiếp nhâp chập ma trận ảnh với các
(1.5)
Bước 3: Loại bỏ các giá trị không phải là cực đại
Bước này sẽ tìm ra những điểm ảnh có khả năng là biên ảnh nhất bằng cách loại bỏ đi những giá trị không phải là cực đại trong bước tìm gradient ảnh ở trên
Ta thấy rằng, với giá trị của góc θ ở trên thì biên của đối tượng có thể tuân theo bốn hướng, và ta có bốn khả năng sau:
4 Nếu θ = 00, khi đó, điểm A sẽ được xem là một điểm trên biên nếu độ lớn gradient tại A lớn hơn độ lớn gradient của các điểm tại A3, A7
5 Nếu θ = 450, khi đó, điểm A sẽ được xem là một điểm trên biên nếu độ lớn gradient tại A lớn hơn độ lớn gradient của các điểm tại A4, A8
6 Nếu θ = 900, khi đó, điểm A sẽ được xem là một điểm trên biên nếu độ lớn gradient tại A lớn hơn độ lớn gradient của các điểm tại A1, A5
7 Nếu θ = 1350, khi đó, điểm A sẽ được xem là một điểm trên biên nếu độ lớn gradient tại A lớn hơn độ lớn gradient của các điểm tại A2, A6
Trang 2222
Hình ảnh 1.12 Gradient
Bước 4: Chọn ra biên của đối tượng trong ảnh
Sau bước trên, ta thu được tập các điểm tương ứng trên đường biên khá mỏng Vì những điểm có giá trị gradient lớn bao giờ cũng có xác suất là biên thật
sự hơn những điểm có giá trị gradient bé, đo đó để xác định chính xác hơn nữa biên của các đối tượng, ta sử dụng các ngưỡng Theo đó, bộ lọc canny sẽ sử dụng một ngưỡng trên (upper threshold) và một ngưỡng dưới (lower threshold), nếu gradient tại một điểm trong ảnh có giá trị lớn hơn ngưỡng trên thì ta xác nhận đó
là một điểm biên trong ảnh, nếu giá trị này bé hơn ngưỡng dưới thì đó không phải điểm biên Trong trường hợp giá trị gradient nằm giữa ngưỡng trên và ngưỡng dưới thì nó chỉ được tính là điểm trên biên khi các điểm liên kết bên cạnh của nó
có giá trị gradient lớn hơn ngưỡng trên
Hình ảnh 1.13 Ảnh gốc bộ lọc Candy
Trang 2323
Hình ảnh 1.14 Ví dụ về phép tìm biên bằng bộ lọc Candy
Chuyển đổi Hough, phát hiện đường thẳng, đường tròn trong ảnh
Chuyển đổi Hough (Hough transformation) là một phương pháp được dùng nhiều trong phân tích và xử lý ảnh, mục đích chính của phương pháp này là tìm ra những hình dáng đặc trưng trong ảnh bằng cách chuyển đổi không gian ảnh ban đầu sang một không gian của các tham số nhằm đơn giản quá trình tính toán, trong bài này ta xét chuyển đổi Hough cho đường thẳng và đường tròn
Chuyển đổi Hough cho đường thẳng
Ta đã biết rằng, một đường thẳng trong không gian hai chiều có thể được biểu diễn dưới dạng y = kx + m và cặp hệ số góc k, giá trị m có thể được chọn để làm đặc trưng cho một đường thẳng Tuy nhiên, cách biểu diễn theo cặp (k, m) khó thỏa mãn với những đường thẳng thẳng đứng khi mà hệ số góc là một số vô cùng
Để tránh trường hợp này, ta sẽ biểu diễn đường thẳng trong hệ tọa độ cực
Phương trình đường thẳng trong hệ tọa độ cực có dạng như sau:
cos( ) y sin( )
Trong đó, r là khoảng cách từ gốc tọa độ O tới đường thẳng, θ là góc cực Như vậy, với mỗi điểm (x0, y0) ta có một họ các đường thẳng đi qua thõa mãn phương trình:
cos( ) sin( )
Trang 2424
Hình ảnh 1.15 Chuyển đổi Hough
Phương trình này biểu diễn một đường cong, như vậy trong một tấm ảnh có
n điểm (n pixel) ta sẽ có n các đường cong Nếu đường cong của các điểm khác nhau giao nhau, thì các điểm này cùng thuộc về một đường thẳng Bằng cách tính các giao điểm này, ta sẽ xác định được đường thẳng, đó là nội dung ý tưởng của thuật toán Hough cho đường thẳng
Chuyển đổi Hough cho đường tròn
Chuyển đổi Hough cho đường tròn cũng tương tự như với đường thẳng, phương trình đường tròn được xác định bởi:
Trang 2525
Hình ảnh 1.16 Chuyển đổi Hough đường tròn
1.3 Các thuật toán liên quan và lựa chọn
1.3.1 Phương pháp tách nền (Background subtraction)
Phương pháp tách cảnh nền [15] (Tiếng Anh: Background subtraction) hay
có thể gọi phương pháp phát hiện tiền cảnh (Tiếng Anh: foreground detection) là một kỹ thuật trong lĩnh vực xử lý ảnh và thị giác máy tính khi mà tiền cảnh (foreground) sẽ được tách ra cho những bước xử lý tiếp theo (ví dụ như nhận dạng đối tượng, nhận dạng cử chỉ, chuyển động, vv) Thông thường những vùng ảnh quan tâm sẽ thuộc vùng tiền cảnh của bức ảnh, vì vậy việc tách cảnh nền hiệu quả
và chính xác giúp cho các hệ thống này đạt được sự ổn định và tính nhanh chóng Sau bước tiền xử lý, các bước xử lý tiếp theo sẽ sử dụng kỹ thuật tách nền này Tách cảnh nền được ứng dụng rộng rãi trong nhiều lĩnh vực như camera giám sát, nhận dạng đối tượng, nhận dạng cử chỉ đối tượng [12], giao thông để theo dõi lưu lượng xe [10], [11]… với các phương pháp tiếp cận như:
1.3.1.1 Phương pháp frame diffirencing
Trong tất cả các phương pháp background subtraction thì phương pháp Frame Differencing được xem là phương pháp đơn giản nhất Chi phí tính toán thấp, tốc độ thực thi thuật toán nhanh Tuy nhiên kết quả đạt được khi ta áp dụng thuật toán này là tương đối thấp
Trong đó:
- Ft+1: frame ảnh thứ t - 1
Trang 2626
- Ft : frame ảnh thứ t
- th: ngưỡng được chọn Độ chính xác của thuật toán phụ thuộc vào giá trị ngưỡng này
1.3.1.2 Phương pháp lọc trung bình Mean filter
Lo và Velastin trong đề xuất sử dụng giá trị trung bình của n frame cuối cùng làm mô hình nền Bước đầu tiên của phương pháp Median là xây dựng ra mô hình background qua quá trình học trên n frame Giá trị pixel tại vị trí (x, y) của
mô hình background được xây dựng bằng cách chọn ra giá trị trung vị của n frame tại vị trí (x, y)
Giá trị trung vị được xác định bằng cách sau:
Ví dụ, với một dãy frame từ F1 tới Fn, ta xét pixel ở vị trí (x, y) thì các giá trị F1(x, y), F2(x, y),…, Fn(x,y) sẽ tạo thành một dãy giá trị của pixel (x, y) ứng với từng frame ảnh Bước đầu tiên ta xắp xếp dãy pixel này theo thứ tự tăng dần
Giá trị trung vị chính là phần tử nằm chính giữa của dãy pixel đã sắp xếp thứ tự Sau khi đã xây dựng được mô hình background theo phương pháp trên thì những bước sau được thực hiện tương tự như thuật toán Running Average
1.3.1.3 Phương pháp Running Gaussian average
Trong phương pháp frame differencing đã đề cập ở trên Do việc xác định các đối tượng chỉ dựa vào sự khác biệt ở hai frame liên tiếp nhau Do vậy độ chính xác của thuật toán tương đối thấp Để khắc phục nhược điểm này thì phương pháp Running Average đề ra hướng giải quyết là xây dựng nên mô hình background Wren et al đã đề xuất mô hình hóa background độc lập tại mỗi vị trí pixel (i,j) Giá trị pixel tại vị trí (x,y) của mô hình background này được tính bằng cách lấy trung bình cộng của tất cả các giá trị pixel tại vị trí (x,y) của n frame đã học
B(x, y): giá trị pixel tại vị trí (x, y) của mô hình background
- Fi(x, y): giá trị pixel tại vị trí (x, y) của frame thứ i
- n: tổng số frame học
Trang 2727
Sau khi đã xây dựng được mô hình background, việc xác định ra được đâu là đối tượng foreground được thực hiện bằng cách so sánh từng frame ảnh với mô hình background Dựa vào giá trị của ngưỡng đã được chọn trước tương tự như phương pháp frame differencing
- thường được chọn là 0.05
Như vậy, mô hình background sẽ được cập nhật liên tục sau mỗi frame Vì vậy
sẽ giúp tăng độ chính xác của phương pháp
1.3.1.4 Phương pháp mô hình gausian hỗn hợp (GMM)
Phương pháp này do Wren, Azarbayejani, Darrell, Pentland đưa ra vào năm
1997 Phương pháp này đặt một phân phối Gaussian lên sự biến thiên giá trị của mỗi pixel trong đoạn video Ví dụ, với một dãy frame từ F1 tới Fn, ta xét pixel ở
vị trí (x, y) thì các giá trị F1(x, y), F2(x, y), …, Fn(x,y) sẽ tạo thành một dãy giá trị của pixel (x, y) ứng với từng frame ảnh Bằng cách tính trung bình và phương sai của dãy pixel này ta xác định được pixel background (giá trị trung bình) và ngưỡng (độ lệch nhân với một hằng số nào đó)
𝜎𝑡+12= 𝛼∗(𝐹𝑡− 𝜇𝑡)2+ (1− 𝛼)∗ 𝜎𝑡2 (1.14)
1.3.2 Phương pháp Template Matching
Template matching [14] là một kĩ thuật xử lý hình ảnh điện tử để tìm 1 hình ảnh nhỏ trong 1 bức ảnh lớn sao cho vùng ảnh này giống với ảnh mẫu (template) nhất Template matching có thể ứng dụng trong sản xuất để quản lý chất lượng sản phẩm, dùng để điều khiển mobile robot, hoặc để tìm ra các cạnh của 1 bức ảnh Những thử thách lớn nhất trong phương pháp Template Matching là: tìm sự ăn khớp, phát hiện các biến đổi trong hình ảnh về mặt ánh sáng, màu nền, xáo trộn nền ảnh và thay đổi tỷ lệ của ảnh gốc
Các phương pháp tiếp cận phương pháp Template Matching:
Trang 2828
1.3.2.1 Biến đổi Laplacian của Gaussian
Một trong những bộ phát hiện blob đầu tiên và cũng phổ biến nhất được dựa trên Laplacian of Gaussian (LoG) Cho một hình ảnh đầu vào f (x, y), hình ảnh này được nhân ma trận tổ hợp chập với 1 nhân Gaussian
Để phát hiện tỷ lệ không gian lớn nhất/nhỏ nhất, đó là các điểm mà lần lượt
là lớn nhất/nhỏ nhất của phép tính Laplacian 𝛻𝑛𝑜𝑟𝑚2𝐿 tương ứng với không gian
và tỷ lệ (Lindeberg 1994, 1998) Do đó, khi cho một hình ảnh đầu vào hai chiều rời rạc f(x,y) và 3 chiều rời rạc với tỷ lệ không gian L(x,y,t) được tính toán và một điểm được coi là một đốm sáng (tối) nếu giá trị tại điểm này lớn hơn (hoặc nhỏ hơn) giá trị của tất cả 26 điểm liên kề nó Do đó, việc lựa chọn đồng thời các điểm cần quan tâm (𝑥̂,𝑦̂)và tỷ lệ 𝑡̂ được thực hiện theo công thức
(𝑥̂,𝑦̂,𝑡̂)=𝑎𝑟𝑔𝑚𝑎𝑥𝑚𝑖𝑛𝑙𝑜𝑐𝑎𝑙(𝑥,𝑦,𝑡)((𝛻𝑛𝑜𝑟𝑚2𝐿)(𝑥,𝑦,𝑡)) (1.17) Các thuộc tính dựa trên sự lựa chọn tỷ lệ của phép biến đổi Laplacian và các phương pháp dò tìm điểm cần quan tâm có quy mô chặt chẽ khác được phân tích chi tiết trong (Lindeberg 2013a) Trong (Lindeberg 2013a, 2015) nó được thể hiện rằng tồn tại các bộ tìm kiếm điểm quan tâm trong không gian khác, chẳng hạn như yếu tố quyết định của biến đổi Hessian, hoạt động tốt hơn so với toán tử Laplacian hoặc xấp xỉ khác biệt của Gaussians cho phù hợp dựa trên hình ảnh bằng cách sử dụng bộ mô tả hình ảnh như SIFT
1.3.2.2 Phương pháp sai lệch Gaussian
Từ thực tế là các đại diện không gian quy mô L(x,y,t) đáp ứng các phương trình khuếch tán
Trang 2929
Nó tuân theo định luật Laplacian của phép biến đổi Gausian ∇ 2 L (x, y, t) cũng có thể được tính toán như là trường hợp giới hạn của sự khách biệt giữa hai Gausian hình ảnh đã được làm mịn(đại diện quy mô trong không gian)
𝛻𝑛𝑜𝑟𝑚2𝐿(𝑥,𝑦,𝑡) ≈ 𝑡Δ𝑡(𝐿(𝑥,𝑦,𝑡+Δ𝑡)−𝐿(𝑥,𝑦,𝑡) (1.19) Trong lý thuyết về thị giác máy, cách tiếp cận này được gọi là sự khác biệt của Gaussians(DoG) Bên cạnh các kĩ thuật nhỏ, tuy nhiên phép biến đổi này là trong bản chất tương tự như Laplacian và có thể được xem như là xấp xỉ của các phép biến đổi Laplacian
1.3.2.3 Định thức Hessian
Bằng việc xem xét quyết định quy mô-chuẩn hoá của Hessian, cũng được gọi là phép biến đổi Monge-Ampère
Trong đó H l là ma trận Hessian của đại diện không gian quy mô L và sau
đó phát hiện quy mô-không gian Maxima của nhà điều hành này, một trong những nhận được một máy dò blob khác biệt đơn giản với lựa chọn quy mô tự động mà cũng đáp ứng với yên tấm ( Lindeberg 1994, 1998)
(𝑥̂,𝑦̂,𝑡̂)= 𝑎𝑟𝑔𝑚𝑎𝑥𝑙𝑜𝑐𝑎𝑙(𝑥,𝑦,𝑡)((𝑑𝑒𝑡𝐻𝑛𝑜𝑟𝑚𝐿)(𝑥,𝑦,𝑡)) (1.21) Các blob điểm (x ^, y ^) và vảy t ^ cũng được xác định từ một định nghĩa
vi phân hoạt động dẫn đến mô tả blob là biến thể với các bản dịch, phép quay và rescalings trong miền hình ảnh Trong điều kiện lựa chọn quy mô, các đốm màu được xác định từ quy mô-không gian cực đoan của các yếu tố quyết của Hessian (DoH) cũng có quy mô lựa chọn tốt hơn một chút thuộc tính theo biến đổi không Euclidean afin hơn so với các nhà điều hành Laplacian thường được sử dụng ( Lindeberg 1994, 1998, 2015) Trong hình thức đơn giản hóa, yếu tố quyết định quy mô của Hessian tính từ Haar wavelets được sử dụng như là nhà điều hành điểm quan tâm cơ bản trong mô tả SURF (bay et al 2006) để phù hợp với hình ảnh và nhận dạng đối tượng
1.3.2.4 Phép lai giữa toán tử Laplacian và định thức của toán tử Hessian
Một nhà điều hành lai giữa Laplacian và các yếu tố quyết định của các máy phát hiện các blob Hessian cũng đã được đề xuất, trong đó lựa chọn không gian
Trang 3030
được tiến hành bởi quyết định của các lựa chọn Hessian và quy mô được thực hiện với quy mô-chuẩn hóa Laplacian (Mikolajczyk và Schmid 2004)
(𝑥̂,𝑦̂)= 𝑎𝑟𝑔𝑚𝑎𝑥𝑙𝑜𝑐𝑎𝑙(𝑥,𝑦)((𝑑𝑒𝑡𝐻𝐿)(𝑥,𝑦,𝑡)) (1.22) 𝑡̂= 𝑎𝑟𝑔𝑚𝑎𝑥𝑚𝑖𝑛𝑙𝑜𝑐𝑎𝑙(𝑡)((𝛻𝑛𝑜𝑟𝑚2𝐿)(𝑥̂,𝑦̂,𝑡̂ )) (1.23)
1.3.2.5 Phát hiện đối tượng theo vi sai thích nghi với biến đổi affine
Mô tả blob thu được từ các máy dò blob với lựa chọn quy mô tự động là bất biến để dịch, quay và rescalings thống nhất trong miền không gian Tuy nhiên, hình ảnh tạo thành đầu vào cho hệ thống tầm nhìn máy tính, cũng tùy thuộc vào sự biến dạng phối cảnh Để có được mô tả blob mạnh mẽ hơn để biến đổi quan điểm, một phương pháp tự nhiên là để đưa ra một máy dò blob là bất biến để biến đổi afin Trong thực tế, các điểm quan tâm bất biến afin có thể thu được bằng cách áp dụng thích ứng với hình dạng afin để mô tả blob, nơi hình dạng của hạt nhân làm mịn là lặp lại để phù hợp với cấu trúc hình ảnh địa phương xung quanh blob, hoặc tương đương một hình ảnh địa phương Patch là vào Warped trong khi hình dạng của hạt nhân làm mịn vẫn còn rotationally đối xứng