Phân đoạn mờ và khôi phục thông tin trong ảnh RGB d

Danh mục các chữ viết tắtAIT2FSC Phân cụm mờ trừ loại hai khoảng cải tiến - Accelerated interval type-2 fuzzy subtractive clusteringAPG Phương pháp xấp xỉ gradient bước dài - Accelerated

Trang 1

Đầu tiên, tôi xin chân thành cảm ơn giáo viên hướng dẫn PGS TS ĐàoThanh Tĩnh người đã tận tình chỉ dẫn về mặt chuyên môn, định hướng ýtưởng nghiên cứu cũng như hỗ trợ tôi về tin thần cũng như công việc đểtôi thực hiện nghiên cứu này.

Tôi cũng rất cảm ơn đến các đồng nghiệp trong bộ môn Hệ thống thôngtin và Khoa công nghệ thông tin Học viện Kỹ thuật quân sự đã động viên,

hỗ trợ tôi trong quá trình thực hiện luận án này Tôi cũng xin cảm ơn đến

TS Tăng Văn Hạ, PGS TS Ngô Thành Long đã cùng cộng tác thực hiệnmột số công trình nghiên cứu cũng như đưa ra những nhận xét và góp ýquý báu để hoàn thiện các nghiên cứu này

Cuối cùng tôi xin cảm ơn gia đình tôi đã đồng hành, hỗ trợ, tạo điềukiện cho tôi thực hiện luận án này

Trang 2

Tôi xin cam đoan rằng trong luận án này không chứa nội dung đã được

sử dụng trong luận án, luận văn của các tác giả khác trong các trường đạihọc và học viện trong nước cũng như quốc tế ngoại trừ các tham khảo Vớinhận thức của mình, tôi xin cam đoan các kết quả đã được trình bày trongluận án của mình chưa được xuất bản bởi các tác giả khác trong nước vàquốc tế

Tác giả luận án

Nguyễn Mậu Uyên

Trang 3

Mục lục

1.1 Ảnh RGB-D và mô hình thu nhận 7

1.2 Phân cụm dữ liệu và phân đoạn ảnh RGB-D 12

1.2.1 Phân cụm trừ mờ 13

1.2.2 Phân đoạn ảnh và phân cụm 21

1.3 Logic mờ loại 2 24

1.3.1 Logic mờ 24

1.3.2 Tập mờ loại 2 và tập mờ loại 2 khoảng 29

1.3.3 Sử dụng logic mờ trong bài toán xử lý ảnh 33

1.4 Phân đoạn ảnh và khôi phục thông tin trong ảnh 35

Chương 2 Phân cụm mờ loại 2 khoảng và xác định đối tượng trên ảnh RGB-D 42 2.1 Logic mờ và phân cụm 43

2.1.1 Phân cụm mờ trừ loại 2 khoảng 44

2.1.2 Phân cụm trừ mờ loại 2 khoảng cải tiến 48

2.2 Trích xuất đối tượng trong ảnh RGB-D 58

2.2.1 Vấn đề trích xuất đối tượng trong ảnh RGB-D 59

2.2.2 Thuật toán trích xuất đối tượng trong ảnh RGB-D 62 2.3 Ứng dụng tính khoảng cách đến các đối tượng 70

Trang 4

Chương 3 Khôi phục thông tin trong ảnh RGB-D 77

3.1 Khôi phục thông tin trong ảnh độ sâu 80

3.1.1 Đặc trưng ảnh độ sâu của camera Kinect 80

3.1.2 Khôi phục ảnh trong miền wavelet 83

3.2 Mô hình mờ khôi phục thông tin 87

3.2.1 Mô hình mờ giải quyết bài toán mất thông tin trong ảnh RGB-D 87

3.2.2 Thuật toán khôi phục ảnh độ sâu dựa trên logic mờ 95 3.2.3 Thử nghiệm mô hình khôi phục thông tin dựa trên logic mờ 98

3.3 Phương pháp gradient bước dài 103

3.3.1 Phương pháp xấp xỉ gradient 104

3.3.2 Phương pháp xấp xỉ gradient bước dài 107

3.3.3 Thử nghiệm thuật toán xấp xỉ gradient bước dài 109

Trang 5

Danh mục các chữ viết tắt

AIT2FSC Phân cụm mờ trừ loại hai khoảng cải tiến

- Accelerated interval type-2 fuzzy subtractive clusteringAPG Phương pháp xấp xỉ gradient bước dài - Accelerated

proximal gradientB3DO Cơ sở dữ liệu đối tượng trường Đại học Berkeley

- Berkeley 3-D Object Dataset

FCM Phân cụm mờ c-Means - Fuzzy c-Means clustering

FCRM Mô hình C-Regression mờ - Fuzzy C-Regression modelFDR Xấp xỉ mờ khôi phục giá trị điểm mất thông tin trong ảnh

độ sâu - Fuzzy depth reconstructionFOU Biên không chắc chắn bậc 2 - Footprint of uncertaintyIT2FSC Phân cụm trừ mờ loại hai khoảng - Interval type-2 fuzzy

subtractive clusteringMSE Sai số toàn phương trung bình - Means square error

ODBC Phát hiện đối tượng dựa trên phân cụm - Object detection

based on clustering

PG Phương pháp xấp xỉ gradient - Proximal gradient

Trang 6

ToF Camera độ sâu dựa trên tia quét - Time of Flight

WashU Đại học Washington - Washington University

Trang 7

Danh mục các bảng

2.1 So sánh tỉ lệ N , ND, Ng trên ảnh độ sâu 55

2.2 So sánh tỉ lệ N , ND, Ng trên ảnh màu 56

2.3 Thống kê số lượng phần tử trên dữ liệu ảnh NYU 57

2.4 Thống kê khoảng cách tính được so với khoảng cách thực tế 73 3.1 Thống kê tỉ lệ mất thông tin trên các ảnh độ sâu 78

3.2 Thống kê độ lệch của các giá trị đã được khôi phục và giá trị đã được gán trên ảnh độ sâu 100

3.3 Thống kê PSNR của ảnh khôi phục và ảnh gốc với mặt nạ ngẫu nhiên (PG-APG) 115

3.4 Thống kê PSNR của ảnh khôi phục và ảnh gốc với mặt nạ thiết lập (PG-APG) 115

3.5 Thống kê số bước lặp trên mặt nạ ngẫu nhiên (PG-APG) 116

3.6 Thống kê số bước lặp trên mặt nạ thiết lập (PG-APG) 117

3.7 Thống kê PSNR của ảnh khôi phục và ảnh gốc với mặt nạ ngẫu nhiên (FDR-APG) 118

3.8 Thống kê PSNR của ảnh khôi phục và ảnh gốc với mặt nạ thiết lập (FDR-APG) 119

3.9 Thống kê chỉ số PSNR cho thuật toán APG 121

3.10 Thống kê chỉ số PSNR cho thuật toán FDR 121

3.11 Thống kê độ chính xác phát hiện đối tượng 124

Trang 8

Danh mục các hình vẽ, đồ thị

1.1 Mô hình camera Kinect 8

1.2 Ảnh thu nhận từ camera Kinect 10

1.3 Hình ảnh độ sâu trước và sau khi khôi phục 12

1.4 Mô hình tập mờ 25

1.5 Biểu diễn phép AND 26

1.6 Biểu diễn phép OR 27

1.7 Tập mờ và phần bù 27

1.8 Mô hình logic mờ 28

1.9 Hàm thuộc tập mờ loại 2 30

1.10 Ảnh độ sâu được thu nhận từ camera Kinect 37

2.1 Ảnh độ sâu và ảnh màu 49

2.2 Lược đồ histogram của ảnh độ sâu 50

2.3 Tọa độ không gian tương ứng với camera Kinect 59

2.4 Mặt phẳng nền của di chuyển 61

2.5 Ảnh trước và sau khi loại bỏ mặt phẳng nền của di chuyển 64

2.6 Ảnh trước và sau khi loại bỏ mặt phẳng nền của di chuyển (NYU) 65

2.7 Ảnh thu nhận trong phòng thí nghiệm 66

2.8 Lược đồ histogram của các ảnh độ sâu trong phòng thí nghiệm 68 2.9 Kết quả loại bỏ mặt phẳng nền của di chuyển 69

2.10 Các cụm trong ảnh độ sâu 70

2.11 Các đối tượng trong ảnh 71

2.12 Các đối tượng được quan tâm 72

Trang 9

2.13 So sánh khoảng cách thật và khoảng cách tính toán trên ảnh 72

3.1 Ảnh độ sâu thu nhận từ camera Kinect 77

3.2 Các trường hợp mất thông tin đặc trưng trong ảnh độ sâu 81

3.3 Hình ảnh nhiễu thu nhận từ camera Kinect 82

3.4 Hệ số wavelet của ảnh độ sâu 87

3.5 Một số loại mất thông tin 90

3.6 Mô hình lân cận 8 91

3.7 Các ảnh thử nghiệm khôi phục thông tin 99

3.8 Kết quả khôi phục độ sâu trên ảnh RGB-D theo cơ sở dữ liệu WashU [70] 101

3.9 Kết quả so sánh chi tiết khôi phục thông tin 102

3.10 Kết quả thử nghiệm khôi phục thông tin 111

3.11 Biểu đồ so sánh tốc độ hội tụ và hệ số PSNR 112

3.12 Biểu đồ so sánh tốc độ cực tiểu hóa hàm chi phí 113

3.13 Các mặt nạ thử nghiệm thuật toán khôi phục thông tin 114

3.14 Các ảnh thử nghiệm khôi phục thông tin với thuật toán APG và FDR 120

3.15 Biểu đồ PSNR thử nghiệm thuật toán APG 122

3.16 Biểu đồ PSNR thử nghiệm thuật toán FDR 122

Trang 10

Mở đầu

Công nghệ tích hợp "khả năng suy nghĩ và thực thi của con người" chomáy móc đã đặt ra nhu cầu trang bị khả năng nhìn cho các thiết bị Kỹthuật xử lý ảnh đã được nhiều nhà khoa học quan tâm nghiên cứu để đápứng nhu cầu này Một số thiết bị chuyên dụng đã được chế tạo để đo đượckhoảng cách từ camera thu nhận đến bề mặt vật thể (độ sâu), kết quả thunhận được là hình ảnh độ sâu Các thiết bị được sử dụng để thu nhận ảnh

độ sâu có thể kể đến là stereo camera, thiết bị camera dựa trên các tia quétToF (Time-of-Flight camera) và các loại khác Trong thời gian gần đây,một số thiết bị camera hồng ngoại thu nhận ảnh độ sâu như Kinect củaMicrosoft, ASUS Xtion Pro, Intel Leap Motion được các nhà nghiên cứuquan tâm khai thác Nhiều nhóm nghiên cứu của các phòng thí nghiệm vàtrường đại học đã xây dựng nhiều cơ sở dữ liệu thông tin hình ảnh RGB-D

để nghiên cứu và thử nghiệm Một số cơ sở dữ liệu tiêu biểu như các cơ sở

dữ liệu hình ảnh của Đại học Rzeszow [68], Đại học New York [106], Đạihọc Washington [70], Đại học Viên (Wein) [76], Đại học California vùngBerkeley [58] và một số khác được mô tả trong các công bố [6], [8], [12],[40] Trong nước cũng có nhiều nhóm nghiên cứu quan tâm đến xử lý ảnhRGB-D như viện MICA - Viện Nghiên cứu quốc tế MICA, với các công bố[55], [92], [96], [113], nhóm nghiên cứu đến từ Đại học Quốc gia Thành phố

Hồ Chí Minh [114] Đặc trưng mới của ảnh RGB-D đặt ra bài toán phânđoạn, xác định đối tượng trong không gian mới Bên cạnh đó, ảnh độ sâu(D) có chứa nhiễu và các điểm mất thông tin (các điểm không thu đượcgiá trị độ sâu) đặt ra nhóm bài toán khử nhiễu và khôi phục giá trị điểmmất thông tin

Trang 11

Do giá thành thấp và khả năng cung cấp ảnh độ sâu bên cạnh ảnh màunên camera có đặc tính tương tự như camera Kinect được nghiên cứu vàứng dụng trong nhiều lĩnh vực khác nhau Các hình ảnh thu nhận được từ

hệ thống camera được sử dụng trong nhiều ứng dụng như hỗ trợ giám sátthông tin cư dân trong công bố [3], giám sát việc ngã của người đột quỵtrong công bố [68], [113] Ảnh RGB-D được sử dụng để tái tạo không gian

và hỗ trợ cho việc định hướng di chuyển của robot trong các nghiên cứu[26], [37], [110], [122] Các nghiên cứu trong [1], [55], [56], [72], [96] đượcứng dụng vào bài toán hỗ trợ người khiếm thị trong cảnh báo vật cản trongquá trình di chuyển Một ứng dụng khác là phân tích hình dạng tay để hỗtrợ trao đổi cho người khuyết tật [30], [92], [97]

Để đảm bảo các ứng dụng trên hoạt động có hiệu quả, các bài toán xử

lý ảnh RGB-D nâng cao chất lượng ảnh độ sâu cho các bước xử lý tiếptheo đã được đặt ra Các nhóm nghiên cứu Sch¨oner H cùng cộng sự trongcông bố [103], Nguyen C V và các đồng tác giả trong công trình [91] vàcác công bố [42], [46], [57], [73], [74], [79], [124] trình bày nhiễu, điểm mấtthông tin trong ảnh độ sâu và các phương pháp để loại bỏ nhiễu và khôiphục giá trị điểm bị mất thông tin

Vấn đề phân đoạn ảnh RGB-D để phục vụ các mục đích nhận dạng đốitượng, xác định vật cản, mô tả các bề mặt cũng được nhiều nhà khoa họcnghiên cứu Phát hiện đối tượng và vật cản trong ảnh độ sâu cũng đượcnghiên cứu và đề cập đến bởi các nhóm Huang H.-C trong công bố [56],viện nghiên cứu MICA trong các nghiên cứu [55], [96] và các công bố [72],[109], [125] Phân đoạn ảnh được sử dụng để hỗ trợ quá trình xác định cácđối tượng, bề mặt đối tượng được đề cập trong các nghiên cứu của các nhómFirman M [41], Zhang S [127], Zhang Y [128] và các nghiên cứu khác [5],

Trang 12

[34], [94] Xây dựng sơ đồ không gian trong bài toán dẫn đường robot được

đề cập đến trong các công bố của các nhóm Tang S [110], Halber M [49]

và các công trình [18], [37], [49], [78], [98] Sử dụng ảnh RGB-D cho bàitoán nhận dạng và xây dựng thông tin vật thể 3 chiều được công bố trong[5], [38], [42]

Quá trình nghiên cứu về ảnh RGB-D thu nhận từ camera Kinect và các

hệ thống camera hồng ngoại có đặc tính tương đương, tác giả nhận thấybài toán phân đoạn ảnh xác định đối tượng trong không gian trong nhà

có nhiều ứng dụng và có ý nghĩa trong thực tiễn cuộc sống Các ứng dụngcủa quá trình phân đoạn xác định đối tượng là hỗ trợ thông tin cho việcđịnh hướng di chuyển của robot, cảnh báo vật cản cho người khiếm thị.Các nghiên cứu hiện tại đã có thành công nhất định, nhưng cần phải cónhững nghiên cứu bổ sung hoàn thiện hơn Vì thế bài toán phân đoạn vàxác định đối tượng trong ảnh RGB-D với môi trường trong nhà đã đượctác giả lựa chọn để thực hiện luận án "Phân đoạn mờ và khôi phụcthông tin trong ảnh RGB-D"

Với bài toán đặt ra, luận án tập trung vấn đề xác định đối tượng trongảnh RGB-D thu nhận từ camera Kinect với môi trường trong nhà Trong

đó có các nội dung được nghiên cứu là: khôi phục thông tin trong ảnh độsâu (D); phân đoạn ảnh RGB-D để xác định đối tượng

Để giải quyết bài toán xác định đối tượng trong ảnh RGB-D hỗ trợthông tin cho việc định hướng di chuyển, luận án đã giới hạn nghiên cứubài toán trên các ảnh RGB-D với môi trường trong nhà có chứa các mặtphẳng nền của di chuyển Từ đó, luận án đã đề xuất loại bỏ mặt phẳngnền của di chuyển sau đó sử dụng thuật toán phân cụm mờ để xác địnhcác cụm dữ liệu từ đó phân đoạn ảnh độ sâu Kết quả phân đoạn được sử

Trang 13

dụng trong quá trình xác định đối tượng Thử nghiệm sơ bộ cho thấy, thuậttoán này đã thỏa mãn việc xác định đối tượng áp dụng trong các trườnghợp hỗ trợ thông tin cho việc di chuyển trong nhà có nền đơn giản Vấn

đề khôi phục thông tin trong ảnh độ sâu cũng được nghiên cứu để nângcao chất lượng ảnh đầu vào cho các bước xử lý tiếp theo trên ảnh RGB-D.Luận án đã khảo sát mô hình nhiễu, mất thông tin của ảnh độ sâu trongảnh RGB-D thu nhận từ camera Kinect, dựa trên kết quả phân tích đã đềxuất sử dụng mô hình logic mờ và phương pháp gradient bước dài để khôiphục thông tin Kết quả thử nghiệm cho thấy ảnh độ sâu sau khi khôi phụcthông tin đưa vào xác định đối tượng cho kết quả xác định có xu hướngtốt hơn với ảnh chưa được khôi phục thông tin

Luận án đã đề xuất thuật toán phát hiện đối tượng trong ảnh độ sâugồm các bước: loại bỏ mặt phẳng nền của di chuyển, phân cụm, phân đoạn

và xác định đối tượng Luận án cũng đã cải tiến thuật toán phân cụm trừ

mờ loại hai khoảng áp dụng cho bài toán phân cụm ảnh độ sâu nhằm giảmkhối lượng tính toán Ngoài ra, trong luận án phân tích các trường hợp mấtthông tin của ảnh độ sâu trong ảnh RGB-D thu nhận từ camera Kinect Từkết quả phân tích, trong luận án đã đề xuất thuật toán xấp xỉ mờ khôi phụcgiá trị điểm mất thông tin trong ảnh độ sâu (Fuzzy depth reconstruction -FDR) Trong trường hợp tỉ lệ mất thông tin lớn do đặc trưng thiết bị vàmôi trường thu nhận, luận án đã đề xuất sử dụng thuật toán gradient bướcdài (Accelerated proximal gradient - APG) để khôi phục giá trị điểm mấtthông tin nhằm tăng tốc độ hội tụ, giảm số lượng bước lặp và tăng chấtlượng khôi phục so với thuật toán xấp xỉ gradient ban đầu

Kết quả nghiên cứu trình bày trong luận án được công bố trong 02 bàibáo tạp chí và 04 bài báo cáo hội thảo được trình bày chi tiết trong các

Trang 14

chương tiếp theo:

Chương 1: Phân đoạn ảnh RGB-D dựa trên phân cụm

Chương này trình bày khảo sát về ảnh RGB-D thu nhận được từ cameraKinect và các kỹ thuật phân cụm, phân cụm mờ Mục cuối của chươngtrình bày về mối liên hệ giữa phân đoạn ảnh và khôi phục thông tin trongảnh độ sâu

Chương 2: Phân cụm mờ loại 2 khoảng và xác định đối tượng trên ảnhRGB-D

Trong chương này trình bày về nghiên cứu áp dụng thuật toán phân cụm trừ

mờ loại hai khoảng - Interval type-2 fuzzy subtractive clustering (IT2FSC)cho bài toán phân cụm, phân đoạn ảnh RGB-D Xét các ảnh RGB-D vớimôi trường trong nhà, nghiên cứu đề xuất kỹ thuật loại bỏ mặt phẳng nềncủa di chuyển và phân đoạn nhằm xác định đối tượng trong ảnh độ sâu.Thuật toán IT2FSC được cải tiến phân cụm trên nhóm điểm ảnh thay vìphân cụm trên các điểm ảnh để giảm bớt khối lượng tính toán

Chương 3: Khôi phục thông tin trong ảnh RGB-D

Nội dung của chương trình bày về mô hình mất thông tin trong ảnh độsâu thu nhận từ camera Kinect Kết quả phân tích mô hình mất thông tinđược sử dụng để đề xuất các độ đo mờ và đề xuất sử dụng logic mờ để tiếnhành khôi phục thông tin trong ảnh độ sâu Bên cạnh đó, phương phápxấp xỉ gradient đã được sử dụng để khôi phục thông tin trong trường hợpảnh độ sâu bị nhiễu do thiết bị thu nhận

Trang 15

Chương 1

Phân đoạn ảnh RGB-D dựa trên phân cụm

Ảnh RGB-D thu nhận từ camera Kinect ban đầu được sử dụng để tươngtác với máy trò chơi của Microsoft [105], nhưng về sau do giá thành rẻ vàchất lượng của hình ảnh độ sâu chấp nhận được cho một số bài toán xử lýảnh [65], nên đã được nhiều nhà khoa học nghiên cứu và đưa vào ứng dụngtrong các lĩnh vực khác nhau Điều đó đã đặt ra một số bài toán xử lý ảnhtrên ảnh RGB-D thu nhận từ camera Kinect của Microsoft Bài toán phânđoạn ảnh được nghiên cứu như là một bước cơ bản trong nhiều bài toán xử

lý ảnh Có nhiều tiếp cận phân đoạn ảnh dựa trên ảnh RGB để xác địnhđối tượng Nhưng phân đoạn ảnh dựa trên màu sắc bị ảnh hưởng của cáchọa tiết trên các đối tượng mà không thể hiện rõ được đối tượng thực tế.Các ảnh độ sâu thể hiện được bề mặt của các đối tượng không phụ thuộcvào màu sắc từ đó cho phép xác định được đối tượng chính xác hơn Nhiềunhóm nghiên cứu trên thế giới đã sử dụng ảnh RGB-D cho bài toán xácđịnh đối tượng Banerjee T trong công bố [3] đã sử dụng kết quả phânđoạn ảnh để xác định hình dáng người phục vụ cho giám sát dân cư, nhómtác giả Gupta S sử dụng kết quả phân đoạn ảnh để nhận dạng đối tượngtrong công bố [48] Đặc trưng ảnh độ sâu thu nhận từ camera Kinect chứanhiễu và điểm mất thông tin - điểm không có thông tin độ sâu (Zhang Y.trong công bố [128] chỉ ra trong một số điều kiện tỉ lệ mất thông tin lênđến 50%), bài toán khôi phục thông tin trong ảnh độ sâu được đề cập vànghiên cứu trong các công bố [9], [20], [91], [128] Có nhiều nguyên nhândẫn đến mất thông tin trong ảnh độ sâu, mối liên hệ giữa thông tin bị mất

Trang 16

trong ảnh và các thông tin đã thu nhận được (phần có thông tin trong ảnh)

là không rõ ràng, vì vậy tập mờ và logic mờ được đề xuất để mô hình chotính không rõ ràng đó [4] Trong chương này sẽ trình bày đặc trưng củaảnh RGB-D thu nhận được từ camera Kinect, kiến thức phân đoạn, tập

mờ, logic mờ và vấn đề khôi phục thông tin trong ảnh độ sâu

bố trong [126], điểm yếu của phương pháp này là khó khôi phục được độsâu khi các ảnh thu nhận được có ít đặc trưng để khớp nối, trong khi môitrường có quá nhiều đặc trưng thì việc phân tích và khớp nối mất nhiềuthời gian Vì vậy, mô hình stereo camera chỉ phù hợp với một số môi trường

và hoạt cảnh nhất định

Trang 17

Một tiếp cận khác trong việc thu nhận thông tin về độ sâu là sử dụngtia quét, các tia như tia laser, tia hồng ngoại, các loại sóng như siêu âm,các phương pháp đo khoảng cách này được công bố trong các công trình[45], [52] Trong đó camera sử dụng tia quét bằng laser có độ chính xác caonhưng giá thành đắt được sử dụng nhiều trong các ứng dụng chuyên biệt.Tiếp cận có giá thành rẻ hơn là sử dụng tia hồng ngoại trong xây dựnghình ảnh độ sâu, các nhà sản xuất đã cung cấp các dòng camera RGB-DMicrosoft Kinect, ASUS Xtion Pro, Intel Leap Motion Với nhà sản xuất vàphiên bản khác nhau, các camera có thể cung cấp hình ảnh RGB-D có độphân giải khác nhau theo các cấu hình và lựa chọn của người dùng Nhưngcác camera này đều sử dụng chung cơ chế thu nhận hình ảnh độ sâu là tiahồng ngoại nên các đặc trưng hình ảnh thu nhận được là tương tự nhau.Trong phạm vi luận án với các cơ sở dữ liệu được sử dụng thử nghiệm đượcthu nhận từ camera Microsoft Kinect, trong mục này, luận án mô tả chitiết về mô hình của camera Kinect.

Camera Kinect của Microsoft sử dụng các tia hồng ngoại để xác định

độ sâu Trong hình 1.1 thể hiện mô hình một camera Kinect, trong đó (IP)

là nguồn phát tia hồng ngoại, (IR) camera thu nhận hồng ngoại, (RGB) làcamera thu nhận ảnh màu [12]

Hình 1.1: Mô hình camera Kinect

Trang 18

Thông tin thu nhận từ camera Kinect bao gồm một ảnh màu 32 bit vàmột ảnh độ sâu 16 bit, với độ phân giải khác nhau nhưng thường được sửdụng là 480 × 640 điểm ảnh Giá trị độ sâu tại mỗi điểm ảnh được lưu trữbằng 16 bit nguyên, mỗi đơn vị trong ảnh tương ứng với khoảng cách 1mmnhư hình 1.2, có giới hạn từ 0 đến 4000 hoặc 0 đến 15000 tùy theo cấu hìnhcủa camera [69], [108] Hình 1.2 thể hiện một số hình ảnh thu nhận được

từ camera Kinect, trong đó hình 1.2a, 1.2c và 1.2e là kết quả hình ảnh thunhận được từ camera màu, hình 1.2b, 1.2d và 1.2f là kết quả hình ảnh thunhận được từ camera độ sâu

Nhóm nghiên cứu Khoshelham K [65] đã khảo sát và cho thấy rằng

dữ liệu từ thông tin độ sâu của camera Kinect có độ chính xác gần tươngđương với dữ liệu từ máy chuyên dụng sử dụng tia laser Trong luận án này

sẽ giới hạn các bài toán xử lý ảnh trên ảnh RGB-D thu nhận từ cameraKinect của Microsoft và các camera có đặc tính tương tự

Việc kết hợp thêm thông tin độ sâu giúp cho bài toán xác định đốitượng trong các môi trường trở nên dễ dàng và chính xác hơn Nhiều ứngdụng khai thác đặc điểm này của ảnh RGB-D như việc giám sát dân cư [3]

Để kiểm soát chăm sóc người già hoặc bị bệnh, hệ thống phát hiện ngườingã bằng hình ảnh RGB-D thu nhận được từ camera Kinect cũng được sửdụng [68], [113] Bài toán xác định hành vi tay hỗ trợ ngôn ngữ giao tiếpcho người khiếm thanh có sự phát triển vượt bậc khi khai thác thêm thôngtin ảnh độ sâu [30], [92], [97] Một ứng dụng rất quan trọng khác của thôngtin hình ảnh RGB-D là hỗ trợ cảnh báo vật cản trong quá trình di chuyểncho người khiếm thị như mô tả trong các công bố [1], [55], [56], [72], [96]

Mô hình đường đi hỗ trợ định hướng cho robot cũng được trình bày trongcác công trình [25], [37], [56], [110] Các bài toán xác định đối tượng và biên

Trang 19

(a) Ảnh màu từ cơ sở dữ liệu WashU [70] (b) Ảnh độ sâu từ cơ sở dữ liệu WashU [70]

(c) Ảnh màu từ cơ sở dữ liệu [68] (d) Ảnh độ sâu từ cơ sở dữ liệu [68]

(e) Ảnh màu trong phòng thí nghiệm (f) Ảnh độ sâu trong phòng thí nghiệm

Hình 1.2: Ảnh thu nhận từ camera Kinect

Trang 20

đối tượng cũng được chứng minh có kết quả tốt hơn khi kết hợp thông tin

về độ sâu [54], [109], [125] và [71]

Nhiều ứng dụng khai thác ảnh RGB-D từ camera Kinect và các camerahồng ngoại có đặc tính tương tự đã đặt ra cho các nhà khoa học một số bàitoán liên quan đến xử lý ảnh RGB-D Bài toán phân đoạn ảnh trong ngữcảnh RGB-D đã được đặt ra và nhiều nhà khoa học quan tâm giải quyết.Các công bố của Huang H.-C và cộng sự [56], Song S [109], viện nghiêncứu MICA [55], [96] và các công bố [72], [125] thể hiện sự quan tâm đến bàitoán phân đoạn và phát hiện đối tượng trong ảnh độ sâu Xác định bề mặtđối tượng trong ảnh RGB-D đã được đề cập đến trong các nghiên cứu củaRusu R B [102], Berger M [9], Zhang Y [128] và các nghiên cứu khác [5],[34], [127], [129] Bài toán dẫn đường và điều khiển robot được nghiên cứutrong Tang S [110], Halber M [49] và các công bố [18], [37], [78] Do đặcđiểm chứa nhiễu và điểm mất thông tin trong ảnh độ sâu của ảnh RGB-D(các điểm có mức xám bằng 0) như trong hình 1.3a, nhiều nhóm nghiêncứu đã đề xuất phương án để khôi phục thông tin bị mất như hình 1.3b đểnâng cao chất lượng ảnh độ sâu phục vụ các bước tính toán tiếp theo Cáccông bố gần đây như Sch¨oner H [103], Huhle B [57], Nguyen C V [91] vàcác nhóm [42], [46], [73], [74], [79], [124] đã đề cập đến vấn đề này

Trang 21

(a) Ảnh độ sâu - các điểm màu đen là

mất thông tin.

(b) Ảnh độ sâu sau khi khôi phục.

Hình 1.3: Hình ảnh độ sâu trước và sau khi khôi phục

Các phòng thí nghiệm của nhiều trường đại học đã xây dựng nhiều cơ

sở dữ liệu ảnh RGB-D để phục vụ mục đích nghiên cứu và đã được đề cậpđến trong các công bố [6], [8], [12] Cơ sở dữ liệu để nghiên cứu phát hiệnngười bị ngã được mô tả trong công bố [68], các hình ảnh của khung cảnhhàng ngày với môi trường trong nhà được giới thiệu trong [106], cơ sở dữliệu về đối tượng và các hình ảnh chứa đối tượng để nghiên cứu nhận dạngđối tượng được giới thiệu trong [70]

1.2 Phân cụm dữ liệu và phân đoạn ảnh RGB-D

Phân đoạn dữ liệu ảnh là quá trình phân chia ảnh thành các vùng khácnhau, thể hiện các thông tin khác nhau trong ảnh Ví dụ trong bài toánphân đoạn ảnh độ sâu, các vùng đã được phân chia trong ảnh được xemxét ghép nối để tạo thành những phần mô tả cho các đối tượng từ đó cóthể xác định đối tượng trong ảnh Có nhiều kỹ thuật khác nhau trong phânđoạn ảnh Các kỹ thuật phân đoạn được đề cập như phân ngưỡng [3], sửdụng vùng và mở rộng vùng [114], xác định biên của vùng [125], sử dụngmạng nơ-ron (neural) [118] và các kỹ thuật khác [84] Phân cụm dữ liệu cóthể được sử dụng đề làm tiền đề cho quá trình phân đoạn

Trang 22

1.2.1 Phân cụm trừ mờ

Phân cụm là quá trình phân chia dữ liệu thành các tập con khác nhaucòn được gọi là các cụm dựa trên các tính chất của dữ liệu Bài toán phâncụm được xem như là một thành phần cơ bản trong phân tích dữ liệu, nóđược tiếp cận bởi nhiều phương pháp khác nhau bởi nhiều nhà khoa họctrên thế giới Một trong tiếp cận được đề xuất là phân cụm K-means, dựatrên gán các giá trị tâm cụm ngẫu nhiên và tính toán để phân cụm cực tiểuhàm mục tiêu:

trong đó Si(t), vi(t) là các cụm, tâm cụm tại bước lặp thứ t

Thuật toán kết thúc khi các tâm cụm không thay đổi sau các bước lặp

không thay đổi theo biểu thức (1.2) lúc đó hàm mục tiêu trong (1.1) đạtgiá trị cực tiểu Thuật toán phân cụm K-means được trình bày:

Trang 23

Thuật toán 1.1 Phân cụm K-means.

Đầu vào: Tập X các giá trị cần được phân cụm, c số tâm cụm dự kiến.Đầu ra: Tập các tâm cụm C

Bước 1: Khởi tạo c tâm cụm ngẫu nhiên V(1) = [vi(1)], i = 1, , c, t = 1.Bước 2: Tính toán các cụm tại bước thứ t là Si(t) theo công thức xác địnhcác cụm (1.2)

Bước 3: Tính các tâm cụm tại bước thứ t + 1 là V(t+1) = [vi(t+1)], i = 1, , ctheo công thức tính tâm cụm (1.3)

Bước 4: So sánh phương án tại hai bước lặp V(t) = V(t+1) tiếp tục bước 5,nếu không t = t + 1, tiếp tục đến bước 2

Bước 5: C=V(t+1)

Từ ý tưởng phân cụm của K-means kết hợp với khái niệm tập mờ để

mô tả các giá trị thuộc tập xác định {0,1}, fuzzy c-means (FCM) đã được

đề xuất bởi Bezdek J C và các cộng sự trong [10] Mở rộng hàm mục tiêu(1.1) thành:

trong đó: xk ∈ X là giá trị cần phân cụm, m tham số mũ thể hiện trọng

số ảnh hưởng của uik lên khoảng cách giữa các điểm dữ liệu và tâm cụm(1 ≤ m < ∞) Ký hiệu d2ik là bình phương khoảng cách giữa điểm xk đếntâm cụm vi, được tính bằng:

Trang 24

Tính giá trị độ thuộc của phần tử k vào tâm cụm i:

Thuật toán 1.2 Phân cụm FCM

Đầu vào: Tập X các giá trị cần được phân cụm, c số tâm cụm dự kiến.Đầu ra: Tập các tâm cụm C

Bước 1: Lựa chọn các giá trị m, ε là ngưỡng dừng thuật toán Khởi tạo ctâm cụm ngẫu nhiên V = [vi(0)], i = 1, , c, các giá trị U(0) =

h

u(0)ik

itheocông thức tính độ liên thuộc (1.6)

Bước 2: Tính toán các tâm cụm tối ưu tại bước thứ t là V = [vi(t)∗], i =

, trong đó u(t+1)∗ik theo công thức tính độ thuộc (1.6)

Bước 4: So sánh phương án tại hai bước lặp k U(t)− U(t+1) k≤ ε tiếp tụcbước 5, nếu không thì gán giá trị U(t+1) cho U(t) tiếp tục đến bước 2

Bước 5: C=V

Trang 25

Trong đó các giá trị: c thể hiện số tâm cụm trong bộ dữ liệu đầu vào X,

m thể hiện độ mờ của hàm thuộc, trong trường hợp m = 1 là trường hợp

rõ, ε là biên độ xác định ngưỡng dừng của thuật toán Thuật toán FCMsau khi kết thúc xác định được các tâm cụm C = [ci], i = [1, c] thỏa mãnđược điều kiện giá trị cực tiểu của hàm mục tiêu (1.4) Điểm yếu của thuậttoán là số bước lặp để đạt tối ưu phụ thuộc vào việc lựa chọn ngẫu nhiêncác tâm cụm ban đầu, trong một số trường hợp xấu, vòng lặp không kếtthúc vì thế trong thực tiễn triển khai thuật toán sẽ xác định một số bướclặp hữu hạn, nếu vượt quá số bước lặp thuật toán sẽ dừng Ngoài ra, thuậttoán phải xác định đầu vào là số lượng tâm cụm, trong triển khai thuậttoán nhiều bài toán khó khăn xác định được số lượng tâm cụm dự kiến phùhợp Vì thế, một số thuật toán đã được nghiên cứu để xác định được sốtâm cụm và khởi tạo tâm cụm ban đầu cho thuật toán FCM

Phân cụm Mountain clustering là thuật toán xác định các tâm cụmtiềm năng dựa trên xác định mật độ dữ liệu và sự ảnh hưởng của việc lựachọn tâm cụm dự kiến đến mật độ các điểm khác được gọi là Mountainfunction được mô tả trong [117] Đây là phương pháp đơn giản để xấp xỉtâm cụm dữ liệu, thuật toán này cũng có thể sử dụng như một giai đoạnđầu của các thuật toán phân cụm khác (ví dụ giai đoạn khởi tạo tâm cụmcho FCM)

Bước đầu tiên là xây dựng một lưới trên miền giá trị - tập các giá trị

có thể có của dữ liệu, mỗi điểm mắt lưới có thể xem như là các điểm tươngứng với các gợi ý về tâm cụm trong các bước tiếp theo, định nghĩa tập này

là V Bước tiếp theo là tính toán mật độ của các điểm gợi ý tâm cụm trênlưới dựa trên hàm Mountain function Giá trị mật độ mỗi điểm v ∈ V là

Trang 26

trong đó xi là giá trị của điểm thứ i trong tập các giá trị cần phân cụm X,

N là số phần tử dữ liệu Hằng số σ thể hiện được mức độ mượt của hàmMountain function Mật độ về dữ liệu Pv tại điểm v chịu ảnh hưởng củatất cả các điểm xi trong tập dữ liệu và dựa trên khoảng cách của nó đếnđiểm v

Tập C là tập tâm cụm đã được lựa chọn, khởi tạo tập C = ∅ Tại bướclặp thứ k, sau khi điểm ck được chọn làm tâm cụm (C = C ∪ {ck}) thì mật

độ tại các điểm v ∈ V chưa được chọn ở bước thứ k + 1 chịu ảnh hưởngcủa việc chọn tâm cụm ck bằng hàm Mountain function thể hiện qua côngthức:

Trang 27

Thuật toán 1.3 Phân cụm Mountain clustering.

Đầu vào: Tập X tập dữ liệu cần được phân cụm

Đầu ra: Tập các tâm cụm C

Bước 1: Khởi tạo ngưỡng δ, σ độ mượt của hàm Mountain function, βmức độ ảnh hưởng việc chọn tâm cụm Tính toán mật độ tại các điểm

v ∈ V tại bước 1, Pv(1) bằng công thức tính mật độ (1.8) Khởi tạo các tâmcụm dự kiến C = ∅

Bước 2: Tại bước lặp thứ k, lựa chọn điểm v∗ có mật độ lớn nhất hiện tại

Bước 4: Thêm phần tử được chọn vào tập tâm cụm dự kiến C = C ∪ {ck}.Giảm mật độ tại các điểm v ∈ V \ C ở cho bước k + 1, Pv(k+1) thể hiện sựảnh hưởng chọn tâm cụm ck bằng công thức (1.9)

Bước 5: Trả về C

Tham số δ thể hiện tỉ lệ lựa chọn tùy theo tham số này sẽ quyết định

số lượng cụm, thường được chọn trong khoảng [0.3, 0.7], σ độ mượt củahàm Mountain function thường được chọn bé hơn 0.01, β được chọn giátrị lớn hơn δ Thuật toán Mountain clustering đã giải quyết được vấn đềđặt ra trong thuật toán toán phân cụm FCM là số tâm cụm ban đầu cầnđược xác định trước Thuật toán có thể sử dụng tâm cụm được tính toán

để xác định các cụm trực tiếp, có thể sử dụng thông tin về tâm cụm nàynhư tham số cho thuật toán phân cụm khác, ví dụ như phân cụm FCM.Thuật toán Mountain clustering dựa trên việc tính toán mật độ của dữliệu tại mỗi đỉnh của lưới trên miền giá trị, trong trường hợp chọn độ rộngcủa các mắt lưới là một, thì số đỉnh lưới chính là số phần tử trong miền giá

Trang 28

trị Thuật toán phân cụm trừ - Subtractive clustering, đã được đề xuất đểgiải quyết vấn đề này, thay vì tính trên các đỉnh lưới trong miền giá trị cácđiểm cần tính sẽ được thể hiện trên các điểm dữ liệu [59], [60] và [66] Nhưvậy phần tử cần tính toán của bài toán sẽ được thực hiện trên số lượngphần tử dữ liệu thay vì miền giá trị Thực tế thì tâm cụm không bắt buộc

là một điểm trên dữ liệu nhưng việc xác định trên dữ liệu cũng đưa lại mộtkết quả chấp nhận được và giảm được không gian tính toán của bài toán.Như vậy các điểm dữ liệu được đề xuất cho các tâm cụm vì thế các mật độ

dữ liệu tại điểm xi được xác định:

trong đó ra là hằng số dương thể hiện khoảng cách đến lân cận Như vậymột điểm dữ liệu có giá trị mật độ lớn nếu điểm đó có nhiều điểm dữ liệulân cận

Tâm cụm đầu tiên c1 được chọn tại điểm có giá trị mật độ lớn nhất Pc1.Nếu tâm cụm thứ k là ck đã được chọn thì các mật độ dữ liệu các điểmkhác ở bước k + 1 sẽ chịu sự ảnh hưởng (giảm) theo điểm lựa chọn nàybằng công thức:

Px(k+1)i = Px(k)i − Pcke−

kxi−ckk2( rb

trong đó rb là hằng số dương thể hiện tốc độ giảm mật độ các điểm còn lạitheo điểm lựa chọn hiện tại Những điểm có khoảng cách gần với tâm cụm

ck được chọn sẽ bị giảm lớn hơn những điểm có khoảng cách xa

Quá trình lựa chọn và cập nhật này được thực hiện lặp lại đến lúc khôngcòn điểm nào có mật độ lớn hơn một ngưỡng xác định trước Thuật toán

Trang 29

1.4 mô tả chi tiết gợi ý tâm cụm theo tiếp cận phân cụm trừ.

Thuật toán 1.4 Phân cụm trừ - Subtrative clustering

Đầu vào: Tập X tập dữ liệu cần được phân cụm

Đầu ra: Tập các tâm cụm C

Bước 1: Khởi tạo các hệ số ra, rb, ε, ε của thuật toán C = ∅

Bước 2: Tính toán mật độ dữ liệu cho các điểm dữ liệu tại bước 1 bằngcông thức (1.10) Điểm dữ liệu có mật độ lớn nhất sẽ được lựa chọn là tâmcụm đầu tiên: Pc(1)1 = maxn

i=1 Px(1)i với Pc1 là mật độ của tâm cụm đầu tiên, đặt

k = 1

Bước 3: Thêm tâm cụm C = C ∪ {ck} Mật độ của tất cả các điểm dữ liệucòn lại được cập nhật thông qua công thức (1.11) Thực hiện k = k + 1.Bước 4: Tìm điểm xi ∗ có mật độ lớn nhất chưa được chọn Px(k)i∗ =max

Pc1 ≥ 1 thì ck = xi∗ là tâm cụm và chuyển đến bước 3

ngược lại Px(k)i∗ = 0, chuyển đến bước 4

Bước 5: Trả về các tâm cụm đã được lựa chọn

Trong thuật toán ký hiệu ra là khoảng cách đến lân cận, rb là bán kínhảnh hưởng đến giá trị lân cận, ε là hệ số phân ngưỡng trên được lựa chọn

và ε là hệ số phân ngưỡng dưới từ chối Các giá trị ra, rb, ε, ε thường đượcchọn các giá trị bé ví dụ ra = 0.04, rb = 0.06, ε = 0.5, ε = 0.01

Trang 30

1.2.2 Phân đoạn ảnh và phân cụm

Phân đoạn ảnh phân chia ảnh thành các khu vực khác nhau trong đó

dữ liệu trong mỗi vùng được đánh giá là tương đồng với nhau Thông tincác vùng hỗ trợ cho các quá trình xử lý tiếp theo tùy theo mục tiêu khácnhau Những bài toán thường hay gặp là phân chia dữ liệu, xác định đốitượng,

Kết quả phân đoạn ảnh đã được sử dụng trong các bài toán khác nhaunhư: trong [107], Silberman N và các cộng sự đã sử dụng phương phápphân đoạn ảnh độ sâu kết hợp các thông tin ảnh màu để xác định đốitượng trong ảnh RGB-D Các tác giả Herbst E đã đề cập đến vấn đề phânđoạn và sử dụng thông tin về đối tượng được phân đoạn để điều khiểnrobot trong [53]

Các kỹ thuật phân đoạn ảnh thường dựa trên hai nhóm chính là pháthiện biên để xác định vùng như nhóm của Ali M A [2] Từ các biên xácđịnh không gian ảnh sẽ được chia thành nhiều vùng khác nhau Một nhóm

kỹ thuật khác về phân đoạn dữ liệu ảnh là tìm sự tương đồng của dữ liệutrong các vùng từ đó xác định vùng Việc xác định tương đồng của cácvùng được áp dụng rất khác nhau tùy theo mô hình độ đo tính tương đồngcủa các nhóm nghiên cứu khác nhau và trên những nhóm dữ liệu khácnhau Các tác giả Tobias O J đã sử dụng phương pháp phân ngưỡng mờ

để phân đoạn dữ liệu dựa trên tương đồng màu sắc trong [112] Kim S C.trong công bố [67] sử dụng thông tin texture để phân đoạn Nhóm nghiêncứu Ruhnke M sử dụng mô tả ảnh bằng dữ liệu thưa để xác định phânđoạn ảnh [101]

Phân cụm dữ liệu là quá trình phân chia dữ liệu thành các nhóm khácnhau phụ thuộc vào tính tương đồng của các dữ liệu Kết quả của quá trình

Trang 31

phân cụm cho phép đánh giá được dữ liệu thuộc vào các nhóm từ đó tạotiền đề cho việc kết luận trên dữ liệu khác nhau Các kỹ thuật phân cụmđược xác định dựa trên tính tương đồng của các dữ liệu để tạo thành nhóm,các nhóm nghiên cứu khác nhau đã đưa ra những phương pháp khác nhau

và độ đo khác nhau về tính tương đồng Trong không gian dữ liệu ảnh sựtương đồng dữ liệu có thể là giá trị các điểm ảnh (màu sắc, độ sâu), tọa độđiểm ảnh Một cách nhìn khác, tính tương đồng có thể được xem xét trongmột không gian đã được biến đổi khác, ví dụ sử dụng mô tả dữ liệu thưatrong nghiên cứu [35] Trong [84], Himanshu đã đề xuất sử dụng phân cụm

mờ sau đó tiến hành ghép nối các điểm trong các phân cụm thành vùng.Phân cụm dữ liệu được sử dụng cho nhiều mục tiêu khác nhau như lànhận dạng đối tượng, phân đoạn dữ liệu [11] và [21], phân lớp thông tin[89] Trong phạm vi luận án này tác giả đã nghiên cứu các kỹ thuật phâncụm mờ trên ảnh từ đó tạo tiền đề cho bài toán phân đoạn ảnh Phân đoạnảnh phân chia ảnh thành các khu vực khác nhau trong đó dữ liệu trongmỗi vùng được đánh giá là tương đồng với nhau Thông tin các vùng hỗtrợ cho các quá trình xử lý tiếp theo tùy theo mục tiêu khác nhau Nhữngbài toán thường hay gặp là phân chia dữ liệu, xác định đối tượng, Kết quả phân đoạn ảnh đã được sử dụng trong các bài toán khác nhaunhư: trong [107], Silberman N và các cộng sự đã sử dụng phương phápphân đoạn ảnh độ sâu kết hợp các thông tin ảnh màu để xác định đốitượng trong ảnh RGB-D Các tác giả Herbst E đã đề cập đến vấn đề phânđoạn và sử dụng thông tin về đối tượng được phân đoạn để điều khiểnrobot trong [53]

Các kỹ thuật phân đoạn ảnh thường dựa trên hai nhóm chính là pháthiện biên để xác định vùng như nhóm của Ali M A [2] Từ các biên xác

Trang 32

định không gian ảnh sẽ được chia thành nhiều vùng khác nhau Một nhóm

kỹ thuật khác về phân đoạn dữ liệu ảnh là tìm sự tương đồng của dữ liệutrong các vùng từ đó xác định vùng Việc xác định tương đồng của cácvùng được áp dụng rất khác nhau tùy theo mô hình độ đo tính tương đồngcủa các nhóm nghiên cứu khác nhau và trên những nhóm dữ liệu khácnhau Các tác giả Tobias O J đã sử dụng phương pháp phân ngưỡng mờ

để phân đoạn dữ liệu dựa trên tương đồng màu sắc trong [112] Kim S C.trong công bố [67] sử dụng thông tin texture để phân đoạn Nhóm nghiêncứu Ruhnke M sử dụng mô tả ảnh bằng dữ liệu thưa để xác định phânđoạn ảnh [101]

Phân cụm dữ liệu là quá trình phân chia dữ liệu thành các nhóm khácnhau phụ thuộc vào tính tương đồng của các dữ liệu Kết quả của quá trìnhphân cụm cho phép đánh giá được dữ liệu thuộc vào các nhóm từ đó tạotiền đề cho việc kết luận trên dữ liệu khác nhau Các kỹ thuật phân cụmđược xác định dựa trên tính tương đồng của các dữ liệu để tạo thành nhóm,các nhóm nghiên cứu khác nhau đã đưa ra những phương pháp khác nhau

và độ đo khác nhau về tính tương đồng Trong không gian dữ liệu ảnh sựtương đồng dữ liệu có thể là giá trị các điểm ảnh (màu sắc, độ sâu), tọa độđiểm ảnh Một cách nhìn khác, tính tương đồng có thể được xem xét trongmột không gian đã được biến đổi khác, ví dụ sử dụng mô tả dữ liệu thưatrong nghiên cứu [35] Trong [84], Himanshu đã đề xuất sử dụng phân cụm

mờ sau đó tiến hành ghép nối các điểm trong các phân cụm thành vùng.Phân cụm dữ liệu được sử dụng cho nhiều mục tiêu khác nhau như lànhận dạng đối tượng, phân đoạn dữ liệu [11] và [21], phân lớp thông tin[89] Trong phạm vi luận án này tác giả đã nghiên cứu các kỹ thuật phâncụm mờ trên ảnh từ đó tạo tiền đề cho bài toán phân đoạn ảnh

Trang 33

1.3 Logic mờ loại 2

Tập mờ và logic mờ được đề xuất bởi Zadeh L [119] và được mở rộnglên tập mờ loại 2 [80] và [120] đã được chứng minh là phù hợp cho các bàitoán không chắc chắn trong xử lý ảnh Theo thống kê của Castillo O [14]cho thấy nhiều lĩnh vực và nhiều nhà khoa học sử dụng logic mờ cho bàitoán của mình Với mục tiêu tăng tốc độ tính toán cho các tập mờ loại hai,tập mờ loại hai khoảng đã được đề xuất trong các nghiên cứu [75], [83].Castro J R và các cộng sự [15] đã nghiên cứu đưa ra mô hình tham sốtrong trường hợp tập mờ lại hai tổng quát Chi tiết về thông tin logic mờđược trình bày trong các phần tiếp theo

1.3.1 Logic mờ

Tập mờ (tập mờ loại 1) được đề xuất bởi Zadeh L [119] để mở rộnghàm thuộc của một phần tử vào một tập hợp, thay vì các giá trị {0,1}thành một giá trị thuộc [0,1] cho phép mô tả mối liên hệ giữa một phần tử

và một tập hợp tốt hơn

Logic mờ (logic mờ loại 1) là logic được tính toán trên các giá trị mờ([0,1]) thay vì các giá trị rõ ({0,1}) Sự kết hợp giữa các luật IF T HENtrên các tập mờ dùng để mô tả sự phụ thuộc phi tuyến giữa đầu vào vàđầu ra

Định nghĩa 1: Cho X là một không gian dữ liệu, khi đó một tập mờ Atrong X là một tập các cặp có thứ tự

trong đó µA(x) là hàm thuộc (membership function) của x trong A Dấugạch chéo "/" dùng để phân tách giữa giá trị thực của x và giá trị hàm

Trang 34

thuộc của nó µA(x), và µA(x) có thể nhận một giá trị trong khoảng [0,1],

µA(x) ∈ [0, 1] Nếu hàm thuộc của A là rời rạc được biểu diễn như côngthức (1.13), trong trường hợp là liên tục thì được biểu diễn như công thức(1.14) trong đó "+", "P" hoặc R

X

- Chuẩn hóa (normality):

Một tập mờ được gọi là chuẩn hóa nếu giá trị lớn nhất của hàm thuộcbằng 1,

trong đó ∨x∈A ký hiệu cho giá trị lớn nhất của µ(x) Trường hợp ngược lạithì tập mờ được gọi là không chuẩn hóa

Hình 1.4: Mô hình tập mờ: (a) Tập mờ chuẩn hóa và (b) không chuẩn hóa

Hình 1.4 thể hiện hai dạng của tập mờ chuẩn hóa và không chuẩn hóatrong đó trục (y) thể hiện giá trị hàm thuộc

Các phép toán trên tập mờ trình bày tiếp theo dựa trên những kết quả

Trang 35

đưa ra bởi Zadeh L [119], [121].

a Phép AND

Phép AND (hay phép giao - fuzzy intersection) thể hiện trong hình 1.5 củahai tập mờ A và B trong đó trục y thể hiện giá trị hàm thuộc, phần đậmthể hiện kết quả của phép AND

Hình 1.5: Biểu diễn phép AND

Ký hiệu "A AND B", kêt quả lấy những giá trị nhỏ nhất của hai hàmthuộc Biểu diễn phép AND dạng công thức ta có

Trang 36

Hình 1.6: Biểu diễn phép OR.

c Phép NOT

Hình 1.7: Tập mờ và phần bù

Phép NOT (hay phép bù - fuzzy complement) thể hiện trong hình 1.7(trục y thể hiện giá trị hàm thuộc) của một tập A, biểu diễn phép NOTdạng công thức ta có

Trang 37

nghĩa như sau:

µT(x) = ω1µA1(x) + ω2µA2(x) + + ωnµAn, (1.19)

trong đó ω1, ω2, , ωn là trọng số tương ứng cho các tập mờ A1, A2, , Ansao cho

với dấu "+" trong (1.19 và 1.20) là phép cộng số học

Nhìn chung, một hệ thống logic mờ là hệ thống ánh xạ phi tuyến từvector dữ liệu đầu vào với đầu ra đã được Zadeh L đề cập trong [121] vàMendel J M mô tả chi tiết trong [81] Sự đa dạng của các logic mờ dẫnđến có nhiều khả năng để thể hiện được các mô hình ánh xạ

Hình 1.8: Mô hình logic mờ

- Tập luật (rules): thường được đưa ra bởi các chuyên gia, có thể đượctrích rút từ tập dữ liệu, nó thường được thể hiện dưới dạng các mệnh đềIF T HEN Ví dụ: IF nhiệt độ là ấm và độ ẩm thấp T HEN di chuyểnsang phải Trong đó có các biến là ngôn ngữ như ấm, thấp nó không là mộtgiá trị cụ thể

- Mờ hóa (fuzzifier): ánh xạ từ giá trị rõ đầu vào tương ứng với các giá trịmờ

Trang 38

- Suy luận (inference): Là ánh xạ từ các tập mờ đầu vào đến các tập mờđầu ra.

- Giải mờ (defuzzifier): Vì đầu ra hệ thống là tập rõ nên cần có thao tácchuyển những giá trị mờ đầu ra thành giá trị rõ

1.3.2 Tập mờ loại 2 và tập mờ loại 2 khoảng

Tập mờ loại 2 dựa trên sự phân tích về việc xây dựng hàm thuộc bậc 1không tương đồng giữa các chuyên gia vì thế bản thân việc đánh giá độ đo

mờ không là chính xác là một giá trị Để mô tả vấn đề đó logic mờ loại 2

đã được đề xuất [80], [82], [120]

Tri thức dùng để xây dựng luật trong logic mờ loại 1 là không chắcchắn Ba tình huống mà các luật không chắc chắn có thể xảy ra là: (1)những từ chúng ta dùng để mô tả các luật có thể được hiểu khác nhau giữacác chuyên gia; (2) luật đưa ra bởi các nhóm chuyên gia khác nhau có thểkhác nhau; và (3) dữ liệu huấn luyện là có nhiễu Logic mờ loại 1, trong đóhàm thuộc có dạng mờ loại 1, có thể chuyển trực tiếp qua các luật khôngchắc chắn Trong mục này, vì thế, quan tâm đến một lớp mới của logic mờ

- logic mờ loại 2 - trong đó hàm thuộc có dạng là tập mờ loại 2, nghĩa là giátrị của hàm thuộc bản thân nó là tập mờ loại 1 Tập mờ loại 2 là rất hữudụng trong các tình huống ở đó khó xác định được chính xác hàm thuộc ởdạng tập mờ loại 1

Khái niệm về tập mờ loại 2 đã được Zadeh L giới thiệu trong [120] vàMendel J M giới thiệu trong [80] như là một sự mở rộng của của tập mờloại 1 Một tập mờ loại 2 được đặc trưng bởi một hàm thuộc mờ mà độthuộc của mỗi phần tử của tập này là một tập mờ loại 1 trong đoạn [0,1],khác với tập mờ loại 1 các giá trị này là một giá trị cụ thể nằm trong đoạn[0,1] Vấn đề này được nghiên cứu bởi Mizumoto, M và cộng sự [85], [86]

Trang 39

và Karnik N N và đồng nghiệp [61], [62], [63].

Để phân biệt với mờ loại 1, trong mục này sẽ quy ước về cách gọi vàthuật ngữ về những vấn đề liên quan Một tập mờ loại 2 trên không gian Xđược ký hiệu là ˜A, và độ thuộc của x ∈ X trong ˜A là µA˜(x), hàm thuộc này

là một tập mờ loại 1 trong đoạn [0,1] Các phần tử trong miền giá trị củahàm thuộc µA˜(x) được gọi là độ thuộc sơ cấp của x trong Ã và độ thuộccủa độ thuộc sơ cấp trong Ã được gọi là độ thuộc thứ cấp của x trong Ã.Nếu với mọi độ thuộc trong Ã, một độ thuộc sơ cấp có một độ thuộc thứcấp trong khoảng [0,1], thì gọi tập tất cả các hàm thuộc sơ cấp như thế làhàm thuộc cơ bản (principal membership function) của Ã Độ thuộc củamột giá trị x ∈ X trong Ã có thể được biểu diễn µA˜(x) = P

u∈[0,1]fx(u)/u.Hàm thuộc được mô tả như trong hình 1.9 (hình trái thể hiện mô hình hàmthuộc sơ cấp, hình phải thể hiện mô hình hàm thuộc thứ cấp tại một điểmtrên hàm thuộc sơ cấp)

Hình 1.9: Hàm thuộc tập mờ loại 2 Hình trái thể hiện mô hình hàm thuộc

sơ cấp, hình phải thể hiện mô hình hàm thuộc thứ cấp

Hàm thuộc của một tập mờ loại 2 có thể hiểu như là giá trị mờ gán chomỗi giá trị độ thuộc của x ∈ X trong mờ loại 1 X được gọi là miền giá trị

Trang 40

của tập mờ loại 2 Về mặt hình thức có thể viết:

, Jxu = n(x, u) : u ∈ hµ˜

A(x), ¯µA˜(x)io⊆ [0, 1], (1.21)

hay có thể biểu diễn tập mờ loại 2 dưới dạng:

˜

A = {((x, u)), µA˜(x, u), ∀x ∈ X, ∀u ∈ Jx ⊆ [0, 1]} (1.22)

Các phép toán trên tập mờ loại 2 được mô tả trong [63], trên hai tập

mờ loại hai là ˜A và ˜B với độ thuộc tương ứng là µA˜(x) và µB˜(x) trongtập Jx ⊆ [0, 1] Lúc đó các hàm thuộc được mô tả tương ứng µA˜(x) =R

ufx(u)/u và µB˜(x) = Rwfx(w)/w Trong đó u, w ∈ Jx là hàm thuộc sơcấp và fx(u), gx(w) ∈ [0, 1] thể hiện độ thuộc thứ cấp Ký hiệu ? thể hiệncho một phép t-norm - ví dụ như phép nhân, ∨ thể hiện cho phép lớn hơnt-conorm, R thể hiện phép hợp logic Lúc đó các phép toán trong tập mờloại 2 được mô tả như sau

Định dạng
Số trang	159
Dung lượng	9,32 MB