Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)

Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)Nghiên cứu một số thuật toán phân cụm dữ liệu nửa giám sát và ứng dụng phân đoạn ảnh X quang (LV thạc sĩ)

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THỊ MAI HƯƠNG

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN

PHÂN ĐOẠN ẢNH X-QUANG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2017

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THỊ MAI HƯƠNG

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN

PHÂN ĐOẠN ẢNH X-QUANG Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Giáo viên hướng dẫn: TS.Nguyễn Đình Dũng

THÁI NGUYÊN - 2017

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này do chính tôi thực hiện, dưới sự hướng dẫn khoa học của TS Nguyễn Đình Dũng, các kết quả lý thuyết được trình bày trong luận văn là sự tổng hợp từ các kết quả đã được công bố và có trích dẫn đầy đủ, kết quả của chương trình thực nghiệm trong luận văn này được tác giả thực hiện

là hoàn toàn trung thực, nếu sai tôi hoàn toàn chịu trách nhiệm

Thái Nguyên, tháng 6 năm 2016

Học viên

Lê Thị Mai Hương

Trang 4

ii

LỜI CẢM ƠN

Luận văn này được hoàn thành tại Trường Đại học Công nghệ Thông tin

và Truyền thông dưới sự hướng dẫn của TS Nguyễn Đình Dũng Tác giả xin bày tỏ lòng biết ơn tới các thầy cô giáo thuộc Trường Đại học Công nghệ Thông tin và Truyền thông, các thầy cô giáo thuộc Viện Công nghệ Thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện, giúp đỡ tác giả trong quá trình học tập và làm luận văn tại Trường, đặc biệt tác giả xin bày tỏ lòng biết ơn tới TS Nguyễn Đình Dũng đã tận tình hướng dẫn và cung cấp nhiều tài liệu cần thiết để tác giả có thể hoàn thành luận văn đúng thời hạn

Xin chân thành cảm ơn anh chị em học viên cao học và bạn bè đồng nghiệp đã trao đổi, khích lệ tác giả trong quá trình học tập và làm luận văn tại Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên

Cuối cùng tác giả xin gửi lời cảm ơn đến gia đình, những người đã luôn bên cạnh, động viên và khuyến khích tôi trong quá trình thực hiện đề tài

Thái Nguyên, ngày tháng năm 2017

Học viên

Lê Thị Mai Hương

Trang 5

iii

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN i

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC HÌNH VẼ vi

LỜI MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ BÀI TOÁN PHÂN ĐOẠN ẢNH X-QUANG NHA KHOA 3

1.1 Khai phá dữ liệu 3

1.1.1 Khái niệm khai phá dữ liệu 3

1.1.2 Quá trình khai phá tri thức trong cơ sở dữ liệu 3

1.1.3 Các kỹ thuật tiếp cận trong khai phá dữ liệu: 5

1.2 Phân cụm dữ liệu 6

1.2.1 Khái niệm phân cụm dữ liệu 6

1.2.2 Các bước cơ bản để phân cụm dữ liệu 6

1.2.3 Các kiểu dữ liệu và độ đo tương tự, độ đo phi tương tự 7

1.2.3.1 Phân loại kiểu dữ liệu dựa trên kích thước miền 7

1.2.3.2 Phân loại kiểu dữ liệu dựa trên hệ đo 7

1.2.3.3 Khái niệm và phép đo độ tương tự 9

1.2.4 Các yêu cầu đối với kỹ thuật phân cụm dữ liệu 12

1.2.5 Ứng dụng của phân cụm dữ liệu 14

1.3 Cấu trúc giải phẫu răng 15

1.3.1 Cấu trúc giải phẫu răng 15

1.3.2 Phân loại ảnh X - quang nha khoa 17

1.4 Bài toán phân đoạn ảnh X - quang nha khoa 19

1.4.1 Phân đoạn ảnh 19

1.4.2 Phân loại các phương pháp phân đoạn ảnh 20

1.4.3 Phân đoạn ảnh X – quang nha khoa 21

KẾT LUẬN CHƯƠNG 1 23

CHƯƠNG 2: MỘT SỐ THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT 24

2.1 Phân cụm mờ 24

2.1.1 Các khái niệm cơ bản về tập mờ 24

Trang 6

iv

2.1.2 Thuật toán phân cụm mờ FCM (Fuzzy C-Means) 28

2.2 Thuật toán phân cụm nửa giám sát mờ bằng phương pháp học tích cực 31 2.3 Thuật toán phân cụm nửa giám sát mờ chuẩn (SSSFC) 33

2.4 Thuật toán phân cụm nửa giám sát mờ theo quy tắc entropy (eSFCM) 35 2.5 Thuật toán nửa giám sát mờ lai ghép 36

2.5.1 Lược đồ tổng quan lai ghép 36

2.5.2 Thuật toán tách ngưỡng Otsu 38

2.5.3 Thuật toán phân cụm nửa giám sát mờ lai ghép 40

CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN ĐOẠN ẢNH X – QUANG NHA KHOA 42

3.1 Đặc tả yêu cầu 42

3.1.1 Yêu cầu thực tế 42

3.1.2 Mục đích của ứng dụng 43

3.2 Đặc tả dữ liệu 43

3.3 Các bước phân đoạn ảnh 44

3.4 Thiết kế hệ thống 45

3.4.1 Chức năng phân đoạn ảnh X – quang nha khoa 45

3.4.2 Chức năng xem chi tiết kết quả 46

3.4.3 Chức năng đánh giá chất lượng phân đoạn 47

3.5 Minh họa các chức năng của ứng dụng 48

3.5.1 Giao diện chính của ứng dụng 48

3.5.2 Chọn ảnh cần phân đoạn 49

3.5.3 Phân đoạn ảnh bằng thuật toán FCM 49

3.5.4 Phân đoạn ảnh bằng thuật toán nửa giám sát mờ 50

3.5.5 Chọn độ đo đánh giá kết quả phân cụm 50

3.6 Đánh giá kết quả phân đoạn 51

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 54

PHỤ LỤC 57

CODE MATLAB CỦA ỨNG DỤNG PHÂN ĐOẠN ẢNH BẰNG THUẬT TOÁN BÁN GIÁM SÁT MỜ LAI GHÉP 57

Trang 7

PBM Pakhira, Bandyopadhyay and Maulik

SSSFC Semi-Supervised Standard Fuzzy Clustering

SSWC Simplified Silhouete Width Criterion

Trang 8

vi

DANH MỤC HÌNH VẼ

Hình 1.1 Quá trình khám phá tri thức trong CSDL 4

Hình 1.2 Cơ quan răng (răng và nha chu) 15

Hình 1.3 Một số loại ảnh X-Quang nha khoa 19

Hình 1.4 Những khó khăn trong việc phân đoạn ảnh nha khoa 22

Hình 2.1 Hàm thuộc tuyến tính 25

Hình 2.2 Hàm thuộc dạng sin 25

Hình 2.3 Hàm thuộc Gauss 26

Hình 2.4 Bao trong của tập mờ 26

Hình 2.5 Phép hợp tập mờ dạng 1 27

Hình 2.6 Phép giao tập mờ dạng 1 28

Hình 2.7 Phần bù của tập mờ trung bình 28

Hình 2.8 Lược đồ tổng quan của thuật toán lai ghép 37

Hình 3.1: Ảnh dữ liệu đầu vào của ứng dụng 44

Hình 3.2: Biểu đồ usecase mô tả chức năng của ứng dụng 45

Hình 3.3: Biểu đồ trình tự chức năng phân đoạn ảnh 46

Hình 3.4: Biểu đồ trình tự chức năng xem kết quả 47

Hình 3.5: Biểu đồ trình tự chức năng đánh giá kết quả 48

Hình 3.6: Giao diện chính của phần mềm 48

Hình 3.7: Chọn ảnh cần phân đoạn 49

Hình 3.8 Kết quả phân đoạn bằng FCM 49

Hình 3.9 Kết quả phân đoạn bằng SSSFC 50

Hình 3.10 Đánh giá kết quả phân đoạn 50

Trang 9

1

LỜI MỞ ĐẦU

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp đồng thời cũng tìm ra các mẫu tiềm ẩn trong dữ liệu

đó Hiện nay việc khai phá dữ liệu được nghiên cứu theo các hướng mô tả khái niệm, luật kết hợp, phân lớp và dự đoán, phân cụm (xem [1], [2], [7]) và có nhiều ứng dụng trong thực tế, trong đó phân đoạn ảnh X-Quang trong lĩnh vực y

tế là một ứng dụng điển hình [13] Ngày nay, việc xử lý các hình ảnh y tế có vai trò quan trọng trong việc tự động hóa phân tích, hỗ trợ chẩn đoán và điều trị các bệnh khác nhau Trong đó, quá trình phân đoạn thường được yêu cầu như là giai đoạn sơ bộ Tuy nhiên các phân vùng trong hình ảnh y tế rất phức tạp nên việc phân đoạn chính xác là rất quan trọng

Trong các phương pháp phân đoạn ảnh hiện có, phân cụm là một phương pháp được sử dụng rộng rãi bởi tính đơn giản và hiệu quả mà nó mang lại (xem [8]-[12]) Phân cụm dữ liệu là lĩnh vực học máy không giám sát, nó có chức năng tổ chức một tập đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì tương tự như nhau còn các đối tượng ở các cụm khác nhau thì kém tương tự nhau hơn Nhược điểm chung của thuật toán phân cụm là chất lượng phân cụm phụ thuộc nhiều vào các tham số và thông tin khởi tạo Để giảm thiểu các hạn chế này, gần đây đã có nhiều tác giả (xem [8]-[12]) giải quyết theo cách tiếp cận nửa giám sát, trong đó việc phân cụm được thực hiện dựa vào các thông tin bổ trợ đóng vai trò điều khiển quá trình phân cụm, nhờ đó

mà chất lượng phân cụm được nâng lên đáng kể

Mục tiêu của luận văn là nghiên cứu, tìm hiểu một số thuật toán phân cụm nửa giám sát và xây dựng được một ứng dụng thử nghiệm cho thuật toán phân đoạn ảnh X-quang hỗ trợ chuẩn đoán bệnh trong lĩnh vực nha khoa Các kết quả đạt được trong luận văn này là kết quả trong quá trình học tập và nghiên cứu của tác giả tại Trường Đại học Công nghệ Thông tin và Truyền thông Ngoài phần

Trang 11

3

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ BÀI TOÁN PHÂN

ĐOẠN ẢNH X-QUANG NHA KHOA

Chương này gồm 3 mục, mục 1.1 là các khái niệm cơ bản về Khai phá dữ liệu Mục 1.2 trình bày về các khái niệm về phân cụm dữ liệu, yêu cầu đối với

kỹ thuật phân cụm dữ liệu (xem [1], [2], [4]) Mục 1.3 là cấu tạo về răng, phân loại ảnh X-quang và bài toán phân đoạn ảnh X-quang nha khoa [3]

1.1 Khai phá dữ liệu

1.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu là một công đoạn quan trọng nhất trong quá trình khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases - KDD) Do

sự phát triển mạnh mẽ của khai phá dữ liệu về phạm vi các lĩnh vực ứng dụng trong thực tế và các phương pháp tìm kiếm nên có rất nhiều khái niệm khác nhau Tuy nhiên, ở đây có thể hiểu khai phá dữ liệu là một quá trình tìm kiếm, chắt lọc các tri thức mới, tiềm ẩn, hữu dụng trong tập dữ liệu lớn

1.1.2 Quá trình khai phá tri thức trong cơ sở dữ liệu

Các yêu cầu về thông tin trong các loại hoạt động như công tác quản lý, hoạt động kinh doanh, phát triển sản xuất và dịch vụ, đặc biệt là trong việc ra quyết định giải quyết một vấn đề ngày càng đòi hỏi chất lượng cao hơn Người làm quyết định không những cần dữ liệu mà còn cần có thêm hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình Để giải quyết vấn đề đó thì kỹ thuật khám phá tri thức trong cơ sở dữ liệu (KDD) đã ra đời Khám phá tri thức trong cơ sở dữ liệu là lĩnh vực liên quan đến các ngành như: xác suất thống kê, học máy, trực quan hóa dữ liệu, tính toán song song Quá trình KDD có thể chia thành 5 bước thực hiện như sau:

Trích chọn dữ liệu: Xác định mục đích của quy trình khai phá dữ liệu dựa

trên quan điểm của người dùng, thu thập và chuẩn bị dữ liệu để khai phá

Trang 12

4

Tiền xử lý dữ liệu: Nhằm mục đích loại bỏ sự trùng lặp dữ liệu, cắt lìa

những thông tin có thể gây nhiễu, tập hợp những thông tin cần thiết cho mô hình hóa, chọn các phương pháp xử lý những thông tin bị khiếm khuyết

Chuyển đổi dữ liệu: Thực hiện thu gọn dữ liệu, phép ánh xạ dữ liệu, tìm

những đặc trưng phù hợp để mô tả và khai phá dữ liệu

Khai phá dữ liệu: Chọn nhiệm vụ khai phá dữ liệu như phân lớp, gom

cụm, hồi quy, kết hợp, Từ nhiệm vụ đã chọn, sử dụng các thuật toán và các phương pháp đã biết để tìm kiếm các mẫu trong dữ liệu, chọn ra các mẫu hữu ích

Trình bày và đánh giá: Từ các mẫu khai phá được tiến hành đánh giá hoặc

phiên dịch thành những tri thức hiểu được

Khai phá

Trình bày, đánh giá

Trang 13

5

1.1.3 Các kỹ thuật tiếp cận trong khai phá dữ liệu:

Các kỹ thuật áp dụng trong khai phá dữ liệu phần lớn được kế thừa từ các lĩnh vực như: Cơ sở dữ liệu, Học máy, Trí tuệ nhân tạo, Xác suất thống kế, vì vậy ta có hai hướng tiếp cận sau đây:

Theo quan điểm của học máy, các kỹ thuật trong Khai phá dữ liệu gồm:

- Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho

các đối tượng trong tập dữ liệu dựa trên một bộ các đối tượng huấn luyện và các thông tin về nhãn lớp đã biết

- Học không giám sát (Unsupervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp hay cụm (cluster) dữ liệu tương tự nhau mà chưa biết trước các thông tin về nhãn lớp

- Học nửa giám sát (Semi- Supervised learning): Là quá trình chia một tập

dữ liệu thành các lớp con dựa trên một số thông tin bổ trợ cho trước

Theo các lớp bài toán cần giải quyết, các kỹ thuật trong khai phá dữ liệu gồm:

- Phân lớp và dự toán (Classification and Prediction): Đưa một đối tượng vào một trong các lớp đã biết trước Phân lớp và dự đoán còn được gọi là học

- Phân cụm (Clustering): Nhóm các đối tượng thành từng cụm dữ liệu Đây

là phương pháp học không giám sát

- Mô tả khái niệm: Mô tả, tổng hợp và tóm tắt khái niệm, ví dụ như tóm tắt văn bản

Trang 14

6

1.2 Phân cụm dữ liệu

1.2.1 Khái niệm phân cụm dữ liệu

Phân cụm dữ liệu (PCDL) là một kỹ thuật phát triển mạnh mẽ trong nhiều năm trở lại đây do các ứng dụng và lợi ích to lớn của nó trong các lĩnh vực thực

tế Ở mức độ cơ bản nhất có thể hiểu Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức

cho việc ra quyết định

1.2.2 Các bước cơ bản để phân cụm dữ liệu

PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu

sao cho các đối tượng trong một cụm thì “tương tự” nhau và các đối tượng trong các cụm khác nhau thì “phi tương tự” với nhau Số cụm dữ liệu được xác định

bằng kinh nghiệm hoặc bằng một số phương pháp phân cụm

Sau khi xác định các đặc tính của dữ liệu, người ta đi tìm cách thích hợp để xác định “khoảng cách” giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây chính là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông

thường các hàm này hoặc là để tính độ tương tự (Similar) hoặc là tính độ phi

tương tự(Dissimilar) giữa các đối tượng dữ liệu Giá trị của hàm tính độ đo

tương tự càng lớn thì sự giống nhau giữa đối tượng càng lớn và ngược lại, còn hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự

Trong quá trình PCDL thì vấn đề trở ngại lớn nhất đó là nhiễu (noise) Nhiễu xuất hiện do trong quá trình thu thập thông tin, dữ liệu thiếu chính xác hoặc không đầy đủ Vì vậy chúng ta cần phải khử nhiễu trong quá trình tiến hành phân cụm dữ liệu

Các bước của một bài toán phân cụm dữ liệu gồm:

- Xây dựng hàm tính độ tương tự

- Xây dựng các tiêu chuẩn phân cụm

- Xây dựng mô hình cho cấu trúc dữ liệu

Trang 15

7

- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo

- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm

1.2.3 Các kiểu dữ liệu và độ đo tương tự, độ đo phi tương tự

Trong phần này ta phân tích các kiểu dữ liệu thường được sử dụng trong PCDL Trong PCDL, các đối tượng dữ liệu cần phân tích có thể là con người, nhà cửa, tiền lương, các thực thể phần mềm, Các đối tượng này thường được diễn tả dưới dạng các thuộc tính của nó Các thuộc tính này là các tham số cần cho giải quyết vấn đề PCDL và sự lựa chọn chúng có tác động đáng kể đến các kết quả của phân cụm Phân loại các kiểu thuộc tính khác nhau là một vấn đề cần giải quyết đối với hầu hết các tập dữ liệu nhằm cung cấp các phương tiện thuận lợi để nhận dạng sự khác nhau của các phần tử dữ liệu Dưới đây là cách phân lớp dựa trên hai đặc trưng là: kích thước miền và hệ đo

1.2.3.1 Phân loại kiểu dữ liệu dựa trên kích thước miền

- Thuộc tính liên tục: Nếu miền giá trị của nó là vô hạn không đếm được,

nghĩa là giữa hai giá trị tồn tại vô số giá trị khác Thí dụ như các thuộc tính về màu, nhiệt độ hoặc cường độ âm thanh

- Thuộc tính rời rạc: Nếu miền giá trị của nó là tập hữu hạn hoặc đếm

được Thí dụ như các thuộc tính về số serial của một cuốn sách, số thành viên trong một gia đình,

1.2.3.2 Phân loại kiểu dữ liệu dựa trên hệ đo

Giả sử có hai đối tượng x, y và các thuộc tính x i , y i tương ứng với thuộc tính

thứ i của chúng Ta có các lớp kiểu dữ liệu như sau:

- Thuộc tính định danh: Dạng thuộc tính khái quát hóa của thuộc tính nhị

phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn hai

phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là

𝑥 ≠ 𝑦 hoặc 𝑥 = 𝑦

- Thuộc tính có thứ tự: Là thuộc tính định danh có thêm tính thứ tự, nhưng

chúng không được định lượng Nếu x và y là hai thuộc tính thứ tự thì ta có thể

Trang 16

8

xác định là 𝑥 ≠ 𝑦 hoặc 𝑥 = 𝑦 hoặc 𝑥 > 𝑦 hoặc 𝑥 < 𝑦 Thí dụ như thuộc tính Huy chương của vận động viên thể thao

- Thuộc tính khoảng: Nhằm để đo các giá trị theo xấp xỉ tuyến tính Với

thuộc tính khoảng, ta có thể xác định một thuộc tính là đứng trước hoặc đứng

sau thuộc tính khác với một khoảng là bao nhiêu Nếu x i y i thì ta nói x cách y một khoảng | x i – y i | tương ứng với thuộc tính thứ i Ví dụ, thuộc tính số Serial

của một đầu sách trong thư viện hoặc thuộc tính số kênh trên truyền hình

- Thuộc tính tỉ lệ: Là thuộc tính khoảng nhưng được xác định một cách

tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy giá trị 0 làm gốc

Trong các thuộc tính dữ liệu trình bày ở trên, thuộc tính định danh và thuộc tính có thứ tự gọi chung là thuộc tính hạng mục, thuộc tính khoảng và thuộc tính

tỉ lệ được gọi là thuộc tính số

Người ta còn đặc biệt quan tâm đến dữ liệu không gian Đây là loại dữ liệu

có các thuộc tính số khái quát trong không gian nhiều chiều, dữ liệu không gian

mô tả các thông tin liên quan đến không gian chứa đựng các đối tượng, thí dụ như thông tin về hình học, Dữ liệu không gian có thể là dữ liệu liên tục hoặc rời rạc:

Dữ liệu không gian rời rạc: Có thể là một điểm trong không gian nhiều

chiều và cho phép ta xác định được khoảng cách giữa các đối tượng dữ liệu trong không gian

Dữ liệu không gian liên tục: Bao gồm một vùng trong không gian

Thông thường, các thuộc tính số được đo bằng các đơn vị xác định như là Kilogams hoặc Centimeter Tuy nhiên, các đơn vị đo có ảnh hưởng đến các kết quả phân cụm Thí dụ như thay đổi độ đo cho thuộc tính cân nặng từ Kilogams sang Pound có thể mang lại kết quả khác nhau trong phân cụm Để khắc phục điều này người ta phải chuẩn hóa dữ liệu, tức là sử dụng các thuộc tính dữ liệu không phụ thuộc vào đơn vị đo Thực hiện chuẩn hóa phụ thuộc vào ứng dụng

và người dùng, thông thường chuẩn hóa dữ liệu được thực hiện bằng cách thay

Trang 17

9

thế mỗi một thuộc tính bằng thuộc tính số hoặc thêm các trọng số cho các thuộc tính

1.2.3.3 Khái niệm và phép đo độ tương tự

Khi các đặc tính của dữ liệu được xác định, người ta tìm cách thích hợp để xác định “khoảng cách” giữa các đối tượng (phép đo độ tương tự dữ liệu) Đây

là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm này hoặc là để tính độ tương tự hoặc là tính độ phi tương tự giữa các đối tượng dữ liệu Giá trị của hàm tính độ đo tương tự càng lớn thì sự giống nhau giữa đối tượng càng lớn và ngược lại, còn hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự Độ tương tự hoặc độ phi tương tự có nhiều cách để xác định, chúng thường được đo bằng khoảng cách giữa các đối tượng Tất cả các cách đo độ tương tự đều phụ thuộc vào kiểu thuộc tính mà ta phân tích Thí dụ, đối với thuộc tính hạng mục người ta không sử dụng độ đo khoảng cách mà sử dụng một hướng hình học của dữ liệu

Tất cả các độ đo dưới đây được xác định trong không gian độ đo metric Bất kỳ một metric nào cũng là một độ đo, nhưng điều ngược lại không đúng Để tránh sự nhầm lẫn, thuật ngữ độ đo ở đây đề cập đến hàm tính độ tương tự Một

không gian metric là một tập trong đó có xác định các “khoảng cách” giữa từng

cặp phần tử, với những tính chất thông thường của khoảng cách hình học Nghĩa

là, một tập X (các phần tử của nó có thể là những đối tượng bất kỳ) gồm các đối tượng dữ liệu trong CSDL gọi là một không gian metric, nếu với mỗi cặp phần

tử x, y thuộc X đều xác định một số thực δ(x, y), được gọi là khoảng cách giữa x

và y thỏa mãn hệ tính chất sau:

0 )

,

(x y 

0 )

,

(x y 

) , ( )

Trang 18

10

Hàm δ(x, y) được gọi là một metric của không gian Các phần tử của X được gọi là các điểm của không gian này

Một số phép đo độ tương tự áp dụng đối với các kiểu dữ liệu khác nhau:

+ Thuộc tính khoảng: Sau khi chuẩn hóa, độ đo phi tương tự của hai đối

tượng dữ liệu x, y được xác định bằng các metric như sau: |xi – yi|q

d x y   x y , (trường hợp đặc biệt của

khoảng cách Minskowski trong trường hợp q = 2

khoảng cách Minskowski trong trường hợp q = 1

Bảng 1 Bảng tham số thuộc tính nhị phân

Trong đó:          , các đối tượng x, y mà tất cả các thuộc tính của nó

đều là nhị phân biểu thị bằng 0 và 1 Bảng trên cho ta thông tin sau:

- là tổng số các giá trị thuộc tính có giá trị là 1 trong cả hai đối tượng x, y

-  là tổng số các giá trị thuộc tính có giá trị là 1 trong x và 0 trong y

-  là tổng số các giá trị thuộc tính có giá trị là 0 trong x và 1 trong y

- là tổng số các giá trị thuộc tính có giá trị là 0 trong cả hai đối tượng x, y

Các phép đo độ tương tự đối với dữ liệu thuộc tính nhị phân được định nghĩa như sau:

Trang 19

11





 , ở đây cả hai đối tượng x và y có

vai trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số

- Hệ số Jacard: d x y , 

  



  , tham số này bỏ qua số các đối sánh

giữa 0-0 Công thức tính này được sử dụng trong trường hợp mà trọng số của các thuộc tính có giá trị 1 của đối tượng dữ liệu có giá trị cao hơn nhiều so với các thuộc tính có giá trị 0, như vậy các thuộc tính nhị phân ở đây là không đối xứng

+ Thuộc tính định danh: Độ đo phi tương tự giữa hai đối tượng x và y

được định nghĩa như sau: d x y , p m

p



 , trong đó m là số thuộc tính đối sánh

tương ứng trùng nhau và p là tổng số các thuộc tính

+ Thuộc tính có thứ tự: Phép đo độ phi tương tự giữa các đối tượng dữ liệu

với thuộc tính thứ tự được thực hiện như sau, ở đây ta giả sử i là thuộc tính thứ

tự có M i giá trị (M i kích thước miền giá trị):

Các trạng thái M i được sắp thứ tự như sau: 1 M i, ta có thể thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại r i, với r i1, ,M i

Mỗi một thuộc tính thứ tự có các miền giá trị khác nhau, vì vậy ta chuyển đổi chúng về cùng miền giá trị [0, 1] bằng cách thực hiện phép biến đổi sau cho

z , đây cũng chính là độ phi tương tự của thuộc tính có thứ tự

+ Thuộc tính tỷ lệ: Có nhiều cách khác nhau để tính độ tương tự giữa các thuộc tính tỉ lệ Một trong những số đó là sử dụng công thức tính logarit cho mỗi thuộc tính x i, thí dụ q i  log x i , lúc này q i đóng vai trò như thuộc tính khoảng Phép biến đổi logarit này thích hợp trong trường hợp các giá trị của thuộc tính là

số mũ

Trang 20

Người ta có thể chuyển đổi giữa các mô hình cho các kiểu dữ liệu trên, thí

dụ dữ liệu kiểu hạng mục có thể chuyển đổi thành dữ liệu nhị phân và ngược lại Nhưng giải pháp này rất tốn kém về chi phí tính toán, cần phải cân nhắc khi áp dụng cách thức này

Tùy từng trường hợp dữ liệu cụ thể mà người ta sử dụng các mô hình tính

độ tương tự khác nhau Việc xác định độ tương tự dữ liệu thích hợp, chính xác, đảm bảo khách quan là rất quan trọng và góp phần xây dựng thuật toán PCDL

có hiệu quả cao trong việc đảm bảo chất lượng cũng như chi phí tính toán của thuật toán

1.2.4 Các yêu cầu đối với kỹ thuật phân cụm dữ liệu

Việc xây dựng, lựa chọn một thuật toán phân cụm là bươc then chốt cho việc giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa chất lượng của các cụm hay tốc độ thực hiện thuật toán,

Hầu hết các nghiên cứu và phát triển thuật toán PCDL đều nhằm thỏa mãn các yêu cầu cơ bản sau:

Có khả năng mở rộng: Một số thuật toán có thể ứng dụng tốt cho tập dữ

liệu nhỏ (khoảng 200 bản ghi dữ liệu) nhưng không hiệu quả khi áp dụng cho tập dữ liệu lớn (khoảng 1 triệu bản ghi)

Trang 21

13

Thích nghi với các kiểu dữ liệu khác nhau: Thuật toán có thể áp dụng hiệu

quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau như dữ liệu kiểu số, kiểu nhị phân, dữ liệu định danh, hạng mục, và thích nghi với kiểu dữ liệu hỗn hợp

Khám phá ra các cụm với hình thù bất kỳ: Do hầu hết các CSDL có chứa

nhiều cụm dữ liệu với các hình thù khác nhau như: hình lõm, hình cầu, hình que, Vì vậy, để khám phá được các cụm có tính tự nhiên thì các thuật toán phân cụm cần phải có khả năng khám phá ra các cụm dữ liệu có hình thù bất kỳ

Tối thiểu lượng tri thức cần cho xác định các tham số vào: Do các giá trị

đầu vào thường ảnh hưởng rất lớn đến thuật toán phân cụm và rất phức tạp để xác định các giá trị vào thích hợp đối với các CSDL lớn

Ít nhạy cảm với thứ tự của dữ liệu vào: Cùng một tập dữ liệu, khi đưa vào

xử lý cho thuật toán PCDL với các thứ tự vào của các đối tượng dữ liệu ở các lần thực hiện khác nhau thì không ảnh hưởng lớn đến kết quả phân cụm

Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm

trong KPDL đều chứa đựng các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác Thuật toán phân cụm không những hiệu quả đối với các dữ liệu nhiễu mà còn tránh dẫn đến chất lượng phân cụm thấp do nhạy cảm với nhiễu

Ít nhạy cảm với các tham số đầu vào: Nghĩa là giá trị của các tham số đầu

vào khác nhau ít gây ra các thay đổi lớn đối với kết quả phân cụm

Thích nghi với dữ liệu đa chiều: Thuật toán có khả năng áp dụng hiệu quả

cho dữ liệu có số chiều khác nhau

Dễ hiểu, dễ cài đặt và khả thi

Các yêu cầu này đồng thời là các tiêu chí để đánh giá hiệu quả của các phương pháp PCDL, đây là những thách thức cho các nhà nghiên cứu trong lĩnh vực PCDL

Trang 22

14

1.2.5 Ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu là một trong những công cụ chính của KPDL được ứng dụng trong nhiều lĩnh vực như thương mại, khoa học Các kỹ thuật PCDL đã được áp dụng cho một số ứng dụng điển hình trong các lĩnh vực sau:

Thương mại: PCDL có thể giúp các thương nhân khám phá ra các nhóm

khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu mua bán trong CSDL khách hàng

Sinh học: PCDL được sử dụng để xác định các loại sinh vật, phân loại các

Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu

Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí yêu cầu bồi

thường trung bình cao, xác định gian lận trong bảo hiểm thông qua các mẫu cá biệt

Phân tích dữ liệu không gian: Do sự đồ sộ của dữ liệu không gian như dữ

liệu thu được từ các hình ảnh chụp từ vệ tinh, các thiết bị y học hoặc hệ thống thông tin địa lý (GIS), làm cho người dùng rất khó để kiểm tra các dữ liệu không gian một cách chi tiết PCDL có thể trợ giúp người dùng tự động phân tích và xử lý các dữ liệu không gian như nhận dạng và chiết xuất các đặc tính hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong CSDL không gian

Lập quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý,

nhằm cung cấp thông tin cho quy hoạch đô thị

Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung

cấp thông tin cho nhận dạng các vùng nguy hiểm

Địa lý: Phân lớp các động vật, thực vật và đưa ra đặc trưng của chúng Khai phá Web: PCDL có thể khám phá các nhóm tài liệu quan trọng, có

nhiều ý nghĩa trong môi trường Web Các lớp tài liệu này trợ giúp cho việc khám phá tri thức từ dữ liệu Web, khám phá ra các mẫu truy cập của khách hàng đặc biệt hay khám phá ra cộng đồng Web,

Phân đoạn ảnh: Phân cụm ảnh thành từng vùng rồi trích chọn đặc trưng

của từng vùng, dựa vào đó ta có thể tra cứu các bức ảnh một cách nhanh chóng

Trang 23

15

và chính xác từ một cơ sở dữ liệu ảnh cho trước, hay phục vụ công tác chuẩn đoán bệnh trong y tế đối với ảnh X-quang

1.3 Cấu trúc giải phẫu răng

1.3.1 Cấu trúc giải phẫu răng

Cơ quan răng bao gồm răng và nha chu (quanh răng), là đơn vị hình thái và chức năng của bộ răng Răng là bộ phận trực tiếp nhai nghiền thức ăn, nha chu

là bộ phận giữ và nâng đỡ răng, đồng thời là bộ phận nhận cảm, tiếp nhận và dẫn truyền lực nhai Răng chính danh gồm men, ngà (mô cứng) và tủy (mô mềm) Nha chu gồm xê măng (còn gọi là xương chân răng, men chân răng), dây chằng, xương ổ răng, nướu (lợi) Bộ răng là một thể thống nhất thuộc hệ thống nhai, tạo thành bởi sự sắp xếp có tổ chức của các cơ quan răng

Hình 1.2 Cơ quan răng (răng và nha chu)

Mỗi răng có phần thân răng và chân răng Giữa thân răng và chân răng là đường cổ răng (cổ răng giải phẫu), là một đường cong, còn gọi là đường nối

men – xê măng Thân răng được bao bọc bởi men răng, chân răng được xê măng

bao phủ

Nướu răng viền xung quanh cổ răng tạo thành một bờ, gọi là cổ răng sinh

lý Phần răng thấy được trong miệng là thân răng lâm sàng Cổ răng sinhh lý thay đổi tùy theo nơi bám và bờ của viền nướu, khi tuổi càng cao thì nơi bám này càng có khuynh hướng di chuyển dần về phía chóp răng Nhiều trường hợp

Trang 24

Men răng: Men răng phủ mặt ngoài ngà thân răng, là mô cứng nhất trong

cơ thể, có tỉ lệ chất vô cơ cao (96%).Hình dáng và bề dày của men được xác định từ trước khi răng mọc ra, trong đời sống, men răng không có sự bồi đắp thêm mà chi mòn dần theo tuổi, nhưng có sự trao đổi về vật lý và hóa học trong môi trường với miệng

Ngà răng: Kém cứng hơn men, chứa tỉ lệ chất vô cơ thấp hơn men (75%)

Trong ngà có nhiều ống ngà, chứa đuôi bào tương của nguyên bào ngà.Bề dày ngà răng thay đổi trong đời sống do hoạt động của nguyên bào ngà Ngà răng ngày càng dày theo hướng về phía hốc tủy răng, làm hẹp dần hốc tủy

Tủy răng: Là mô liên kết mềm, nằm trong hốc tủy gồm tủy chân và tủy

thân Tủy răng trong buồng tủy gọi là tủy thân, tủy buồng, tủy răng trong ống tủy gọi là tủy chân Các nguyên bào ngà nằm sát vách hốc tủy.Tủy răng có nhiệm vụ duy trì sự sống của răng, cụ thể là sự sống của nguyên bào ngà và tạo ngà thứ cấp, nhận cảm giác của răng Trong tủy răng có chứa nhiều mạch máu, mạch bạch huyết và đầu tận cùng thần kinh

Bộ phận nâng đỡ răng: Bao gồm xương ổ răng, xê măng, dây chằng nha chu và nướu (lợi) răng

Xương ổ răng: Là mô xương xốp, bên ngoài được bao bọc bằng màng

xương, nơi nướu răng bám vào Xương ổ răng tạo thành một huyệt, có hình dáng

và kích thước phù hợp với chân răng.Bề mặt ổ răng, nơi đối diện với chân răng,

là mô xương đặc biệt và có nhiều lỗ thủng để cho các mạch máu và dây thần kinh từ xương xuyên qua để nuôi dây chằng nha chu, gọi là xương ổ chính danh, hay lá sàng Trên hình ảnh tia X, phần xương ổ chính danh trông cản tia hơn, gọi

là lá cứng.Nền xương ổ không phân biệt được với xương hàm Chiều cao xương

ổ răng thay đổi theo tuổi và tùy theo sự lành mạnh hay bệnh lý của mô nha chu

Trang 25

17

Khi răng không còn trên xương hàm thì xương ổ răng và các thành phần của nha chu cũng bị tiêu dần đi

Xê măng: Là mô đặc biệt, hình thành cùng với sự hình thành chân răng,

phủ ngoài ngà chân răng.Xê măng được bồi đắp thêm ở phía chóp chủ yếu để bù trừ sự mòn mặt nhai, được coi là hiện tượng “mọc răng suốt đời” hay “trồi mặt nhai” Xê măng cũng có thể tiêu hoặc quá sản trong một số trường hợp bất

thường hay bệnh lý

Dây chằng nha chu: Là những bó sợi liên kết dày khoảng 0.25mm, một

đầu bám vào xê măng, còn đầu kia bám vào xương ổ chính danh Cả xê măng, dây chằng nha chu và xương ổ chính danh đều có nguồn gốc từ túi răng chính danh.Dây chằng nha chu có nhiệm vụ giữ cho răng gắn vào xương ổ răng và đồng thời có chức năng làm vật đệm, làm cho mỗi răng có sự xê dịch nhẹ độc lập với nhau trong khi nhai, giúp lưu thông máu, truyền cảm giác áp lực và truyền lực để tránh tác dụng có hại của lực nhai đối với răng và nha chi

Nướu răng: Là phần niêm mạc phủ lên xương ổ răng (nướu dính) và cổ

răng (nướu rời)

1.3.2 Phân loại ảnh X - quang nha khoa

Ảnh X-quang nha khoa là một trong những cách phổ biến với chi phí thấp nhất để thu được ảnh (thông tin) về răng Bởi vì nhiều bệnh của răng và các mô xung quanh không thể được nhìn thấy trực tiếp bằng mắt thường khi nha sĩ kiểm tra miệng Chụp X – quang có thể giúp phát hiện những vấn đề sau đây:

- Lỗ sâu giữa các răng hoặc phát hiện sâu răng bên dưới lớp trám răng

- Nhiễm trùng trong xương

- Bệnh nha chu

- Áp – xe hoặc u nang

- Phát hiện những biến chuyển bất thường trong răng miệng

- Phát hiện khối u

Trang 26

18

Phát hiện và điều trị các vấn đề về răng ở giai đoạn sớm có thể tiết kiệm thời gian, tiền bạc và giảm những khó chịu không cần thiết Ảnh X – quang có thể giúp nha sĩ phát hiện các vấn đề đó

Có rất nhiều loại ảnh X – quang nha khoa khác nhau, trong đó được chia thành hai kiểu ảnh X – quang nha khoa chính: intraoral (ảnh X – quang phạm vi trong miệng) và extraoral (ảnh X – quang phạm vi cả ngoài miệng)

- Intraoral: là loại ảnh X – quang nha khoa phổ biến nhất Nó mô tả các

răng một cách chi tiết và cho phép nha sĩ tìm sâu răng, kiểm tra sức khỏe của các răng và xương xung quanh răng, kiểm tra tình trạng phát triển của răng và theo dõi sức khỏe chung của răng và xương hàm

- Extraoral: cũng cho chúng ta thấy các răng nhưng mục đích chính là cho

thấy toàn bộ hàm răng và xương sọ Nó không cung cấp đặc điểm chi tiết về từng răng như ảnh intraoral và do đó, nó không được sử dụng để phát hiện sâu răng hoặc một số vấn đề khác với từng chiếc răng Thay vào đó, nó được sử dụng để tìm các răng nêm vào nhau, theo dõi sự tăng trưởng và phát triển hàm trong quan hệ với răng, để xác định các vấn đề tiềm ẩn giữa răng và hàm, hội chứng rối loạn thái dương hàm hoặc các xương mặt khác

Các ảnh X – quang thuộc kiểu extraoral như: panoramic, tomograms, cephalometric projections, sialography, computed tomography Trong đó phổ biến nhất là ảnh X – quang panoramic Ảnh này cho thấy toàn bộ khoang miệng: tất cả các răng trong xương hàm trên và dưới Nó hữu ích trong việc phát hiện các vùng răng mới nổi, xác định sự liên quan của hàm răng và các cấu trúc xương xung quanh, hỗ trợ trong việc chẩn đoán các khối u, v.v

Ảnh X – quang thuộc kiểu intraoral: bitewing, periapical,occlusal Mỗi loại cho thấy những khía cạnh khác nhau của răng:

- Ảnh X – quang Bitewing (ảnh cắn cánh): cho thấy mô tả về hàm trên và dưới trong một vùng của miệng Mỗi ảnh bitewing cho thấy một chiếc răng từ đỉnh đến phần xương hỗ trợ nó Ảnh bitewing thường được sử dụng để phát hiện

Trang 27

- Ảnh X – quang Occlusal: lớn hơn hai loại trên, nó cho thấy vị trí và sự phát triển răng một cách đầy đủ Nó cho thấy toàn bộ vòm răng ở hàm trên hoặc dưới

Ảnh X – quang này có thể được sử dụng trong các ứng dụng máy tính như

hệ thống nhận dạng người hoặc hỗ trợ về khía cạnh lâm sàng như hệ thống chẩn đoán nha khoa hoặc hệ thống điều trị nha khoa

a) Ảnh cắn cánh b) ảnhquanh chóp c)ảnh pano toàn hàm

Hình 1.3 Một số loại ảnh X-Quang nha khoa

1.4 Bài toán phân đoạn ảnh X - quang nha khoa

1.4.1 Phân đoạn ảnh

Trong thị giác máy tính, phân đoạn ảnh là quá trình phân vùng một ảnh kĩ thuật số thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh đó Các vùng ảnh đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối tượng thật sự bên trong ảnh

Trang 28

Kết quả của phân đoạn ảnh là một tập các phân đoạn mà nó bao trùm toàn

bộ ảnh hoặc một tập các đường mức trích chọn được từ ảnh (như phát hiện cạnh trong ảnh) Mỗi một pixel trong một vùng là tương đồng nhau về một số thuộc tính hoặc tính chất tính toán, ví dụ như màu sắc, cường độ hoặc cách cấu tạo, v.v Những khu vực liền kề là có sự khác nhau đáng kể về (những) thuộc tính giống nhau Khi áp dụng với một tập các ảnh, điển hình là trong hình ảnh nha khoa, các đường mức thu được sau khi phân đoạn ảnh có thể được sử dụng để tạo dựng thành 3D với sự giúp đỡ của các thuật toán nội suy

Có nhiều thuật toán và kĩ thuật với mục đích chung đã được phát triển cho phân đoạn ảnh.Thường thì những thuật toán này phải kết hợp với kiến thức của một lĩnh vực cụ thể thì mới giải quyết hiệu quả bài toán phân đoạn của các miền

1.4.2 Phân loại các phương pháp phân đoạn ảnh

Có hai tính chất cơ bản mà nói chung các phương pháp phân đoạn ảnh đều dựa vào, đó là một trong hai giá trị của mật độ: sự tương đồng và sự gián đoạn Hướng tiếp cận chủ yếu trong phương pháp đầu tiên dựa trên việc phân đoạn một ảnh thành các vùng tương đồng nhau theo một tập các tiêu chí xác định trước Hướng tiếp cận của phương pháp thứ hai là phân đoạn ảnh dựa trên sự thay đổi đột ngột về cường độ (như cạnh trong ảnh)

Trang 29

21

Chúng ta có thể phân loại các phương pháp phân đoạn ảnh dựa trên giá trị của các pixel và mối quan hệ giữa chúng với 3 vùng: dựa trên pixel, dựa trên đường biên và dựa trên vùng Trong hướng tiếp cận dựa trên pixel, sự phân lớp dựa trên giá trị độ xám (cường độ) của pixel trong ảnh Phương pháp dựa trên biên dựa trên sự thay đổi đột ngột của giá trị cường độ trong một vùng ảnh Phương pháp dựa trên vùng dựa trên sự khác nhau trong các giá trị định trước của các pixel láng giềng trong ảnh đó

1.4.3 Phân đoạn ảnh X – quang nha khoa

Phân đoạn ảnh nha khoa là bước xửu lý then chốt trong nha khoa nhằm hỗ trợ bác sĩ chuẩn đoán một cách hiệu quả các bệnh về răng Để phân tích một ảnh

X – quang nha khoa, chúng ta cần sử dụng một số tiến trình xử lý trên ảnh để thu được những thông tin quan trọng

Theo góc nhìn đối với ảnh nha khoa, phân đoạn là để xác định và phân loại các răng riêng lẻ trong ảnh X- quang nha khoa hoặc các phần của răng như thân răng và chân răng Mỗi một răng hoặc mỗi phần của mỗi răng trích chọn được từ ảnh ban đầu cho những dữ liệu quan trọng sẽ được sử dụng trong các bước tiếp theo ở bất kì một ứng dụng nào

Ảnh X – quang nha khoa thường có 3 vùng chính:

- Vùng thứ nhất tương ứng với vùng chứa các răng Vùng này thường có giá trị mức xám lớn nhất (vùng sáng nhất trên ảnh) Đây chính là vùng mà ta cần xác định được trong quá trình phân đoạn

- Vùng thứ hai tương ứng với vùng chứa lợi, xương và các cấu trúc quanh răng Vùng này thường có mức xám trung bình, tuy nhiên một số vùng xương có giá trị mức xám khá gần với vùng răng Điều này gây khó khăn không nhỏ cho quá trình phân đoạn răng

- Vùng thứ ba tương ứng với vùng nền trong ảnh, có giá trị độ xám thấp nhất (vùng tối nhất)

Phân đoạn những ảnh nha khoa có nhiều khó khăn hơn trong quá trình xử

lý bởi vì sự đa dạng, phức tạp trong cấu trúc liên kết giữa các bộ phận, và chất

Trang 30

22

lượng hình ảnh thấp (do nhiễu, độ tương phản thấp, sự giống nhau của các mô

cơ thể, sự giới hạn trong các phương pháp quét ảnh, v.v) Chính bởi những điều

đó khiến quá trình phân đoạn cho những kết quả sai/kém hiệu quả Ví dụ như: những mẫu vật được sử dụng trong quá trình điều trị, các răng nêm/chèn vào nhau, sự biến thể của các răng, khoảng trống giữa những răng bị thiếu, cũng như các vấn đề trong quá trình xử lý ảnh Hình sau cho thấy những khó khăn có thể xuất hiện trong các ảnh nha khoa:

Hình 1.4 Những khó khăn trong việc phân đoạn ảnh nha khoa

Mỗi phương pháp phân đoạn được đề xuất cho một vấn đề này có thể thực hiện tốt nhưng trên một vấn đề khác có thể thực hiện yếu kém và không đáng kể

Vì vậy, rất khó để có được một phương pháp phân đoạn nhất định mà phù hợp hoàn toàn cho một vấn đề mở rộng

Trang 31

23

KẾT LUẬN CHƯƠNG 1

Chương 1 của luận văn đã nêu ra kiến thức tổng quan về phân cụm dữ liệu, ứng dụng của phân cụm dữ liệu và về cấu trúc giải phẫu răng, phân loại ảnh X – quang nha khoa, bài toán phân đoạn ảnh từ đó nêu ra bài toán, những yêu cầu, thách thức và ý nghĩa, ứng dụng thực tế của bài toán phân đoạn ảnh X – quang nha khoa trong các hệ thống nhận dạng người hay hệ thống chẩn đoán, điều trị nha khoa

Trong chương tiếp theo, luận văn sẽ đưa ra một cái nhìn tổng quan về các phương pháp phân đoạn ảnh nha khoa hiện có Ở mỗi phương pháp đều đưa ra các thuật toán cụ thể và đánh giá ưu, nhược điểm của các thuật toán đó

Trang 32

24

CHƯƠNG 2 MỘT SỐ THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT

Các thuật toán phân cụm đã được nghiên cứu và phát triển từ những năm

50 của thế kỷ 20 như thuật toán K-Means (1956), thuật toán phân cụm dựa trên

đồ thị (1973), thuật toán phân cụm dựa trên lý thuyết mờ (1980), thuật toán phân cụm dựa trên mật độ (1996) [14] Từ những năm 2000 trở lại đây, phương pháp phân cụm nửa giám sát bắt đầu được phát triển mạnh mẽ (xem [8], [9], [10], [15]), đặc biệt là các phương pháp phân cụm nửa giám sát mờ bởi tính hiệu quả

mà nó mang lại (xem [11], [12], [13]) Nội dung chương này tập trung nghiên cứu các thuật toán phân cụm nửa giám sát mờ và được trình bày thành 5 mục: Mục 2.1 là các khái niệm cơ bản về lý thuyết tập mờ [4] và thuật toán phân cụm

mờ [16] Mục 2.2 trình bày thuật toán phân cụm nửa giám sát mờ bằng phương pháp học tích cực [21] Mục 2.3 trình bày thuật toán phân cụm nửa giám sát mờ chuẩn [17] Mục 2.4 trình bày thuật toán phân cụm nửa giám sát mờ theo quy tắc entropy [18] Mục 2.5 là thuật toán phân cụm lai ghép nửa giám sát [13]

2.1 Phân cụm mờ

2.1.1 Các khái niệm cơ bản về tập mờ

Tập rõ và tập mờ: Một tập hợp theo nghĩa kinh điển, nghĩa là một phần tử

hoặc thuộc vào tập hoặc không thuộc vào tập, được gọi là một tập rõ (crisp set) Một tập mờ (fuzzy set) A trên một tập nền X được xác định bằng hàm thuộc (membership function) A:X  [ 0 , 1 ], với giá trị A (x) là độ thuộc của phần tử x

vào tập mờ A Tập nền X luôn là tập rõ Nếu tập nền X là rời rạc và hữu hạnX  {x1,x2, ,x n} thì tập mờ A trên X được biểu diễn bằng

n n A A

A

1

/ ) (

Trang 33

25

hợp; và “+” là phép nối giữa các thành phần chứ không phải là phép chia, tổng, tích phân và cộng như thông thường

Các dạng hàm thuộc: Có hai dạng hàm thuộc thông dụng là: (1) hàm

thuộc tuyến tính và (2) hàm thuộc dạng sin Hình 2.1 minh họa hàm thuộc tuyến tính Hàm này có bốn tham số a, b, c và d xác định hình dạng của hàm Bằng cách chọn các giá trị phù hợp cho chúng, ta có thể có các hàm thuộc dạng chữ S (S-shaped), hình thang, tam giác và dạng chữ L (L-shaped)

d x c d c d

b x a a b a

x

A

1 1

0

) (



Hình 2.1 Hàm thuộc tuyến tính

Nếu dạng đường cong là thích hợp hơn, ta nên chọn hàm thuộc dạng sin (Hình 2.2) Cũng như với hàm thuộc tuyến tính, ta có thể có hàm thuộc dạng chữ S, dạng chuông (bell-shaped) và dạng chữ L bằng cách chọn các tham số thích hợp

d x c c d c x

c x b

b x a a b a x

a x

x

A

0

cos 1 2 1

1

cos 1 2 1

0

) (





Hình 2.2 Hàm thuộc dạng sin

Trang 34

26

Trường hợp đặc biệt của hàm thuộc hình chuông là hàm Gauss (Hình 2.3) sinh ra từ hàm mật độ xác suất của phân phối thường với hai tham số c (giá trị trung bình) và  (độ lệch chuẩn) Mặc dù xuất phát từ lý thuyết xác xuất, hàm này cũng được sử dụng làm hàm thuộc tập mờ 2

2

2 ) (

Phép toán trên tập mờ: Các phép toán trên tập mờ được định nghĩa tương

tự như các phép toán trên tập rõ, bao gồm hợp, giao và bù

Độ cao của tập mờ A là giá trị độ thuộc lớn nhất của A, ký hiệu hgt(A) Nếu hgt(A) = 1, tập mờ được gọi là chuẩn Ta có thể chuẩn hóa một tập mờ bằng cách chia tất cả độ thuộc cho độ cao của nó

Tập mờ A là bao trong (tập con của) tập mờ B (viết AB) nếu

) ( )

Trang 35

Hình 2.5 Phép hợp tập mờ dạng 1 Phép giao của hai tập mờ A, B được tính theo một trong các phép toán sau:

)) ( ), ( min(

Trang 36

2.1.2 Thuật toán phân cụm mờ FCM (Fuzzy C-Means)

Ta có thể định nghĩa bài toán phân cụm rõ như sau: Cho tập dữ liệu mẫu X,

ta kiểm tra các điểm dữ liệu xem nó giống với đặc điểm của nhóm nào nhất thì

ta gán điểm dữ liệu đó vào trong nhóm đó Nhưng trong thực tế không phải lúc nào bài toán phân cụm rõ cũng đáp dụng được

Mỗi phương pháp phân cụm phân hoạch một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao

và rời nhau, với đường biên giữa các cụm được xác định tốt Tuy nhiên, trong thực tế, đường biên giữa các cụm có thể mờ, các cụm có thể chồng lên nhau, nghĩa là một số các đối tượng dữ liệu thuộc về nhiều cụm khác nhau, do đó mô hình này không mô tả được dữ liệu thực Vì vậy người ta đã áp dụng lý thuyết

Trang 37

là xây dựng một phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu Năm 1981, Bezdek [16] đã cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và được chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ Hàm mục tiêu được Bezdek

đề xuất dựa trên độ thuộc u kj của phần tử dữ liệu x k vào cụm thứ j và được xác

định như sau:

min

1

2 1

v x u v

J

1

) (

2 (2.3)

Giải hệ phương trình : j C

v J

j

, , 2 , 1 ,





Trang 38

k m kj j

u

x u v

1

) (

j k kj

v x

v x u

1

1 2

Khi đó thuật toán phân cụm mờ được thực hiện như sau:

Input Tập dữ liệu X gồm N phần tử trong không gian r chiều; số cụm C;

mờ hóa m; ngưỡng 𝜀; số lần lặp lớn nhất MaxStep

Output Ma trận độ thuộc U và tâm cụm V

Các bước của thuật toán

Trang 39

31

Nhược điểm lớn nhất của thuật toán FCM là nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu Nghĩa là các tâm cụm có thể nằm xa so với tâm cụm thực tế Do đó các cụm dữ liệu được khám phá có thể rất lệch so với các cụm trong thực tế Việc khử nhiễu và phần tử ngoại lai là một vấn đề cần phải được giải quyết

Phân cụm mờ là một sự mở rộng của phân cụm dữ liệu bằng cách thêm vào yếu tố thể hiện mối quan hệ giữa các phần tử và các cụm dữ liệu thông qua

các trọng số trong ma trận U Bằng cách này, ta có thể khám phá các cụm dữ

liệu phức tạp theo cách mềm dẻo từ một tập dữ liệu dã cho

2.2 Thuật toán phân cụm nửa giám sát mờ bằng phương pháp học tích

cực

Các thuật toán phân cụm nửa giám sát mờ xây dựng dựa trên các thuật toán phân cụm mờ kết hợp với các thông tin bổ trợ được người dùng cung cấp Các thông tin bổ trợ nhằm mục đích hướng dẫn, giám sát, điều khiển quá trình phân cụm và được xây dựng dựa trên 3 loại cơ bản sau:

- Các rảng buộc Must-link và Cannot-link: Ràng buộc Must-link yêu cầu 2 phần tử phải thuộc vào cùng 1 cụm, ngược lại ràng buộc Cannot-link chỉ ra 2 phần tử không thuộc cùng 1 cụm (mà phải thuộc 2 cụm khác nhau)

- Các nhãn lớp của một phần dữ liệu: Một phần của dữ liệu được gán nhãn

và phần còn lại không được gán nhãn

- Độ thuộc được xác định trước

Với mục tiêu nâng cao chất lượng phân cụm, năm 2008, Grira [21] sử dụng thông tin bổ trợ là là các ràng buộc Must-link và Cannot-link Theo

phương pháp này, ta ký hiệu M là tập các ràng buộc Must-link, điều này có nghĩa là M={(x i , x j ): x i và x j thuộc cùng một cụm}, ∆ là tập các ràng buộc

Cannot-link, có nghĩa là M={(x i , x j ): x i và x j không thuộc cùng một cụm}, khi đó hàm mục tiêu được xác định như sau:

2 2

Trang 40

32

Giải hệ phương trình : j C

v J

j

, , 2 , 1 ,

; 1, 2, ,

N

kj k k

kj k

2 1 1

1

FCM kj

m C

2 1

k j Constrain

k j

u x v N

k N j C M

M là tổng số các ràng buộc Must-link và Cannot-link

Thuật toán thực hiện như sau:

Input Tập dữ liệu X gồm N phần tử trong không gian r chiều; số cụm C;

ngưỡng ε; số lần lặp lớn nhất MaxStep

Output Ma trận độ thuộc U và tâm cụm V

Các bước của thuật toán

2 Khởi tạo ngẫu nhiên V (t)

3 Repeat

Định dạng
Số trang	82
Dung lượng	2,23 MB