1. Trang chủ
  2. » Luận Văn - Báo Cáo

X ly mt can bng d liu trong phan lo

9 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xử Lý Mất Cân Bằng Dữ Liệu Trong Phân Loại Tổn Thương Da Trên Ảnh Soi Da
Tác giả Võ Minh Thiện, Lê Minh Hưng, Trần Kim Tâm, Trần Văn Lăng
Trường học Trường ĐH Công nghệ Thông tin - ĐHQG TP. HCM
Chuyên ngành Khoa học Máy tính
Thể loại Kỷ yếu hội nghị
Năm xuất bản 2020
Thành phố Nha Trang
Định dạng
Số trang 9
Dung lượng 541,03 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với vấn đề mất cân bằng dữ liệu, nghiên cứu này đã thực nghiệm và so sánh các phương pháp phổ biến như cân bằng batch, gán trọng số trên lớp.. Đặc biệt, trong nghiên cứu này đề xuất một

Trang 1

X Ử LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI

Võ Minh Thi ện 1 , Lê Minh Hưng 1 , Tr ần Kim Tâm 2 , Tr ần Văn Lăng 3

1Trường ĐH Công nghệ Thông tin - ĐHQG TP HCM

2Trường Đại học Giao thông Vận tải TP HCM

3Viện Hàn lâm Khoa học và Công nghệ Việt Nam

16521170@gm.uit.edu.vn, hunglm@uit.edu.vn, kimtam.tran@ut.edu.vn, langtv@vast.vn

TÓM TẮT: Ung thư hắc tố là một bệnh lý ác tính về da, có khả năng di căn đến các cơ quan khác và tiên lượng rất nặng

nếu chẩn đoán muộn Ở giai đoạn sớm, các tổn thương ác tính này rất dễ nhầm lẫn với nốt ruồi lành tính nếu chỉ thăm khám bằng mắt thường Để khắc phục thực trạng này, máy soi da - một thiết bị quang học đã được sử dụng tại các bệnh viện da liễu để hỗ trợ các bác sĩ trong thăm khám các lớp nông của da với độ phóng đại lớn, đồng thời kết hợp với một hệ thống chụp và lưu trữ hình ảnh Cuộc thi International Skin Image Collaboration 2018 (ISIC2018) được tổ chức với nhiệm vụ phân loại ảnh tổn thương da để phát hiện sớm các bệnh lý, nhất là ung thư ác tính Dữ liệu bao gồm 10,015 ảnh soi da của 7 loại bệnh tổn thương Vấn đề chính đặt ra của bài toán này là việc mất cân bằng dữ liệu nghiêm trọng khi chênh lệch giữa lớp nhiều nhất và lớp ít nhất lên đến 60 lần Để giải quyết bài toán đặt ra, trong nghiên cứu này chúng tôi tiến hành thực hiện tinh chỉnh thông số có sẵn các mạng nơron tích chập sâu (Deep Convolutional Neural Network - DCNN) hiện đại, có thể kể đến như Inception, DenseNet Với vấn đề mất cân bằng dữ liệu, nghiên cứu này đã thực nghiệm và so sánh các phương pháp phổ biến như cân bằng batch, gán trọng số trên lớp Bên cạnh đó, nghiên cứu còn áp dụng một hàm mất mát đã mang lại những kết quả cải tiến đáng kể trong các bài toán phân loại ảnh là Large Margin Cosine Loss (CosFace) để có thể phân loại đặc trưng các lớp tốt hơn Đặc biệt, trong nghiên cứu này đề xuất một phương pháp mới là phương pháp gán trọng số động (Dynamic Classweight) nhằm mong muốn tạo nên một mô hình có khả năng thích nghi

và không phụ thuộc vào tỷ lệ các lớp, hay là sự mất cân bằng dữ liệu Kết quả của phương pháp đề xuất cho thấy sự cải thiện tốt rõ rệt với độ chính xác đạt 82,9 % so với khi không can thiệp vào hàm mất mát là 70,7 % trên hệ thống kiểm thử của cuộc thi ISIC2018

Từ khóa: Ung thư da, ISIC2018, CosFace, Dynamic Classweight

I GIỚI THIỆU

Ung thư da là một trong những ung thư phổ biến ở Mỹ, với hơn 5 triệu trường hợp mắc phải được chẩn đoán hằng năm Ung thư hắc tố là giai đoạn nguy hiểm nhất của ung thư da, với xấp xỉ 91.000 ca bệnh mắc mới mỗi năm ở

Mỹ và hơn 9.000 người chết Điều trị ung thư hắc tố da tiêu tốn hơn 3 triệu đô la Mỹ mỗi năm chỉ tính riêng ở Mỹ Ung thư da đặt ra vấn đề như là một mối đe dọa lớn đến với sức khỏe cộng đồng Ở Úc, hơn 14.000 ca mắc bệnh mới của ung thư hắc tố được báo cáo hằng năm, gây ra 2.000 cái chết Ở châu Âu, hơn 100.000 ca mắc ung thư hắc tố mới và 22.000 cái chết liên quan đến ung thư hắc tố được báo cáo định kỳ hằng năm Một điều đáng báo động là không giống nhiều loại ung thư khác, tỷ lệ mắc bệnh của ung thư hắc tố đã tăng một cách đều đặn qua những thập kỷ gần trở lại đây,

từ năm 1990 đến năm 2018, đã ghi nhận sự tăng lên đến 225 % ở Mỹ [1]

Trong quá khứ, phương thức chẩn đoán chính của ung thư hắc tố là thăm khám lâm sàng không có sự hỗ trợ, điều này làm cho độ chính xác bị giới hạn và biến động, dẫn đến những thách thức quan trọng trong phát hiện sớm bệnh lẫn hạn chế việc sinh thiết không cần thiết Trong những năm gần đây, kỹ thuật soi da được ra đời, đây một kỹ thuật hình ảnh có độ phân giải cao trên da cho phép sự hiển thị của các cấu trúc da sâu hơn bằng cách giảm phản xạ bề mặt, với độ phóng đại từ 10 đến 100 lần, điều này góp phần cải tiến khả năng chẩn đoán của các chuyên gia Đây là một tiến bộ mới trong chẩn đoán lâm sàng các thương tổn có sắc tố, cho phép gia tăng hiệu năng chẩn đoán so với quan sát và thăm khám đơn thuần bằng mắt thường [2], hạn chế bỏ sót các tổn thương ung thư hắc tố ở giai đoạn sớm

Hình 1 Hình ảnh lâm sàng và ảnh soi da của một nốt ruồi lành tính

Những năm trở lại đây, cùng với sự phát triển của khoa học kỹ thuật và công nghệ, các hệ thống máy tính hỗ trợ phát hiện và chẩn đoán (Computer-Aided Detection And Diagnosis System - CAD/CADx) đã và đang hỗ trợ các nhà bệnh lý học, các bác sĩ trong việc phát hiện các bất thường bệnh lý trong lĩnh vực hình ảnh y khoa nói chung và bài toán phân loại các tổn thương da được nghiên cứu ở đây nói riêng, giúp nâng cao độ chính xác trong việc chẩn đoán và phát hiện sớm các tổn thương, mà đặc biệt là ung thư hắc tố, đồng thời giảm bớt khối lượng công việc, thời gian của các chuyên gia này Những cách tiếp cận sớm ban đầu phụ thuộc vào việc trích xuất đặc trưng do chuyên gia đề xuất (hand-crafted) để có thể đưa chúng vào các bộ phân lớp truyền thống [3], [4] Gần đây, những cách tiếp cận dựa trên học sâu (deep learning) đã cho thấy những thành công lớn trong lĩnh vực hình ảnh y khoa [5] Một sự mở rộng cho phương pháp trích xuất đặc trưng cổ điển là sử dụng học sâu để trích xuất đặc trưng kết hợp với các phương pháp máy

Trang 2

học thông thường để giải quyết bài toán phân loại tổn thương da [6], [7] Nhiều hướng tiếp cận hướng đến xây dựng mạng nơron tích chập (CNN) có khả năng học đầu-cuối cho chẩn đoán tổn thương da [8], [9], [10] Thêm vào đó, nhiều hướng tiếp cận đa mô hình sử dụng ảnh lâm sàng, ảnh soi da và siêu dữ liệu đã được đề xuất [11], cũng như một phương pháp kết hợp sự phân đoạn ảnh và thông tin cấu trúc tổn thương vào cùng một hệ thống [12] Bên cạnh đó, nghiên cứu của Esteva et al [13] thể hiện một nền tảng của chẩn đoán tổn thương da với hiệu suất như một bác sĩ da liễu đạt được bởi một mạng CNN Ở nghiên cứu của họ, nhóm tác giả đã huấn luyện kiến trúc mạng Inception-V3 [14] trên 130,000 bức ảnh lâm sàng và so sánh dự đoán của nó so với đánh giá của 21 bác sĩ gia liễu có tay nghề Trong khi đây là một thành tựu đáng chú ý, hiệu suất cao đạt được phần lớn nhờ vào kích thước dữ liệu khổng lồ với một mô hình tiêu chuẩn thay vì mô hình thiết kế chuyên biệt cho chẩn đoán tổn thương da

Bộ dữ liệu HAM10000 được công bố công khai [15] Bộ dữ liệu gồm 10015 ảnh soi da có thể phục vụ như là một tiêu chuẩn cho chẩn đoán tổn thương da HAM được sử dụng như là một tập huấn luyện cho cuộc thi “ISIC2018 Skin Lesion Diagnosis Challenge” với 7 lớp Trong khi những nghiên cứu trước đây phần lớn tập trung vào phân lớp nhị phân để xác định tổn thương cần sinh thiết (“biopsy”) hay không cần sinh thiết (“no biopsy”), bộ dữ liệu HAM10000 rất phù hợp cho một bài toán phân loại tổn thương da nhiều lớp kèm theo nhiều thách thức hơn phải giải quyết, đặc biệt là vấn đề mất cân bằng dữ liệu, một vấn đề phổ biến trong các bài toán phân loại ảnh y khoa, do đặc thù các bệnh lý về da trong đời sống vốn dĩ không đồng đều, có những bệnh nguy hiểm nhưng lại thường ít gặp hơn so với các bệnh lành tính khác Bài báo này có những đóng góp như sau:

Xử lý tập dữ liệu HAM10000 cuộc thi ISIC2018 và chọn ra phương pháp tiền xử lý ảnh đầu vào để giữ được nhiều đặc trưng nhất của ảnh soi da

Xây dựng mô hình CNN kết hợp các phương pháp xử lý mất cân bằng quen thuộc như cân bằng batch, trọng

số trên lớp, đồng thời áp dụng hàm mất mát mới là LMCL và phương pháp mới là gán trọng số động

Thực hiện phương pháp kết hợp (esssemble) giữa các mô hình để nâng cao hiệu suất

II PHƯƠNG PHÁP

A Tiền xử lý ảnh đầu vào

Nghiên cứu này xác định vấn đề mấu chốt đầu tiên chính là việc sử dụng ảnh có độ phân giải cao Thông thường, ảnh được giảm kích thước (downsampling) xuống thành kích thước đầu vào có độ phân giải thấp hơn cho phù hợp với các mô hình CNN, vì bộ nhớ và tài nguyên tính toán của máy tính thì có giới hạn Quá trình downsampling chỉ

ra rằng nhiều thông tin quan trọng trong ảnh bị mất sẽ là một vấn đề quan trọng trong ngữ cảnh y khoa

Bên cạnh đó, những hướng tiếp cận dựa trên patch mà sử dụng những crop nhỏ từ ảnh có độ phân giải cao làm đầu vào của một mạng CNN được sử dụng thường xuyên Để có được toàn bộ bức ảnh với những ảnh xén (crop) nhỏ, theo truyền thống, phương pháp đánh giá multi-cropđược sử dụng khi mà xác suất dự đoán từ tất cả các ảnh xén được kết hợp lại, thông qua lấy trung bình hoặc bình chọn Cách tiếp cận này có thể là lợi thế vì việc sử dụng những patch nhỏ thì thấp về mặt tính toán và quan trọng hơn, các kiến trúc mạng thông thường được huấn luyện sẵn từ ảnh trong đời sống thực tế với kích thước đầu vào nhỏ thông thường là 224 x 224 có thể được sử dụng Tuy nhiên, phương pháp đánh giá multi-crop có thể là thách thức vì các patch cục bộ cần được kết hợp một cách có ý nghĩa Những phương pháp đơn giản như lấy trung bình hay bỏ phiếu xem tất cả các patch một cách như nhau sẽ là vấn đề đối với việc phân lớp tổn thương da vì trên thực tế tổn thường chỉ bao phủ một phần của ảnh [16]

Hình 2 Phương pháp Multi-crop với n=9 cho thấy sự không đồng đều giữa các crop [16]

Do đó, ở vấn đề đầu tiên này, chúng tôi chọn thực hiện kết hợp cả phương pháp single-crop (crop đơn thuần) và đánh giá multi-crop và gọi nó là đánh giá random multi-crop (đánh giá multi-crop ngẫu nhiên) Với mong muốn tạo ra

một sự đa dạng đặc trưng từ dữ liệu trong quá trình huấn luyện và đề cao yếu tố ngẫu nhiên của mô hình huấn luyện được, đồng thời cũng sử dụng downsampling để so sánh Cụ thể:

1 Downsampling

Đầu tiên, cơ bản và thường được sử dụng nhất chính là phương pháp downsampling, thực hiện giảm trực tiếp

kích thước cả bức ảnh xuống kích thước đầu vào của các mô hình như Hình 3 Phương pháp này được sử dụng cho cả giai đoạn huấn luyện và đánh giá Bài báo sử dụng phương pháp này như một hệ quy chiếu cơ bản để so sánh

Trang 3

2 Single-Crop

Kế tiếp là phương pháp Single-Crop, thực hiện crop ảnh một cách ngẫu nhiên và thay đổi kích thước thành kích

thước đầu vào của mô hình trong suốt quá trình huấn luyện như Hình 3 Do đó, có thể đạt được thêm sự đa dạng của dữ liệu trong suốt quá trình huấn luyện Ở giai đoạn đánh giá, một crop trung tâm chiếm 85 % của ảnh được lấy và thay đổi kích thước thành kích thước đầu vào của mô hình Phương pháp này tương tự như chiến thuật được sử dụng cho

mô hình DenseNet121 và Inception-V3 ở bài báo gốc [14], [17]

Hình 3 Các phương pháp tiền xử lý ảnh đầu vào

3 Multi-Crop

Phương pháp Multi-Crop không thay đổi kích thước của ảnh và crop một cách ngẫu nhiên các patch về kích thước đầu vào của mô hình Trong suốt quá trình đánh giá, việc crop có thứ tự nơi mà vị trí của mỗi patch được cố định tại một điểm được định nghĩa trước trong ảnh Sau đó, tiến hành lấy trung bình trên xác suất dự đoán của tất cả các ảnh xén Số lượng của ảnh xén là Nc thuộc {5, 9, 16} trong đó 5 bao phủ bốn góc và trung tâm, 9 và 16 thì được phân bố đều ảnh với những phần trùng lặp giữa các patches, ví dụ với Nc = 16 ở Hình 3 Phương pháp này đã được sử dụng thành công cho phân lớp tổn thương da [18]

4 Random Multi-crop

Nghiên cứu này đề xuất phương pháp Random Crop, được dựa trên ý tưởng của Single-Crop và Multi-Crop, ảnh sẽ được xén một cách ngẫu nhiên trong suốt quá trình huấn luyện, với tỷ lệ dao động 0,08 đến 1,0 so với kích thước ảnh gốc và trong quá trình đánh giá, ảnh sẽ được xén ngẫu nhiên 32 lần, sau đó được tổng hợp bằng phương pháp lấy trung bình các giá trị xác suất dự đoán Phương pháp này cho ra kết quả cải thiện rõ rệt so với phương pháp Downsampling cơ bản

Trong nghiên cứu này, phương pháp tăng cường dữ liệu được thực hiện trong quá trình huấn luyện, chỉ bao gồm lật ảnh trái phải và trên dưới không thực hiện xoay ảnh và điều chỉnh màu của ảnh

B Xử lý mất cân bằng dữ liệu

1 Oversampling

Nghiên cứu này thực hiện lặp lại những mẫu của từng lớp trong tập huấn luyện mà các lớp có số lượng mẫu bằng nhau Trong suốt quá trình huấn luyện, lấy mẫu một cách đồng đều và ngẫu nhiên từ tập mẫu mới này Ở cách này, một số lượng mẫu bằng nhau từ mỗi lớp sẽ được xuất hiện xuyên suốt toàn bộ quá trình huấn luyện Tuy nhiên, trong quá trình thực nghiệm, chúng tôi nhận kết quả cho thấy phương pháp này không phù hợp do khối lượng dữ liệu được phình to ra nhưng lại không có sự thay đổi về cấu trúc ảnh, dẫn đến tốn kém trong chi phí tính toán và thời gian huấn luyện

Hình 4 Minh họa cho phương pháp Oversampling

Trang 4

2 Balanced batches

Cách tiếp cận Oversampling không đảm bảo một số lượng bằng nhau của các mẫu trong mỗi batch, mà chỉ sấp

xỉ trong toàn bộ quá trình huấn luyện Do đó, nghiên cứu cũng cho thấy một cách nghiêm ngặt cân bằng mẫu tại mỗi batch được xây dựng sao cho nó chứa một cách chính xác số lượng mẫu của mỗi lớp

Hình 5 Minh họa cho phương pháp Balanced batches

3 Trọng số lớp - classweight

Đây là phương pháp phổ biến được dùng đối với các bài toán có sự mất cân bằng giữa các lớp, với mục đích

“trừng phạt” mạnh hơn đối với các lớp có số lượng mẫu ít, nghĩa là khi dự đoán sai các lớp hiếm gặp này sẽ gây ra một biến động lớn trong hàm mất mát, làm ảnh hưởng đến quá trình tối ưu hóa và hội tụ của mô hình, và ngược lại đối với các lớp chiếm ưu thế Công thức được biểu diễn như sau:

trong đó:

chính là trọng số ở lớp thứ i,

ni là số lượng mẫu của lớp thứ i,

N là tổng số mẫu dữ liệu, c là tổng số lớp

Có thể nói đây là phương pháp đơn giản nhưng mang lại hiệu quả rõ rệt nhất trong các bài toán mất cân bằng các lớp trong bộ dữ liệu

4 Trọng số lớp động - dynamic classweight

Ngoài ra, nghiên cứu này cũng đề xuất thử nghiệm một phương pháp mới chính là trọng số lớp động (dynamic classweights) Các trọng số thay đổi ngẫu nhiên liên tục này sẽ được gán vào hàm mất mát trong suốt quá trình huấn luyện, có thể là trên mỗi epoch hoặc trên từng batch, với công thức như sau:

∑ ( ) ( ) ( ) trong đó:

H là giá trị hàm mất mát thu được sau cùng,

( )có giá trị bằng 1 khi nhãn của ảnh đang xét và bằng 0 khi thuộc các nhãn khác,

( ) là xác suất dự đoán thu được từ mô hình,

( ) trọng số được chọn ngẫu nhiên trong khoảng [1, 1 + s, 1 + 2s,…, α - 2s, α - s, α] Ở đây giá trị mặc định là α = 100 và s = 1

Bằng cách kết hợp phương pháp balanced batches và dynamic class weights, nghiên cứu này mong muốn tạo ra một mô hình có khả năng tương thích trong điều kiện thay đổi của các trọng số lớp cổ điển, hướng tới việc giải quyết mất cân bằng dữ liệu

C Áp dụng hàm mất mát Large Margin Cosine Loss

Nhận diện khuôn mặt đã có những phát triển mạnh nhờ vào sự tiến bộ của mạng CNN Nhiệm vụ trọng tâm của nhận diện khuôn mặt đó chính là xác thực và định danh khuôn mặt, liên quan đến phân biệt các đặc trưng khuôn mặt khác nhau Tuy nhiên, hàm mất mát Softmax truyền thống mạng CNN thường thiếu khả năng phân biệt mạnh Để giải quyết vấn đề này, một vài hàm mát mát gần đây như Center Loss, Large Margin Softmax Loss, Angular Softmax Loss

và Large Margin Cosine Loss [19] đã được đề xuất Tất cả những hàm mất mát cải tiến này đều có chung một ý tưởng

đó là: tối đa sự khác biệt giữa các lớp khác nhau và tối thiểu sự khác nhau trong một lớp Trong đó, Large Margin Cosine Loss (LMCL) cho thấy kết quả cải thiện khá rõ rệt và đạt được state-of-the-art về hiệu suất trên các chuẩn đo về nhận diện khuôn mặt

(1)

(2)

Trang 5

Hình 6 Tổng quan về mô hình CosFace sử dụng LMCL [19]

Với hàm mất mát Softmax, và vector đặc trưng xi tương ứng với nhãn yi, hàm mất mát Softmax được biểu diễn như công thức sau:

∑ ∑ ∑

trong đó:

pi ký hiệu cho xác suất của xi sau khi được phân loại một cách chính xác,

N là số lượng mẫu huấn luyện, C là số lượng lớp,

fj thường được ký hiệu như là sự kích hoạt của lớp FC với vector trọng số Wj và Bj

Hàm LMCL được định nghĩa bởi công thức sau:

∑ ( ( ) )

( ( ) ) ∑ ( ) Tùy thuộc theo:

‖ ‖ ‖ ‖ ( ) trong đó:

N là số lượng mẫu huấn luyện,

là vector đặc trưng thứ i tương ứng với nhãn là yi,

Wj là vector trọng số của lớp thứ j,

θj là góc giữa Wj và xi,

s và m là 2 siêu tham số

Trong bài báo này chúng tôiáp dụng hàm mất mát LMCL thay thế cho hàm Softmax thông thường, với kỳ vọng

sẽ tạo ra được những đặc trưng có khả năng phân biệt cao, từ đó nâng cao được độ chính xác của các mô hình, đồng thời kết hợp với các phương pháp xử lý mất cân bằng khác

Hình 7 Một ví dụ trực quan so sánh đặc trưng được tạo ra bởi LMCL với các giá trị m khác nhau [19]

(3)

(4)

Trang 6

D Mô hình mạng

Trong nghiên cứu này, sử dụng 02 mô hình là Inception-V3 [14] và DenseNet201 [17] được huấn luyện sẵn trên tập dữ liệu ImageNet mang lại hiệu quả cao hơn so với việc huấn luyện mạng lại từ đầu [18] Đồng thời, thực hiện phương pháp kết hợp (essemble) giữa các hướng tiếp cận dựa trên 2 mô hình này bằng cách lấy trung bình các xác suất

dự đoán ở đầu ra và nâng cao độ chính xác của các mô hình

III THỬ NGHIỆM VÀ ĐÁNH GIÁ

A Tập dữ liệu HAM10000 (ISIC2018)

Bộ dữ liệu chứa 10015 bức ảnh để được phân loại thành 7 lớp khác nhau, với kích thước là 600 x 450 pixel Phân bố của dữ liệu thể hiện một thực tế trong thế giới thực với phần lớn tổng thể là hình ảnh lành tính trong khi những trường hợp ác tính vẫn còn ít Phân bố lớp của tập dữ liệu được hiển thị ở Bảng 1, cho thấy nổi bật lên vấn đề mất cân bằng lớp vốn có như là một vấn đề then chốt cần giải quyết Ở đây, tổn thương gồm có 7 loại bao gồm: melanoma (mel), melanocytic nevus (nv), basal cell carcinoma (bcc), actinic keratosis (akiec), benign keratosis (bkl), dermatofibroma (df) và vascular lesions (vasc)

Hình 8 Ví dụ minh họa về 7 lớp của tập dữ liệu HAM10000, cuộc thi ISIC2018

Ngoài ra, một tập gồm 1512 ảnh không công khai, được sử dụng là tập kiểm tra và ghi nhận điểm trong suốt quá trình diễn ra cuộc thi Tất cả các đánh giá, kiểm tra cuối cùng của nghiên cứu này đều được thực hiện trên tập kiểm thử này và được ghi nhận thông qua hệ thống chấm trực tuyến của cuộc thi

Bảng 1 Phân bố các lớp của bộ dữ liệu HAM10000, cuộc thi ISIC2018

Để đảm bảo hạn chế sự ngẫu nhiên không đáng có khi chia tập dữ liệu, nghiên cứu này sử dụng 5-fold crossvalidation chia tập dữ liệu trên thành 5 bộ dữ liệu, mỗi bộ sẽ gồm 8012 ảnh để huấn luyện, 2003 ảnh để đánh giá

và tinh chỉnh siêu tham số, mỗi bộ đều đảm bảo tỷ lệ phân bố của các lớp trong tập huấn luyện và đánh giá là như nhau

và giống như tỷ lệ phân bố trên bộ dữ liệu gốc Chúng tôi tiến hành thực hiện các thực nghiệm trên bộ dữ liệu fold-1, sau khi tinh chỉnh và chọn được cấu hình tối ưu, tiến hành huấn luyện lại các bộ dữ liệu các fold còn lại đồng thời sử

dụng phương pháp esemble models để ghi nhận kết quả cuối cùng

B Độ đo

Về những chuẩn đo khi đánh giá, bản chất của vấn đề phân loại tổn thương đa lớp phải được tính đến Một độ chính xác (accuracy) bình thường sẽ ủng hộ và khuyến khích sự phân lớp chính xác của những lớp xuất hiện nhiều, và

sẽ không đánh giá đúng được hiệu suất đối với các tập dữ liệu mất cân bằng Do đó, theo đề xuất của Nil Gessert el at [16], nghiên cứu này sử dụng multiclass sensitivity (MC-Sensitivity) viết tắt là S để đánh giá hiệu quả của những cách tiếp cận, được định nghĩa bởi công thức:

trong đó: TP biểu thị True Positives, FN biểu thị False Negatives, C biểu thị số lượng lớp

Độ đo này cũng chính là Macro-Recall, được tính bằng cách lấy trung bình cộng các Recall của mỗi lớp Ngoài

ra, độ đo này còn được gọi là overall balanced accuracy (BACC) theo cách quy ước của cuộc thi ISIC2018 Để thống nhất và tiện theo dõi, trong bài báo này sẽ dùng ký hiệu BACC cho các kết quả ghi nhận được cuối cùng trên hệ thống cuộc thi

(5)

Trang 7

C Các thực nghiệm

Trước tiên, để đánh hiệu quả của phương pháp tiền xử lý ảnh đầu vào, nghiên cứu này tiến hành so sánh trên hai nhóm thực nghiệm lớn là sử dụng downsampling đơn thuần và sử dụng random multi-crop với 32 crops và chỉ dùng trên tập dữ liệu fold-1 Ở nhóm sử dụng downsampling, chúng tôi thực hiện các thực nghiệm sau:

So sánh việc không sử dụng và có sử dụng riêng lẻ các phương pháp xử lý mất cân bằng dữ liệu như: classweight, balanced batches và dynamic classweight và cũng như dùng hàm mất mát LMCL

So sánh việc sử dụng kết hợp các phương pháp trên

Sau khi đã tìm ra phương pháp tốt nhất ở trường hợp downsampling, chúng tôi tập trung thực nghiệm các phương pháp này trên trường hợp random multi-crop vẫn ở tập dữ liệu fold-1 Và cuối cùng, tiến hành thực hiện các phương pháp tốt nhất trên tất cả 5 fold cũng như thực hiện essemble các phương pháp lại để cho ra kết quả cuối cùng Phương pháp huấn luyện và tối ưu: trong nghiên cứu này chọn giải thuật tối ưu Stochastic Gradient Descent (SGD) trong suốt quá trình thực nghiệm Các thông số của quá trình huấn luyện như learning rate, batch size, momentum được điều chỉnh sao cho mỗi trường hợp đạt kết quả cao nhất, số epoch rơi vào khoảng 200-300 epoch một lần chạy thực nghiệm

D Kết quả thử nghiệm

Ở nhóm thực nghiệm downsampling sử dụng riêng lẻ các phương pháp đề xuất, kết quả ở Bảng 2 cho thấy các phương pháp đề xuất đều mang lại độ chính xác BACC cao hơn so với không xử lý, kết quả cũng cho thấy mô hình DenseNet201 đều cho kết quả cao hơn mô hình Inception-V3

Bảng 2 Kết quả đối với nhóm downsampling sử dụng riêng lẻ phương pháp xử lý mất cân bằng và hàm LMCL

Không xử lý mất cân bằng 60,2 70,7 Classweight 70,4 72,1 Balanced batches 69,6 74,0 Dynamic weight on epoch 69,2 71,4 Dynamic weight on batch 70,5 72,0

Ở nhóm thực nghiệm downsampling sử dụng riêng lẻ các phương pháp đề xuất, kết quả ở Bảng 3 cho thấy cách kết hợp giữa Classweight với LMCL, Balanced batches với Dynamic weight on batch cho ra độ chính xác BACC cao hơn hẳn so với khi sử dụng riêng lẻ từng phương pháp cũng như không xử lý mất cân bằng Tuy nhiên, ở mô hình Inception-V3 thì sự cải thiện này tương đối không nhiều Hai cách kết hợp này được chọn để thực nghiệm các trường hợp tiếp theo trong nghiên cứu này

Bảng 3 Kết quả đối với nhóm downsampling sử dụng kết hợp phương pháp xử lý mất cân bằng và hàm LMCL

Classweight + LMCL 75,1 75,4

Balanced batches + Dynamic weight on batch 71,7 76,1

Balanced batches + LMCL 71,8 75,2 LMCL + Dynamic weight on batch 60,1 70,1 Balanced batches + LMCL + Dynamic weight on batch 65,4 68,8

Ở nhóm thực nghiệm random multi-crop với số crops là 32, kết quả ở Bảng 4 cho thấy cách không xử lý mất cân bằng và cách kết hợp giữa Classweight với LMCL, Balanced batches với Dynamic weight on batch cho ra độ chính xác BACC cao hơn hẳn so với khi sử dụng phương pháp tiền xử lý ảnh là downsampling

Bảng 4 Kết quả đối với nhóm random multi-crop

Không xử lý mất cân bằng 73,2 75,5 Classweight + LMCL 80,3 80,0 Balanced batches + Dynamic weight on batch 79,5 80,7

Cuối cùng, ở nhóm thực nghiệm random multi-crop với số crops là 32 và thực hiện essemble trên cả 5 fold cũng như các phương pháp với nhau, kết quả ở Bảng 5 cho thấy mô hình DenseNet201 đều đạt được kết quả cao hơn hẳn Inception-V3, việc kết hợp 2 mô hình lại với nhau dẫn đếnhiệu suất cải thiện không đáng kể

Trang 8

Bảng 5 Kết quả đối với nhóm random multi-crop và thực hiện essemble trên cả 5 fold và essemble các phương pháp với nhau

Classweight + LMCL 79,4 80,0 Balanced batches + Dynamic weight on batch 77,5 80,7

Essemble 2 phương pháp 78,3 82,6

Esemble cả 2 mô hình 82,9

IV KẾT LUẬN

Nghiên cứu này đã tiến hành tìm hiểu bộ dữ liệu HAM10000 (ISIC2018) cho bài toán phân loại tổn thương da

và xác định các phương pháp xử lý mất cân bằng dữ liệu cũng như áp dụng hàm mất mát LMCL để tăng khả năng phân loại Đồng thời, áp dụng phương pháp kết hợp giữa trọng số lớp cơ bản và hàm LMCL cũng như cách kết hợp cân bằng batch và trọng số lớp động được đề xuất mới đều cho ra kết quả cải thiện rõ rệt, với độ chính xác BACC cuối cùng đạt

82,9 % Kết quả này đạt được hạng thứ 2 đối với các mô hình chỉ sử dụng dữ liệu công khai của cuộc thi và hạng thứ 6 đối với tất cả các mô hình dự thi cuộc thi ISIC2018 (bao gồm cả sử dụng bộ dữ liệu ngoài) Kỹ thuật đề xuất có thể được ứng dụng hiệu quả để khắc phục tính mất cân bằng dữ liệu cho các bài toán xử lý ảnh y khoa khác

Một số nghiên cứu cho thấy việc ứng dụng mô hình GAN (Generative adversarial network) vào giải quyết vấn

đề thiếu và mất cân bằng dữ liệu về tổn thương da nói riêng hay dữ liệu ảnh y khoa nói chung Ngoài ra, việc nghiên cứu và đánh giá thật kỹ phương pháp multi-crop có thể giúp tận dụng hết mức có thể các thông tin trong hình ảnh tổn thương da, từ đó giúp phân loại các lớp tốt hơn

V LỜI CẢM ƠN

Bài báo được hoàn thành dưới sự hỗ trợ của đề tài VAST-1.03/19-20 của Viện Hàn lâm Khoa học và Công nghệ Việt Nam

TÀI LIỆU THAM KHẢO

[1] M E Celebi, N Codella, and A Halpern "Dermoscopy image analysis: Overview and future directions" IEEE journal of biomedical and health informatics, 2019

[2] M E Vestergaard, P Macaskill, P E Holt, and S W Menzies, “Dermoscopy compared with naked eye examination for the diagnosis of primary melanoma: A meta-analysis of studies performed in a clinical setting”, Brit J Dermatol., Vol 159, No 3, pp 669-676, 2008

[3] M Maragoudakis and I Maglogiannis, “Skin lesion diagnosis fromimages using novel ensemble classification techniques”, in InformationTechnology and Applications in Biomedicine (ITAB), 10th

IEEE International Conference on IEEE, 2010, pp 1-5, 2010

[4] A Madooei et al., “Intrinsic melanin and hemoglobin colour componentsfor skin lesion malignancy detection”, in MICCAI Springer, pp.315-322, 2012

[5] G Litjens et al., “A survey on deep learning in medical image analysis”, Medical Image Analysis, Vol 42, pp

60-88, 2017

[6] N Codella et al., “Deep learning, sparse coding, and svm for melanomarecognition in dermoscopy images”, in International Workshop on Machine Learning in Medical Imaging Springer, pp 118-126, 2015

[7] J Kawahara et al., “Deep features to classify skin lesions”, in ISBI, pp 1397-1400, 2016

[8] J Kawahara and G Hamarneh, “Multi-resolution-tract CNN with hybridpretrained and skin-lesion trained layers”,

in International Workshop onMachine Learning in Medical Imaging Springer, pp 164-171, 2016

[9] A R Lopez et al., “Skin lesion classification from dermoscopic imagesusing deep learning techniques”, in Biomedical Engineering (BioMed),2017 13th IASTED International Conference on IEEE, pp 49-54, 2017 [10] J Yang et al., “Clinical skin lesion diagnosis using representationsinspired by dermatologist criteria”, in CVPR, Vol 11, 2018

[11] J Kawahara et al., “7-point checklist and skin lesion classification usingmulti-task multi-modal neural nets”, IEEE Journal of Biomedical andHealth Informatics, 2018

[12] I G Diaz, “Dermaknet: Incorporating the knowledge of dermatologiststo convolutional neural networks for skin lesion diagnosis”, IEEEJournal of Biomedical and Health Informatics, 2018

[13] A Esteva et al., “Dermatologist-level classification of skin cancer withdeep neural networks”, Nature, Vol 542,

No 7639, pp 115, 2017

[14] C Szegedy et al., “Rethinking the inception architecture for computervision”, in CVPR, pp 2818-2826, 2016

Trang 9

[15] P Tschandl et al., “The HAM10000 dataset, a large collection ofmulti-source dermatoscopic images of common pigmented skin lesions”, Scientific Data, Vol 5, No 180161, 2018

[16] Gessert, Nils & Sentker, Thilo & Madesta, Frederic & Schmitz, Rudiger & Kniep, Helge & Baltruschat, Ivo & Werner, René & Schlaefer, Alexander "Skin Lesion Classification Using CNNs With Patch-Based Attention and Diagnosis-Guided Loss Weighting" IEEE Transactions on Biomedical Engineering pp 1-1 10.1109/TBME.2019.2915839, 2019

[17] G Huang et al., “Densely connected convolutional networks”, in CVPR, 2017

[18] N Gessert et al., “Skin lesion diagnosis using ensembles, unscaled multicrop evaluation and loss weighting”, arXiv preprint arXiv:1808.01694, 2018

[19] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Zhifeng Li,Dihong Gong, Jingchao Zhou, and Wei Liu "Cos face: Largemargin cosine loss for deep face recognition" In CVPR, 2018

HANDLE IMBALANCE OF DATA IN SKIN LESION CLASSIFICATION ON DERMOSCOPY

Vo Minh Thien, Le Minh Hung, Tran Kim Tam, Tran Van Lang

ABSTRACT: Melanoma is a malignant skin condition that has the potential to spread to other organs and has a very severe

prognosis if diagnosed late In an early stage, these malignant lesions are easy to confuse with benign moles if they are only examined with the naked eye To overcome this situation, dermoscopes - an optical device that has been used in dermatology hospitals to assist physicians in examining shallow layers of the skin with a large magnification, at the same time with an image capture and storage system The International Skin Image Collaboration 2018 (ISIC2018) is organized with the task of classifying photos of skin lesions for early detection of diseases, especially malignant cancer Data included 10,015 skin scans of 7 lesions The main problem posed by this problem is the severe data imbalance when the difference between the largest layer and the least layer reaches 60 times To solve the problem posed, in this study, we conduct to refine the available parameters of modern Deep Convolutional Neural Network (DCNN), such as Inception, DenseNet Given the problem of data imbalances, this study has experimented with and compared popular methods such as batch balancing and class weighting In addition, the study also applied

a loss function that has brought about significant improvements in image classification problems, namely Large Margin Cosine Loss (CosFace) to better classify classes In particular, in this study, a new method is proposed which is the dynamic classweight method, aiming to create a model that is adaptable and does not depend on the ratio of classes, or the data imbalance The results of the proposed method show a marked improvement with an accuracy of 82.9 % compared with 70.7 % when not interfering with the loss function on the test system of the ISIC2018 competition

Ngày đăng: 16/12/2022, 18:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w