Trong bài viết này, nhóm tác giả đề xuất mô hình mạng perceptron đa tầng thực hiện tấn công không lập mẫu trong đánh giá bảo mật phần cứng cho mã mật AES-128. Đồng thời, bài viết còn đề xuất giải pháp sử dụng kỹ thuật phân tích tương quan công suất tiêu thụ trong xây dựng tập dữ liệu cho mạng perceptron đa tầng.
Trang 1Kết hợp mạng perceptron đa tầng và phân tích tương quan công suất tiêu thụ trong đánh giá
bảo mật đối với mã mật AES-128 Hoàng Văn Phúc, Đỗ Ngọc Tuấn, Lê Văn Nam và Lưu Văn Tuấn
Viện Tích hợp hệ thống, Học viện Kỹ thuật Quân sự
Số 236 Hoàng Quốc Việt, Quận Bắc Từ Liêm, Hà Nội
Email: phuchv@mta.edu.vn
Tóm tắt— Ứng dụng trí tuệ nhân tạo trong lĩnh vực bảo
mật phần cứng đang trở thành một xu hướng nghiên cứu
trên thế giới Trong bài báo này, nhóm tác giả đề xuất
mô hình mạng perceptron đa tầng thực hiện tấn công
không lập mẫu trong đánh giá bảo mật phần cứng cho
mã mật AES-128 Đồng thời, chúng tôi đề xuất giải pháp
sử dụng kỹ thuật phân tích tương quan công suất tiêu
thụ trong xây dựng tập dữ liệu cho mạng perceptron đa
tầng Kết quả thực nghiệm, phân tích trên phần cứng mã
hóa giúp khẳng định tính khả thi cao của các đề xuất
trong việc ứng dụng trí tuệ nhân tạo cho đánh giá bảo
mật phần cứng
Từ khoá- Mạng perceptron đa tầng, phân tích tương
quan công suất, tấn công không lập mẫu, tấn công kênh
bên, mã hóa AES
I GIỚITHIỆU Trong thời đại kỹ thuật số ngày nay, các thiết bị mã
hoá sẽ thực hiện biến bản tin rõ thành bản tin được mã
hoá để bảo vệ dữ liệu Tuy nhiên, trong quá trình thực
thi mã hoá hoặc giải mã thì các thiết bị này luôn có sự
rò rỉ thông tin nhất định và được gọi là thông tin kênh
kề, ví dụ thời gian thực hiện, bức xạ điện từ trường,
công suất tiêu thụ điện Từ các nguyên lý kỹ thuật căn
bản về cấu tạo của các vi mạch điện tử, chúng ta nhận
định rằng công suất tiêu thụ của thiết bị mã hoá không
phải là một tham số ngẫu nhiên mà nó phụ thuộc rất
nhiều vào quá trình thiết bị xử lý dữ liệu, đặc biệt là
thực hiện tính toán trong thời gian đủ lớn Do đó, thông
tin về công suất tiêu thụ không mong muốn này được
chính kẻ tấn công lợi dụng nhằm phân tích và đánh cắp
các khoá bí mật
Tấn công kênh bên thường được chia thành hai
hướng tiếp cận đó là tấn công lập mẫu (Profile attack)
và không lập mẫu (Non-profile attack) Đối với tấn
công lập mẫu, điển hình là Template attack [1], người
tấn công cần thực hiện hai bước quan trọng Thứ nhất
là lập mẫu, người tấn công phải có một thiết bị có chức
năng và cấu tạo giống hệt như thiết bị mục tiêu và có
đầy đủ quyền thực thi trên thiết bị Sau đó người tấn
công sẽ phải thực hiện mã hóa và ghi lại một lượng lớn
power trace của mỗi từ khóa dự đoán Thứ hai là áp
dụng mẫu đã có lên thiết bị mục tiêu Người tấn công
thực hiện mã hóa trên thiết bị mục tiêu, ghi lại một
lượng nhỏ vết năng lượng (power trace), so sánh các khóa dự đoán với mẫu đã lập và xác định key với mẫu nào giống nhất Về lý thuyết, tấn công lập mẫu được coi là tấn công hiệu quả khi chỉ cần một lượng nhỏ power trace Tuy nhiên, tấn công lập mẫu thường khó
áp dụng trên thực tế khi mà người tấn công chỉ có duy nhất thiết bị mục tiêu và lượng power trace ghi được bị giới hạn Ngược lại, với tấn công không lập mẫu, ví dụ như tấn công phân tích vi sai công suất tiêu thụ (DPA: Differential Power Analysis) [2], hoặc tấn công phân tích tương quan công suất (CPA: Correlation Power Analysis) [3], người tấn công chỉ cần sử dụng thiết bị mục tiêu để ghi lại power trace và dùng các kỹ thuật thống kê để tìm ra khóa bí mật
Trong những năm gần đây, dưới sự phát triển không ngừng của trí tuệ nhân tạo (AI: Artificial Intelligence), các ứng dụng của nó đang ngày càng trở nên thiết thực và quan trọng mà điển hình là kỹ thuật học máy (ML: Machine Learning) hay kỹ thuật học sâu (DL: Deep Learning) Trong đó, Perceptron đa tầng (MLP: Multilayer Perceptron) là một mô hình mạng thuộc kỹ thuật học sâu, mô hình này được tạo ra dựa trên việc mô phỏng các kết nối đa tầng của các tế bào thần kinh (Nơ-ron) trong bộ não người Từ các dữ liệu đầu vào, trải qua quá trình huấn luyện của mạng MLP, máy tính hoàn toàn có thể phân tích và phân loại các dữ liệu ở đầu ra một cách nhanh chóng và chính xác Chính vì vậy, ứng dụng trí tuệ nhân tạo trong lĩnh vực bảo mật đang trở thành một xu hướng nghiên cứu trên thế giới
Trong các công bố [4], [5], mạng MLP được ứng dụng để tìm ra khóa bí mật của mã hóa AES Đặc biệt, bài báo [5] đã chứng minh mạng MLP không chỉ áp dụng trong tấn công lập mẫu mà còn có thể áp dụng rất tốt với tấn công không lập mẫu Tuy nhiên, các công bố
ở trên chỉ áp dụng với dữ liệu có số mẫu đầu vào nhỏ Trên thực tế với dữ liệu đầu vào là các power trace, số lượng mẫu là rất lớn, thường là vài nghìn cho đến chục nghìn mẫu Trong khi đó, số lượng mẫu đầu vào cho mạng MLP ảnh hưởng rất nhiều đến quá trình xử lý và tính toán của mạng Vì vậy, trong bài báo này, chúng tôi sẽ giới thiệu mô hình mạng MLP nhằm thực hiện tấn công mã mật AES không lập mẫu, kết hợp giải pháp sử dụng kỹ thuật phân tích tương quan công suất
Trang 2tiêu thụ cho việc xây dựng tập dữ liệu Kỹ thuật này
thực hiện tách ra các mẫu có giá trị tương quan cao
nhất để đưa vào mô hình huấn luyện Nhóm tác giả
cũng nhận thấy giải pháp xây dựng tập dữ liệu này giúp
mạng MLP trở nên đơn giản hơn cho phân loại kết quả
đầu ra
Phần tiếp theo bài báo được tổ chức như sau Đề
xuất giải pháp xây dựng tập dữ liệu cho mạng MLP
được trình bày trong phần II Phần III sẽ giới thiệu kiến
trúc mạng MLP đề xuất Các kết quả khảo sát phân tích
khóa bí mật được trình bày trong phần IV Phần V là
kết luận hiệu quả của giải pháp xây dựng tập dữ liệu và
tính khả thi của kiến trúc mạng đề xuất
Power trace là những vector biểu diễn các giá trị tỉ
lệ với công suất tiêu thụ của mạch mục tiêu sau khi
chuyển đổi ADC Các power trace thường có hàng
nghìn mẫu Như đã nhắc đến ở phần I, số lượng mẫu
này sẽ rất lớn khi áp dụng mạng MLP Với kỹ thuật
phân tích tương quan công suất tiêu thụ (CPA) , toàn
bộ các mẫu trên một power trace sẽ được tính giá trị
tương quan với một mô hình công suất tiêu thụ dự
đoán Tuy nhiên, chỉ có một số ít các mẫu trong một
power trace sẽ liên quan đến mô hình đã xây dựng
Những mẫu này thường sẽ cho giá trị tương quan với
mô hình công suất dự đoán cao hơn các điểm còn lại
Nhận thấy, nếu tách các mẫu có giá trị tương quan cao
làm đầu vào, số chiều dữ liệu sẽ giảm xuống rất nhiều
Đồng thời chúng ta hoàn toàn có thể xây dựng một mô
hình học máy để phân loại các power trace theo các
nhóm có độ tương quan khác nhau Chính vì thế,
nhóm tác giả đề xuất sử dụng kỹ thuật phân tích tương
quan công suất để có thể giảm số lượng mẫu đầu vào
Cụ thể, 50 vị trí mẫu có giá trị tương quan lớn nhất sẽ
được lấy ra để tạo thành tập dữ liệu đầu vào cho MLP
Để thực hiện điều này, chúng tôi sử dụng hệ số tương
quan Pearson Phương pháp này đã được tác giả trong
bài báo [5] sử dụng, tuy nhiên điểm đặc biệt trong đề
xuất của chúng tôi là chỉ sử dụng 3 giá trị HW=3,4,5
thay vì sử dụng 9 giá trị HW Điều đó dẫn đến việc số
lượng power trace cần để tính toán có thể giảm 30%
(
Chúng tôi sử dụng N bản tin ngẫu nhiên cho việc
mã hóa, sau đó N power trace sẽ được ghi lại Mỗi
power trace sẽ chứa L mẫu Kí hiệu t n,i là giá trị của
mẫu thứ i trong power trace n, i và n thỏa mãn điều
kiện (1<i<L, 1<n<N) d n,B là giá trị của khóa con thứ B
(B {1;16}) trong bản tin thứ n Để có thể thu thập
được 50 mẫu có hệ số tương quan cao nhất từ power
traces, chúng tôi sử dụng một nửa số lượng power
trace ban đầu cho việc tính toán, kỹ thuật này đã được
nhóm tác giả thực hiện trong [6] và có hiệu quả lớn về
mặt thời gian thay vì tính toán toàn bộ số power trace
Trong trường hợp này, hàm S-Box của thuật toán AES
được sử dụng để tính toán giá trị trung gian HW theo
công thức (1), giá trị h sau đó được dùng để gán nhãn
cho các tập power trace tương ứng với plaintext cho giá trị h=3,4,5 Sau đó công thức (2) sẽ được sử dụng
để tính toán hệ số tương quan từ 256 giá trị khóa dự
đoán (k=[0;255])
1
2
N
n
k i
n k
i
=
=
(2)
Trong đó h k và t i lần lượt là trung bình của mô hình công suất dự đoán và công suất tiêu thụ thực tế
tại mẫu i
Sau khi đã xác định được 50 điểm có hệ số tương quan cao nhất, chúng tôi thực hiện phân loại toàn bộ
số power trace theo ba giá trị trung gian là HW= 3,4,5 Thực hiện tương tự với các byte khóa con còn lại, kết quả thu được là 16 thư mục tương đương với 16 byte khóa con Trong mỗi thư mục là 256 thư mục con tương ứng được tạo ra từ 256 giá trị khóa dự đoán Trong mỗi thư mục con này, ba thư mục có tên HW3, HW4, HW5 được tạo ra, đây cũng chính là nhãn được
sử dụng để phân loại trong mạng MLP Cuối cùng, ứng với mỗi thư mục nhãn, toàn bộ power trace sẽ được phân loại tương ứng Hình 1 mô tả cấu trúc của tập dữ liệu dựa trên kỹ thuật đề xuất
Dataset1
Key_0
Key_255
HW3
HW4
HW5 Dataset16
5000 Power traces
Power trace 1 Power trace N1 Power trace 1 Power trace N2 Power trace 1 Power trace N3
Hình 1 Cấu trúc tập dữ liệu đề xuất: 5000 power trace ban đầu (5000 mẫu/power trace) được tính toán và phân loại trong 3 nhóm có tên tương ứng với giá trị trung gian (HW3, HW4 và HW5) Mỗi nhóm chứa N1, N2, N3 power trace Mỗi power trace chứa 50 mẫu có giá trị tương quan cao nhất
Mạng MLP đã được chứng minh hiệu quả trong việc áp dụng cho phân tích khóa bí mật của AES [5] Nguyên lý chính của áp dụng mạng MLP trong phân tích khóa bí mật AES là sử dụng các tham số của mô hình trong quá trình huấn luyện Bằng việc xây dựng tập dữ liệu dựa trên giá trị tương quan cao nhất giữa power trace và giá trị trung gian HW Chúng ta đã tạo
ra được mối liên hệ giữa đầu vào (50 mẫu) và giá trị
Trang 3đầu ra (HW) Vì vậy, khi áp dụng mạng MLP, ứng với
khóa dự đoán là chính xác, mạng MLP có thể dễ dàng
huấn luyện và phân loại đơn giản với 3 nhãn Điều này
dẫn đến các tham số của mạng MLP trong quá trình
huấn luyện như độ chính xác (accuracy) sẽ tăng dần
hoặc giá trị của hàm mất mát (loss function) sẽ giảm
dần Ngược lại, với khóa dự đoán là sai, giá trị trung
gian cũng sẽ bị tính toán sai, dẫn đến mạng MLP
không thể huấn luyện được Điều này dẫn đến các
tham số nêu trên sẽ giữ nguyên hoặc thay đổi không
đáng kể qua mỗi epoch huấn luyện Đây chính là yếu
tố chính để ứng dụng mạng MLP nói riêng hay các kỹ
thuật học sâu khác vào phân tích khóa AES không cần
lập mẫu Tuy nhiên, nhược điểm là mỗi mô hình chỉ có
thể huấn luyện dự doán cho một giá trị khóa, vì vậy
với 256 giá trị khóa dự đoán, chúng ta cần chạy 256
mô hình mạng MLP để tìm ra khóa nào đúng
Để chứng minh hiệu quả của việc ứng dụng mạng
MLP cho phân tích khóa AES không lập mẫu, nhóm
tác giả đã xây dựng mô hình mạng MLP bao gồm có
thành phần lớp nhận giá trị đầu vào, các lớp ẩn và cuối
cùng là lớp đầu ra như thể hiện trong Hình 2
Hình 2 Cấu trúc mạng MLP được sử dụng
Lớp đầu vào của mạng MLP đề xuất sử dụng 50
nút tương ứng với dữ liệu đầu vào là 50 mẫu Lớp ẩn
gồm có 6 lớp được thiết kế với số lượng nút được mô
tả trong Bảng I Cuối cùng là lớp đầu ra với 3 nút Mô
hình mạng được minh họa trong Hình 3 Mỗi đầu ra
của một nút (trừ các nút của lớp đầu vào) được tính
dựa trên công thức:
( )l (W( )l T ( 1)l ( )l )
Trong đó a là giá trị đầu ra, b là bias của lớp thứ l,
W là ma trận trọng số Hàm f(.) trên được gọi là một
hàm kích hoạt (activation function) Trong thiết kế đề
xuất, để có được hiệu quả trong tính tóan, chúng tôi sử
dụng hàm eLU (Exponential Linear Unit) cho tất cả
các nút trong lớp ẩn, đây là một hàm có hiệu quả tốt
hơn so với hàm thông dụng ReLU, đồng thời giúp
mạng tránh được hiện tượng vanishing gradients Hàm
eLU được biểu diễn như sau:
if z 0 ( )
[ exp( ) 1] otherwise
z eLU z
z
=
−
(4)
Với mục đích là thực hiện phân loại các power
trace ứng với các giá trị HW, nhóm tác giả sử dụng lớp
Softmax Regression là lớp đầu ra cho việc tính xác
suất của các power trace ứng với các HW Chi tiết tham số của mô hình mạng được mô tả trong Bảng I
Về tập dữ liệu huấn luyện, chúng tôi phân loại tập
dữ liệu ban đầu một cách ngẫu nhiên theo tỉ lệ 80% cho tập huấn luyện (Tranning set) và 20% cho tập kiểm thử (Test set)
Bảng I CÁC THAM SỐ THIẾT LẬP MẠNG MLP
Nhóm tác giả thực hiện khảo sát mô hình đề xuất bằng power trace thu được từ board mạch CW1173 ChipWhisperer-Lite [7] Đây là một dự án mã nguồn
mở cung cấp phần cứng và mã nguồn cho nghiên cứu tấn công kênh bên Phiên bản mà tác giả sử dụng có chứa mạch mục tiêu là vi điều khiển Atmel AVR Xmega128 8-bit, vi điều khiển này thực thi thuật toán
mã hóa AES-128 [8] ChipWhisperer cung cấp khả năng thiết lập để ghi các power trace thông qua chip ADC tích hợp sẵn trên board Thiết lập này cho phép người sử dụng có thể nạp chương trình từ máy tính, gửi bản tin cần mã hóa, khóa bí mật xuống mạch mục tiêu và gửi các giá trị đo công suất tiêu thụ thông qua ADC tích hợp trên mạch mục tiêu về máy tính
Để xây dựng tập dữ liệu cho khảo sát mô hình mạng MLP đề xuất, nhóm tác giả thực hiện thu thập
5000 power trace, mỗi power trace chứa 5000 mẫu tương đương quá trình thực thi vòng mã hóa thứ nhất của thuật toán AES Trong tấn công không lập mẫu, chúng tôi thực hiện giữ khóa bí mật cố định, bản tin cần mã hóa sẽ được lấy ngẫu nhiên 5000 bản tin Trong tất cả các khảo sát về phân tích mã AES, chỉ vòng mã hóa thứ nhất được sử dụng Tiếp theo, chúng tôi thực hiện huấn luyện và thực hiện phân loại sử dụng 80% tập dữ liệu đã xây dựng, số còn lại dùng để thực hiện kiểm tra
Toàn bộ chương trình xây dựng tập dữ liệu và mô hình mạng MLP đề xuất được viết trên MATLAB Chi tiết tham số kết quả chạy mô hình MLP đề xuất cùng tập dữ liệu được thể hiện trong Hình 3 và Hình 4 Dễ dàng nhận thấy rằng, các tham số về độ chính xác và tham số hàm mất mát của khóa dự đoán đúng và khóa
dự đoán sai là phân biệt hoàn toàn Quá trình huấn luyện, chúng tôi cho mạng MLP thực hiện 30 epoch Hình 4 cho thấy, sau 10 epoch đầu tiên tham số độ chính xác và hàm mất mát bắt đầu có sự thay đổi rõ ràng, thể hiện mạng MLP đề xuất có thể huấn luyện được từ tập dữ liệu mà nhóm tác giả đã xây dựng Đối
Trang 4với khóa dự đoán sai được minh họa trong Hình 3, các
tham số huấn luyện gần như không thay đổi, thể hiện
rằng mạng MLP không thể học được các dữ liệu từ tập
dữ liệu đã tạo
Hình 3 Các tham số quan sát được của khóa giả thiết sai
Hình 4 Các tham số quan sát được của khóa giả thiết đúng
Ngoài ra, việc phân biệt khóa đúng hay sai còn có
thể sử dụng confusion matrix như Hình 5 Đối với
khóa sai sự phân bố của các điểm thực sự thuộc về một
nhãn sẽ tập trung vào HW4, ngược lại, với khóa đúng,
các điểm thực sự thuộc vào các nhãn có tỉ lệ phần trăm
cao, thể hiện mô hình được huấn luyện và tiến hành
phân loại tốt Các giá trị này sẽ phân bố đều ra cả ba
nhãn HW tạo thành một đường chéo Từ đây, thông
qua trực quan hoặc sử dụng lập bảng và tìm giá trị lớn
nhất của tham số độ chính xác, chúng ta có thể tìm
được toàn bộ khóa bí mật AES
Trong bài báo này, nhóm tác giả đã xây dựng thành
công mô hình mạng MLP cho tấn công không lập mẫu
mã mật AES thực thi trên CW1173 Nhóm tác giả đã
sử dụng kỹ thuật phân tích tương quan công suất tiêu
thụ để xây dựng tập dữ liệu đầu vào cho mạng MLP
Kết quả khảo sát phân tích khóa bí mật đã chứng minh
được tính khả thi của mô hình mạng MLP đề xuất
Dựa vào hai tham số của mạng trong quá trình huấn
luyện và kiểm thử thì việc phân loại tìm ra được khóa
đúng là chính xác Bằng việc xây dựng tập dữ liệu sử
dụng 3 nhãn HW3, HW4 và HW5, nhóm tác giả chỉ
cần sử dụng khoảng 3000 power trace trên tổng số
5000 power trace Trong các nghiên cứu tiếp theo, chúng tôi sẽ khảo sát, đánh giá các khoá bí mật có độ dài lớn hơn, nhiều mẫu hơn cũng như việc cải thiện
mô hình thuật toán đảm bảo cho việc giảm thời gian tính toán và tăng độ chính xác
b) Khóa đúng a) Khóa sai
Hình 5 Confusion matrix cho các trường hợp khóa đúng và
khóa sai
[1] S Chari, J R Rao, and P Rohatgi, “Template attacks,” in Cryptographic Hardware and Embedded Systems - CHES
2002, B S Kaliski, c¸ K Koc¸, and C Paar, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2003, pp 13–28
[2] P Kocher, J Jaffe, and B Jun, “Differential power analysis,”
proceedings of CRYPTO’99, Lecture Notes in Computer Science, vol 1666, Springer, Berlin, pp 388–397, 1999 [3] E Brier, C Clavier, and F Olivier, “Correlation power analysis with a leakage model,” in Cryptographic Hardware and Embedded Systems - CHES 2004, M Joye and J.-J Quisquater, 2004, pp 16–29
[4] Emmanuel Prouff and Remi Strullu and Ryad Benadjila and Eleonora Cagli and Cecile Dumas, “Study of Deep Learning Techniques for Side-Channel Analysis and Introduction to ASCAD Database." Cryptology ePrint Archive, Report 2018/053, 2018 https://eprint.iacr.org/2018/053
[5] B Timon, “Non-profiled deep learning-based side-channel attacks with sensitivity analysis,” IACR Transactions on Cryptographic Hardware and Embedded Systems, vol 2019,
no 2, pp 107–131, Feb 2019 [Online] Available: https://tches.iacr.org/index.php/TCHES/article/view/7387 [6] Đỗ Ngọc Tuấn, Trần Trung Kiên, Đỗ Thành Quân và Hoàng Văn Phúc, “Phương pháp phân tích kênh bên với mã mật AES
sử dụng dữ liệu đo công suất tiêu thụ” Tạp chí Khoa học và công nghê quân sự, số Đặc san Viện điện tử, 9-2020
[7] https://wiki.newae.com/CW1173_ChipWhisperer-Lite [8] https://github.com/kokke/tiny-AES-c