BÁO CÁO CUỐI KỲ TẤN CÔNG TRÍ TUỆ NHÂN TẠO LỖ HỔNG BẢO MẬT CỦA AI, tiểu luận BÁO CÁO CUỐI KỲ TẤN CÔNG TRÍ TUỆ NHÂN TẠO LỖ HỔNG BẢO MẬT CỦA AI, bài tập nhóm BÁO CÁO CUỐI KỲ TẤN CÔNG TRÍ TUỆ NHÂN TẠO LỖ HỔNG BẢO MẬT CỦA AI, báo cáo nghiêm cứu BÁO CÁO CUỐI KỲ TẤN CÔNG TRÍ TUỆ NHÂN TẠO LỖ HỔNG BẢO MẬT CỦA AI MỞ ĐẦU 3 I, TỔNG QUAN VỀ CÁC CUỘC TẤN CÔNG TRÍ TUỆ NHÂN TẠO 4 1.1, Tại sao các cuộc tấn công trí tuệ nhân tạo lại tồn tại? 4 1.2, Các đặc điểm của các thuật toán học máy khiến các hệ thống này dễ bị tấn công 5 II, INPUT ATTACKS 5 2.1, Cách thức tấn công 5 2.2 Phân loại các cuộc tấn công đầu vào 6 2.2.1 Trục khả năng cho phép 7 2.2.2 Định dạng 10 2.3 Tạo một cuộc tấn công đầu vào 11 III, POISONING ATTACKS 12 3.1 Poisoning Attacks là gì? 12 3.2 Chế tạo một cuộc tấn công đầu độc 14 3.2.1 Đầu độc tập dữ liệu 14 3.2.2 Ngộ độc thuật toán 14 3.2.3 Đầu độc mô hình 15 KẾT LUẬN 16 TÀI LIỆU THAM KHẢO
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thị Hiền - 19020281
BÁO CÁO CUỐI KỲ
TẤN CÔNG TRÍ TUỆ NHÂN TẠO: LỖ HỔNG BẢO MẬT CỦA AI
Môn học: An toàn và an ninh mạng Giảng viên: TS Nguyễn Đại Thọ
Hà Nội - 2022
Trang 2MỤC LỤC
I, TỔNG QUAN VỀ CÁC CUỘC TẤN CÔNG TRÍ TUỆ NHÂN TẠO 4
1.1, Tại sao các cuộc tấn công trí tuệ nhân tạo lại tồn tại? 4
1.2, Các đặc điểm của các thuật toán học máy khiến các hệ thống này dễ bị tấn công 5
Trang 3MỞ ĐẦU
Kẻ khủng bố của thế kỷ XXI sẽ không nhất thiết sử dụng bom, uranium hay vũ khí sinhhọc Hắn ta sẽ chỉ cần sử dụng một công cụ đáng giá $1.5 - băng dính trong suốt để thực hiệncuộc tấn công của hắn Đặt một vài mảnh băng trong suốt nhỏ vào biển báo giao thông ở ngã tưmột cách kín đáo, hắn ta có thể biến biển báo dừng xe thành đèn xanh trong mắt một chiếc
ô tô tự lái một cách kỳ diệu Thực hiện việc này ở một ngã tư nhộn nhịp sẽ gây ra tai nạn, nó
sẽ đưa hệ thống giao thông đi vào tắc nghẽn
Các thuật toán trí tuệ nhân tạo đang được kêu gọi để đưa ra trong tương lai này có mộtvấn đề: theo cách chúng được huấn luyện, chúng có thể bị tấn công và điều khiển bởi kẻ thù Cáichúng ta thấy ở tín hiệu đèn giao thông là tín hiệu dừng, nhưng hệ thống trí tuệ nhân tạo bị tấncông lại nhận diện là tín hiệu đèn xanh Điều này được coi là “Artificial intelligence attack”
(AI attack)
Lỗ hổng này là do những hạn chế cố hữu trong các phương pháp AI hiện đại, khiến chúng
có khả năng xảy ra một loạt các cuộc tấn công tàn khốc, ngấm ngầm nhưng nguy hiểm Trongmột cuộc tấn công, kẻ thù có thể giành quyền kiểm soát hệ thống AI với một thao tác nhỏ nhưngđược lựa chọn cẩn thận, từ một mảnh băng trên biến báo dừng đến một hạt bụi kỹ thuật số khôngthể nhìn thấy đối với con người Theo cách khác, kẻ thù có thể đầu độc các hệ thống AI, cài đặtcác cửa hậu có thể được sử dụng tại thời điểm và địa điểm họ chọn để phá hủy hệ thống Cho dù
đó là điều khiển ô tô vượt đèn đỏ, đánh lừa máy bay không người lái tìm kiếm hoạt động của đốiphương trong nhiệm vụ do thám hay lật đổ bộ lọc nội dung để đăng tuyên truyền tuyển mộ khủng
bố trên mạng xã hội, thì mối nguy hiểm này vẫn nghiêm trọng, phổ biến và đã ở đây Nội dungđược tải lên Internet mỗi phút là một số lượng đáng kinh ngạc Hơn ba tỷ hình ảnh được chia sẻmỗi ngày trên Internet [14] bộ lọc nội dung dựa trên AI đã trở thành công cụ chính, nếu khôngmuốn nói là duy nhất, và đã được ngành công nghiệp
áp dụng rộng rãi Ví dụ, Facebook đã xóa 21 triệu mẩu nội dung khiêu dâm chỉ trong quý đầutiên của năm 2018, 96% trong số đó bị gắn cờ bởi các thuật toán này [15]
Tuy nhiên, không phải tất cả các ứng dụng của AI đều “tốt”, không phải tất cả cáccuộc tấn công của AI đều là “xấu” Khi các chế độ chuyên quyền chuyển sang sử dụng AInhư một công cụ để giám sát và kiểm soát dân số của họ, các cuộc tấn công “AI” có thể được
sử dụng như một biện pháp bảo vệ chống lại sự áp bức của chính phủ
Như vậy, báo cáo này sẽ giúp ta có cái nhìn tổng quát về cách mà kẻ tấn công có thể tấncông hệ thống AI và sự khác biệt của tấn công AI với tấn công an ninh mạng truyền thống
Trang 4I, TỔNG QUAN VỀ CÁC CUỘC TẤN CÔNG TRÍ TUỆ NHÂN TẠO
Một cuộc tấn công bằng trí tuệ nhân tạo (AI attack) là sự thao túng có chủ đích của một
hệ thống AI với mục tiêu cuối cùng là làm cho nó hoạt động sai Các cuộc tấn công này có thể cócác hình thức khác nhau tấn công vào các điểm yếu khác nhau trong các thuật toán cơ bản:
● Input Attacks: thao túng những gì được đưa vào hệ thống AI nhằm thay đổi đầu ra của hệthống để phục vụ mục tiêu của kẻ tấn công Bởi vì cốt lõi của nó, mỗi hệ thống AI là một
cỗ máy đơn giản - nó nhận đầu vào, thực hiện một số tính toán và trả lại đầu ra - thao tácđầu vào cho phép kẻ tấn công ảnh hưởng đến đầu ra của hệ thống
● Poisoning Attacks: làm hỏng quá trình mà hệ thống AI được tạo ra để hệ thống đưa ra kếtquả sai theo cách mà kẻ tấn công mong muốn Một cách trực tiếp để thực hiện một cuộctấn công đầu độc là làm hỏng dữ liệu được sử dụng trong quá trình huấn luyện Điều này
là do các phương pháp học máy hiện đại cung cấp tri thức cho AI hoạt động bằng cách
“học” cách thực hiện một nhiệm vụ, nhưng chúng “học” từ một nguồn và chỉ một nguồn
dữ liệu Các cuộc tấn công đầu độc cũng có thể ảnh hưởng đến chính quá trình tự học.Các nghiên cứu cho thấy rằng việc nhiễm độc tập dữ liệu huấn luyện 3% dẫn đến giảm11% độ chính xác [16]
1.1, Tại sao các cuộc tấn công trí tuệ nhân tạo lại tồn tại?
Các cuộc tấn công bằng AI tồn tại bởi vì có những hạn chế cơ bản trong các thuậttoán AI mà đối thủ có thể khai thác để làm cho hệ thống thất bại Không giống như các cuộctấn công an ninh mạng truyền thống, những điểm yếu này không phải do lập trình viên hayngười dùng Chúng chỉ là những thiếu sót của các thuật toán học máy tối tân hiện nay Nóimột cách thẳng thắn hơn, các thuật toán khiến hệ thống AI hoạt động tốt là không hoàn hảo,
và những hạn chế mang tính hệ thống của chúng tạo cơ hội cho kẻ thù tấn công
Để biết tại sao lại như vậy, chúng ta cần hiểu cách các thuật toán làm nền tảng cho AIhoạt động Nhiều hệ thống AI hiện tại được hỗ trợ bởi máy học, là một tập hợp các kỹ thuậttrích xuất thông tin từ dữ liệu để “học” cách thực hiện một nhiệm vụ nhất định Một thuậttoán học máy “học” tương tự như cách con người học Con người học bằng cách xem nhiều
ví dụ về một đối tượng hoặc khái niệm trong thế giới thực và lưu trữ những gì học được trongnão để sử dụng sau này Các thuật toán học máy “học” bằng cách xem nhiều ví dụ về một đốitượng hoặc khái niệm trong tập dữ liệu và lưu trữ những gì đã học trong một mô hình để sửdụng sau này
Chìa khóa để hiểu các cuộc tấn công của AI là hiểu “học” trong học máy thực sự là gì vàquan trọng hơn nó không phải là gì Nhớ lại rằng học máy “học” bằng cách xem nhiều ví dụ vềmột khái niệm hoặc đối tượng trong tập dữ liệu Với đủ dữ liệu, các mẫu được học có chất lượngcao đến mức chúng thậm chí có thể làm tốt hơn con người trong nhiều nhiệm vụ Tuy nhiên trongquá trình “học” này đã tạo ra một lỗ hổng nghiêm trọng: nó hoàn toàn phụ thuộc vào tập dữ liệu.Bởi vì tập dữ liệu là nguồn kiến thức duy nhất của mô hình, nếu nó bị kẻ tấn công làm hỏng hoặc
“đầu độc”, mô hình học được từ dữ liệu này sẽ bị xâm phạm Những kẻ tấn công có thể đầu độctập dữ liệu để ngăn mô hình học các mẫu cụ thể, hoặc ngấm ngầm hơn cài đặt các lối đi bí mật cóthể được sử dụng để đánh lừa mô hình trong tương lai [1]
Nhưng vấn đề không chỉ dừng lại ở đó Bởi các mô hình học máy chỉ hoạt động dựatrên dữ liệu có bản chất tương tự với dữ liệu được sử dụng trong quá trình học Nếu được sử
Trang 5dụng trên dữ liệu thậm chí có một chút khác biệt về bản chất so với các loại biến thể mà nó
đã thấy trong tập dữ liệu ban đầu, thì mô hình hoàn toàn có thể thất bại Đây là một hạn chếlớn mà kẻ tấn công có thể khai thác: bằng cách đưa vào các biến thể nhân tạo - chẳng hạn nhưmột đoạn băng hoặc các mẫu sai khác - kẻ tấn công có thể phá vỡ mô hình và kiểm soát hành
vi của nó dựa trên những gì mẫu nhân tạo được đưa vào
1.2, Các đặc điểm của các thuật toán học máy khiến các hệ thống này dễ bị tấn công
● Máy học hoạt động bằng cách “học” các mẫu tương đối của đối tượng trong tập dữ liệu.Trái với suy nghĩ của nhiều người, các mô hình học máy không “thông minh” hoặckhông có khả năng thực sự bắt chước khả năng của con người trong các nhiệm vụ, ngay
cả những nhiệm vụ mà chúng thực hiện tốt Thay vào đó, chúng hoạt động bằng cách họccác liên kết thống kê và tương đối dễ phá vỡ Những kẻ tấn công có thể khai thác tínhchất này để tạo ra các cuộc tấn công phá hủy hiệu suất của một mô hình
● Học máy chỉ “học” bằng cách trích xuất các mẫu từ một tập hợp các ví dụ được gọi là tập
dữ liệu Không giống như con người, mô hình học máy không có kiến thức cơ bản màchúng có thể tận dụng, toàn bộ kiến thức của chúng phụ thuộc hoàn toàn vào dữ liệu màchúng nhìn thấy Đầu độc dữ liệu làm đầu độc hệ thống AI
● Bản chất hộp đen của các thuật toán hiện đại làm cho việc kiểm tra chúng trở nên khókhăn Người ta còn hiểu tương đối ít về cách các thuật toán học máy hiện đại được sửdụng rộng rãi, chẳng hạn như mạng nơ-ron sâu Điều này gây khó khăn trong việc để biếtliệu một mô hình học máy đã bị xâm phạm,, hoặc thậm chí nếu nó đang bị tấn công hoặcchỉ hoạt động không tốt Đặc điểm này khiến cho các cuộc tấn công AI khác biệt so vớicác vấn đề an ninh mạng truyền thống khi có định nghĩa rõ ràng về các lỗ hổng, ngay cảkhi chúng khó tìm thấy
Tổng hợp lại, những điểm yếu này giải thích tại sao không có các bản sửa lỗi kỹ thuậthoàn hảo cho các cuộc tấn công bằng AI Những lỗ hổng này không phải là “lỗi” có thể được
vá hoặc sửa chữa như được thực hiện với các lỗ hổng bảo mật mạng truyền thống Chúng lànhững vấn đề sâu sắc ở trung tâm của chính AI
II, INPUT ATTACKS
2.1, Cách thức tấn công
Các cuộc tấn công đầu vào kích hoạt hệ thống AI hoạt động sai bằng cách thay đổiđầu vào được đưa vào hệ thống Như thể hiện trong hình, điều này được thực hiện bằng cáchthêm “attack pattern” vào đầu vào, chẳng hạn như đặt băng trên biển báo dừng ở giao lộ hoặcthêm các thay đổi nhỏ vào ảnh kỹ thuật số đang được tải lên mạng xã hội
Các cuộc tấn công đầu vào không yêu cầu kẻ tấn công phải làm hỏng hệ thống AI đểtấn công nó Các hệ thống AI hiện đại hoàn toàn có độ chính xác cao và chưa bao giờ bị xâmphạm tính toàn vẹn, tập dữ liệu hoặc thuật toán thì vẫn dễ bị tấn công đầu vào Và trái ngượchoàn toàn với các cuộc tán công mạng khác, bản thân cuộc tấn công không phải lúc nào cũng
sử dụng máy tính
Trang 6Hình 1: Khi sử dụng thường xuyên, hệ thống AI nhận một đầu vào hợp lệ, xử lý nó và trả về
một đầu vào Trong khi cuộc tấn công đầu vào, đầu vào cho hệ thống AI bị thay đổi theo kiểutấn công, khiến hệ thống AI trả về một đầu ra không chính xác
Các cuộc tấn công này đặc biệt nguy hiểm vì các kiểu tấn công không dễ chú ý, và thậmchí có thể hoàn toàn không thể phát hiện được Đối thủ có thể chỉ thay đổi một khía cạnh nhỏ củađầu vào một cách chính xác để phá vỡ các mô hình đã học trước đó của hệ thống Đối với cáccuộc tấn công vào các đối tượng vật lý phải được cảm biến hoặc máy ảnh ghi lại trước khi đưavào hệ thống AI, kẻ tấn công có thể tạo ra những thay đổi nhỏ vừa đủ lớn để cảm biến ghi lại.Đây là “cuộc tấn công bằng băng”, thông thường những kẻ tấn công nhận ra rằng việc đặt mộtmiếng băng trắng dài 2 inch ở góc trên của biển báo dừng sẽ khai thác được những thiếu sót cụthể trong các mẫu mà mô hình đã học, biến nó thành đèn xanh [2] Đối với các cuộc tấn công vàocác đối tượng kỹ thuật số được đưa trực tiếp vào hệ thống AI, chẳng hạn như một hình ảnh đượctải lên mạng xã hội, các hình thức tấn công có thể không nhìn thấy được đối với mắt người Điềunày là do trong cài đặt kỹ thuật số, các thay đổi có thể xảy ra ở cấp độ pixel riêng lẻ, tạo ra cácthay đổi rất nhỏ mà mắt người không thể nhìn thấy theo nghĩa đen
2.2 Phân loại các cuộc tấn công đầu vào
Khía cạnh thú vị nhất của các cuộc tấn công đầu vào là mức độ đa dạng của chúng.Các cuộc tấn công đầu vào các hệ thống AI giống như những bông tuyết: không có 2 thứ nàohoàn toàn giống nhau Bước đầu tiên trong việc bảo vệ hệ thống khỏi các cuộc tấn công này
là tạo ra một phân loại để mang lại trật tự cho các khả năng tấn công “Form fits hình thức phù hợp với chức năng, để thực hiện cuộc tấn công kẻ thù sẽ chọn một hình thứctấn công phù hợp với kịch bản và nhiệm vụ cụ thể của họ Do đó, một phân loại học cũng nêntheo xu hướng này
Trang 7function”-Các hình thức tấn công đầu vào có thể được đặc trưng theo hai trục: khả năng nhậnbiết và định dạng Khả năng nhận biết đặc trưng nếu cuộc tấn công có thể nhận biết được đốivới con người (ví dụ: đối với các cuộc tấn công của AI vào các thực thể vật lý, cuộc tấn công
có thể nhìn thấy hoặc không nhìn thấy bằng mắt người) Định dạng đặc trưng nếu vecto tấncông là một đối tượng vật lý trong thế giới thực (ví dụ: biển báo dừng) hoặc một tài sản kỹthuật số (ví dụ: tệp hình ảnh trên máy tính)
Hình 2: Nguyên tắc phân loại các cuộc tấn công đầu vào Trục hoành đặc trưng cho định
dạng của cuộc tấn công, trong thế giới vật lý hoặc kỹ thuật số Trục tung đặc trưng cho khảnăng nhận biết được của cuộc tấn công, có thể nhận biết được đối với con người hay không
2.2.1 Trục khả năng cho phép
Ở một đầu của trục là các cuộc tấn công “có thể nhận biết được”, trong đó con người
có thể nhận ra kiểu tấn công đầu vào Các kiểu tấn công có thể được thay đổi đối với chính
Trang 8mục tiêu, chẳng hạn như làm biến dạng, loại bỏ một phần hoặc thay đổi màu sắc của mụctiêu Ngoài ra, hình thức tấn công có thể là một bổ sung cho mục tiêu, ví dụ như dán băngdính hoặc các đề can khác vào mục tiêu vật lý, hoặc thêm dấu kỹ thuật số vào mục tiêu kỹthuật số Ví dụ về các cuộc tấn công có thể nhận ra bao gồm làm mờ dấu hiệu dừng bằng cácmẫu hình thành từ băng,[3] hoặc sử dụng phần mềm để chồng các đối tượng như kính [4] lênhình ảnh kỹ thuật số của chủ thể.
Hình dưới đây cho thấy cách thức hình thành một cuộc tấn công có thể nhận biết đượcđối với một đối tượng vật lý Một đối tượng thông thường được thay đổi với một hình thứctấn công nhìn thấy được (một vài mảnh băng) để tạo thành đối tượng tấn công Trong khi đốitượng thông thường sẽ được phân loại chính xác bởi hệ thống AI, đối tượng tấn công đượcphân loại không chính xác thành “đèn xanh”
Hình 3: Tạo một cuộc tấn công đầu vào có thể nhìn thấy Một mảnh băng nhỏ được dán vào
đối tượng vật lý, khiến hệ thống AI phân loại sai hình ảnh với một sự thay đổi nhỏ về hìnhthức của nó
Mặc dù các cuộc tấn công có thể nhìn thấy, được con người nhận thấy, nhưng chúngvẫn có thể mang lại hiệu quả cao vì một số lý do Đầu tiên, các cuộc tấn công có thể nhậnthức được không cần phải phô trương Một cuộc tấn công có thể nhìn thấy dưới dạng một vàimảnh băng được lựa chọn cẩn thận đặt trên biển báo dừng có thể được nhận biết, nhưng sẽkhông nhất thiết bị chú ý Con người thường bỏ qua những thay đổi nhỏ trong môi trường của
họ, chẳng hạn như vẽ bậy Do đó, các cuộc tấn công có thể nhận biết được có thể hoàn toànkhông được chú ý Thứ hai, các cuộc tấn công có thể nhận biết được có thể được tạo ra để ẩntrong tầm nhìn của con người Một cuộc tấn công có thể nhìn thấy dưới dạng kính được thiết
kế đặc biệt hoặc một biểu tượng được chế tạo đặc biệt được thêm vào áo thun của một người
sẽ được nhận thấy, nhưng sẽ không bị nghi ngờ là một cuộc tấn công, nó ẩn nấp hiệu quảtrong tầm nhìn rõ ràng trong trường hợp này
Ở đầu bên kia của trục khả năng hiển thị là các cuộc tấn công “không thể nhìn thấy được” mà các giác quan của con người không nhìn thấy được Các cuộc tấn công bất khả xâm
phạm có thể có nhiều hình thức Đối với nội dung kỹ thuật số như hình ảnh, các cuộc tấn côngnày có thể được thực hiện bằng cách rắc “digital dust” lên đầu mục tiêu [5] Về mặt kỹ thuật, bụinày ở dạng nhiễu động nhỏ, không thể phát hiện, được thực hiện đối với toàn bộ mục tiêu Mỗiphần nhỏ của mục tiêu được thay đổi một chút đến mức mắt người không thể cảm nhận được sựthay đổi, nhưng tổng thể, những thay đổi này đủ để thay đổi hành vi của thuật toán
Trang 9bằng cách phá vỡ các mẫu mà mô hình đã học Hình dưới đây cho thấy cách một cuộc tấncông không thể nhìn thấy được hình thành theo cách này Một hình ảnh kỹ thuật số bìnhthường bị thay đổi với các nhiễu loạn cấp pixel nhỏ, không thể nhìn thấy nằm rải rác khắphình ảnh, tạo thành hình ảnh tấn công Trong khi hình ảnh thông thường sẽ được hệ thống AIphân loại chính xác là “gấu trúc”, đối tượng tấn công được phân loại không chính xác là
“khỉ” Tuy nhiên, do hình thức tấn công tạo ra những thay đổi nhỏ như vậy nên đối với mắtngười, hình ảnh tấn công trông giống hệt hình ảnh thông thường ban đầu
Hình 4: Tạo một cuộc tấn công đầu vào vô hình Một lượng nhiễu nhỏ mà mắt người không
nhìn thấy được sẽ được thêm vào toàn bộ hình ảnh, khiến hệ thống AI phân loại sai hình ảnh
mà không thay đổi hình thức của nó
Các cuộc tấn công không thể cưỡng lại không chỉ giới hạn ở các đối tượng kỹ thuật
số Ví dụ, các mẫu tấn công có thể được thêm vào theo những cách không thể nhìn thấy vàochính một đối tượng vật lý Các nhà nghiên cứu đã chỉ ra rằng một con rùa in 3D với kiểu tấncông đầu vào không thể nhìn thấy có thể đánh lừa các thiết bị phát hiện đối tượng dựa trên
AI Mặc dù việc phát hiện rùa có thể không gây hậu quả đến tính mạng, những chiến lượctương tự áp dụng cho súng in 3D cũng có thể Trong lĩnh vực âm thành, âm thanh có cường
độ cao mà tai người không thể nghe thấy nhưng có thể thu được bằng micro có thể được sửdụng để tấn công các hệ thống AI dựa trên âm thánh, chẳng hạn như trợ lý kỹ thuật số
Các cuộc tấn công không thể nhìn thấy này đặc biệt nguy hiểm từ quan điểm bảo mật.Không giống như các cuộc tấn công nhìn thấy được, con người không có cách nào để quansát xem mục tiêu có bị thao túng hay không Điều này đặt ra một rào cản để phát hiện cáccuộc tấn công này
Các cuộc tấn công không nhìn thấy được có khả năng áp dụng cao đối với các mụctiêu mà kẻ thù có toàn quyền kiểm soát, chẳng hạn như hình ảnh kỹ thuật số hoặc các đốitượng được chế tạo Ví dụ: một người dùng đăng một hình ảnh bất hợp pháp, chằng hạn nhưmột hình ảnh chứa nội dung khiêu dâm trẻ em, có thể thay đổi hình ảnh để nó tránh bị bộ lọcnội dung dựa trên AI phát hiện, nhưng cũng không thay đổi về mặt hình ảnh so với góc nhìncủa con người Điều này cho phép kẻ tấn công không bị kiểm soát và đối với tất cả các mụcđích thực tế, phân phối nội dung không thay đổi mà không bị phát hiện
Trang 102.2.2 Định dạng
Tiếp theo chúng ta thảo luận về trục định dạng Trên một đầu của trục là các cuộc tấncông “vật lý” Đây là những cuộc tấn công trong đó mục tiêu bị tấn công tồn tại trong thế giới vậtchất Ví dụ các cuộc tấn công trên trợ lý kỹ thuật số được điều khiển bằng giọng nói, nơi một âmthanh đã được sử dụng để kích hoạt hành động từ trợ lý kỹ thuật số [7] Thay đổi được thực hiệntrực tiếp hoặc đặt trên các mục tiêu này để thực hiện một cuộc tấn công Ví dụ về các cuộc tấncông vật lý vào các đối tượng trong thế giới thực được thể hiện trong hình bên dưới
Trong một số cài đặt, các cuộc tấn công vào các đối tượng vật lý có thể yêu cầu cácmẫu tấn công lớn hơn, thô hơn Điều này là do các đối tượng vật lý này trước tiên phải được
số hóa, chẳng hạn như với máy ảnh hoặc cảm biến, để được đưa vào thuật toán AI, một quytrình có thể phá hủy chi tiết ở mức độ tốt hơn Tuy nhiên, ngay cả với yêu cầu số hóa này, cáccuộc tấn công vẫn có thể khó nhận biết “Rùa tấn công” được phân loại không chính xácthành súng trường trong ví dụ minh họa dưới đây là một trong những ví dụ về đòn tấn côngvật lý gần như vô hình Con rùa in 3D được sản xuất để có một hoa văn rất tinh tế, kết hợp tựnhiên với các hoa văn mai và vảy của nó, nhưng luôn đánh lừa người phân loại bất kể góc độ
và vị trí mà nó được máy ảnh quan sát [8] Bằng cách “che dấu” đối tượng trong mô hình tấncông này, nó có thể đánh lừa hệ thống AI mà không xuất hiện dưới dạng một cuộc tấn côngđối với người quan sát
Hình 5: Ví dụ về các cuộc tấn công vật lý vào các đối tượng trong thế giới thực.
Ở đầu kia của trục định dạng là các cuộc tấn công “kỹ thuật số” Đây là các cuộc tấncông trong đó mục tiêu bị tấn công là tài sản kỹ thuật số Ví dụ bao gồm hình ảnh, video, bàiđăng trên mạng xã hội, nhạc, tệp và tài liệu Không giống như các mục tiêu vật lý trước tiênphải được cảm biến và số hóa, các mục tiêu kỹ thuật số được đưa trực tiếp vào trạng thái banđầu của hệ thống AI Điều này cho phép kẻ thù mở rộng lựa chọn các cuộc tấn công và giảmbớt khó khăn trong việc tạo ra một cuộc tấn công thành công, vì chúng không cần tính đếnviệc có thể làm sai lệch kiểu tấn công Do đó, các cuộc tấn công kỹ thuật số đặc biệt phù hợpvới khả năng không nhìn thấy được Ví dụ về các cuộc tấn công kỹ thuật số vào hình ảnh kỹthuật số được thể hiện trong hình bên dưới
Trang 11Hình 6: Ví dụ về các cuộc tấn công kỹ thuật số vào hình ảnh kỹ thuật số Các cuộc tấn công
kỹ thuật số có thể được nhận ra, như với những chiếc kính chồng lên hình ảnh của một ngườinổi tiếng (ảnh ở giữa), hoặc không thể nhìn thấy được, như với hình ảnh gấu trúc và vịt đượchiển thị ở đây
2.3 Tạo một cuộc tấn công đầu vào
Một cuộc tấn công đầu vào tương đối dễ thực hiện nếu kẻ tấn công có quyền truy cậpvào mô hình AI đang bị tấn công Được trang bị điều này, kẻ tấn công có thể tự động tạo racác cuộc tấn công bằng cách sử dụng các phương pháp tối ưu hóa đơn giản Đã có sẵn phầnmềm công khai thực hiện các phương pháp này [9] Kẻ tấn công cũng có thể sử dụngGenerative Adversarial Networks (GANs), một phương pháp được tạo ra đặc biệt để khaithác điểm yếu trong mô hình AI, để thực hiện cuộc tấn công này [10]
Ở khía cạnh vô hại, các mô hình thường được công khai vì chúng đã được các nhà nghiêncứu hoặc công ty tối ưu hóa cho một nhiệm vụ chung quan trọng, chằng hạn như nhận dạng đốitượng và sau đó công khai cho mọi người sử dụng như một phần của “mã nguồn mở”
Ở khía cạnh gây hại, những kẻ tấn công có thể hack hệ thống lưu trữ mô hình để lấy cắp nó.Bản thân mô hình chỉ là một tệp kỹ thuật số trên máy tính, không khác gì một hình ảnh haytài liệu, và do đó có thể bị đánh cắp giống như bất kỳ tệp nào khác trên máy tính Bởi vì các
mô hình không phải lúc nào cũng được coi là tài sản có độ nhạy cảm cao, các hệ thống nắmgiữ các mô hình này có thể không có mức độ bảo vệ an ninh mạng cao
Ngay cả khi kẻ tấn công không có mô hình, vẫn có thể thực hiện một cuộc tấn công đầuvào Nếu những kẻ tấn công có quyền truy cập vào tập dữ liệu được sử dụng để đào tạo mô hình,chúng có thể sử dụng nó để xây dựng bản sao mô hình của riêng chúng và sử dụng “mô hình saochép” này để thực hiện cuộc tấn công của chúng Các nhà nghiên cứu đã chỉ ra rằng các cuộc tấncông được thực hiện bằng cách sử dụng các “mô hình sao chép” này có thể dễ dàng chuyển sangcác mô hình được nhắm mục tiêu ban đầu [11] Có một số tình huống phổ biến trong đó kẻ tấncông sẽ có quyền truy cập vào tập dữ liệu Giống như bản thân các mô hình, tập dữ liệu đượccung cấp rộng rãi như một phần của phong trào mã nguồn mở, hoặc tương tự có thể lấy đượcbằng cách hack hệ thống lưu trữ tập dữ liệu này Trong một số trường hợp hạn chế hơn khi tập dữliệu không có sẵn, những kẻ tấn công có thể biên dịch tập dữ liệu