Luận văn này tập trung vào vấn đề bảo vệ, bảo đảm an toàn thông tin trong các mạng chiến thuật không dây cũng như duy trì hiệu suất hệ thống trước các cuộc tấn công nghe lén và chặn tín
Các loại đánh chặn và chiến lược đối phó
Đánh chặn thụ động
Đánh chặn thụ động là biện pháp mà kẻ đối lập sử dụng để lắng nghe tín hiệu từ các thiết bị phát hợp pháp nhằm đánh cắp thông tin mà không can thiệp vào quá trình liên lạc Các thiết bị phát tín hiệu như UAV, trạm cơ sở và thiết bị di động của binh sĩ là mục tiêu chính Việc phát hiện và ngăn chặn các thiết bị nghe lén này rất quan trọng trong quân sự để bảo vệ thông tin nhạy cảm Để đối phó, nhiều kỹ thuật đã được nghiên cứu, trong đó có việc điều chỉnh mức công suất phát để tín hiệu chỉ đủ mạnh cho thiết bị nhận mà không bị phát hiện Hwang và cộng sự (2017) đã đề xuất chiến lược phân bổ năng lượng hiệu quả nhằm duy trì chất lượng dịch vụ (QoS) và giữ biên độ tín hiệu ở mức không thể phát hiện bởi thiết bị nghe lén Ngoài ra, nghiên cứu của Shi, An & Li (2021) đã chỉ ra rằng kỹ thuật trải phổ nhảy tần (FHSS) có thể giúp phân tán tín hiệu trên nhiều tần số khác nhau, từ đó tránh bị phát hiện bởi các thiết bị nghe lén.
Đánh chặn chủ động
Đánh chặn chủ động là hình thức tấn công mà kẻ địch không chỉ nghe lén mà còn can thiệp vào quá trình liên lạc bằng các thiết bị gây nhiễu Bên đối địch triển khai bộ phát sóng gây nhiễu, tạo tín hiệu nhiễu để phá hủy khả năng giải mã của thiết bị hợp pháp hoặc chèn tín hiệu nhiễu vào môi trường, ngăn cản người dùng truy cập kênh Để giảm thiểu kiểu tấn công này, hệ thống áp dụng biện pháp kiểm soát công suất nhằm điều chỉnh mức phát sóng, từ đó giảm thiểu tác động của tín hiệu nhiễu Mỗi hệ thống sẽ có giải pháp đặc trưng dựa trên các số liệu hiệu suất Ví dụ, một chiến lược dựa trên lý thuyết trò chơi được phát triển bởi El-Bardan, Brahma & Varshney (2016) nhằm duy trì tỷ lệ tín hiệu trên nhiễu (SINR) tối ưu Một phương pháp khác là phân bổ công suất tối ưu dựa trên xác suất bị phát hiện thấp (LPI-OPA) để duy trì khả năng hoạt động của radar trong điều kiện bị gây nhiễu [Shi, Wang, Sellathurai & Zhou (2017b)].
Gần đây, phương pháp đánh chặn kép đã được phát triển, cho phép kẻ thù vừa nghe lén vừa gây nhiễu tín hiệu cùng lúc, tạo ra thách thức lớn hơn cho các hệ thống phòng thủ Điều này yêu cầu các chiến lược phải đối phó hiệu quả với cả hai hoạt động nghe lén và gây nhiễu Thậm chí, một thiết bị đánh chặn đơn lẻ có khả năng lắng nghe các kênh thân thiện và thực hiện các hoạt động gây nhiễu đồng thời.
Thuật toán mã hóa dòng
Mã hóa dòng trong liên lạc quân sự
Mã hóa dòng là phương pháp mã hóa dữ liệu, trong đó mỗi bit hoặc byte của văn bản gốc được mã hóa kết hợp với một dòng khóa (keystream) được tạo ra từ khóa bí mật So với mã hóa khối, mã hóa dòng có tốc độ cao và độ trễ thấp, rất phù hợp cho các ứng dụng yêu cầu truyền dữ liệu liên tục và thời gian thực.
Mã hóa dòng là yếu tố quan trọng trong hệ thống liên lạc quân sự, giúp bảo vệ thông tin nhạy cảm khỏi sự nghe lén và can thiệp Với khả năng mã hóa dữ liệu theo thời gian thực, mã hóa dòng đảm bảo tính bảo mật và toàn vẹn của thông tin, ngay cả trong môi trường khắc nghiệt và có tính cơ động cao.
Thuật toán RC4 và cơ chế hoạt động
RC4 (Rivest Cipher 4) là một thuật toán mã hóa dòng được Ron Rivest phát triển vào năm 1987 cho RSA Security Thuật toán này nổi bật và được ưa chuộng trong các hệ thống bảo mật nhờ tốc độ mã hóa nhanh và tính toán đơn giản RC4 là lựa chọn hàng đầu cho các ứng dụng yêu cầu hiệu suất cao, đặc biệt trong các thiết bị di động và hệ thống quân sự với tài nguyên tính toán hạn chế.
RC4 hoạt động dựa trên hai thành phần chính:
Thuật toán Lập lịch Khóa (KSA) là quá trình khởi tạo mảng hoán vị ngẫu nhiên dựa trên khóa bí mật đầu vào RC4 sử dụng mảng S có kích thước 256 byte để lưu trữ các giá trị từ 0 đến 255 Quá trình này là cơ sở cho việc tạo ra chuỗi khóa trong bước tiếp theo.
Thuật toán 2.1:Key Scheduling Algorithm (KSA) (Secret Key K)
Thuật toán sinh số ngẫu nhiên giả (PRGA) hoạt động bằng cách hoán đổi các giá trị trong mảng S sau khi mảng này được khởi tạo Các giá trị sau khi hoán đổi sẽ được sử dụng để tạo ra chuỗi khóa keystream Chuỗi khóa này được sinh ra bằng cách lấy giá trị từ mảng S sau mỗi lần hoán đổi và sau đó sẽ được XOR với văn bản gốc để tạo ra văn bản mã hóa.
Quá trình mã hóa và giải mã của RC4 diễn ra theo nguyên tắc XOR giữa dòng khóa và văn bản gốc hoặc văn bản
Thuật toán 2.2:Pseudo-Random Generation Algorithm(PRGA) (S-box S)
9 end mã hóa, do đó quá trình giải mã cũng tương tự như quá trình mã hóa.
Ưu điểm và hạn chế của RC4
RC4 là một thuật toán mã hóa có tốc độ cao và tiêu tốn ít tài nguyên, lý tưởng cho các hệ thống như máy bay không người lái (UAV), mạng adhoc di động (MANET) và các thiết bị có khả năng xử lý hạn chế Thuật toán này có cấu trúc đơn giản, dễ dàng tích hợp vào hệ thống hiện có mà không cần phần cứng phức tạp Hơn nữa, RC4 hỗ trợ các khóa có độ dài từ 40 bit đến 256 bit, cho phép điều chỉnh mức độ bảo mật linh hoạt theo yêu cầu của môi trường và tài nguyên hệ thống.
Mặc dù RC4 từng được sử dụng rộng rãi, nhưng không có loại mã hóa nào là hoàn hảo và RC4 cũng không phải là ngoại lệ Nghiên cứu bảo mật từ các chuyên gia toàn cầu đã chỉ ra rằng RC4 có nhiều lỗ hổng, đặc biệt khi sử dụng khóa yếu hoặc thiếu các biện pháp bảo mật bổ sung Các tấn công như tấn công phân tích thống kê có thể dễ dàng khai thác những điểm yếu này.
Mặc dù RC4 vẫn được sử dụng, nhưng trong các ứng dụng yêu cầu bảo mật cao, thuật toán mã hóa dòng hiện đại hơn hoặc mã hóa khối thường được ưu tiên Các nhà khoa học đang nghiên cứu để khắc phục các lỗ hổng bảo mật của RC4 Trong một nghiên cứu, S Maity, K Sinha và B P Sinha đã cải tiến RC4, đặc biệt là bước PRGA, để tạo ra một thuật toán nhẹ và tối ưu cho phần cứng yếu và yêu cầu di động cao Ngoài ra, các nhà nghiên cứu đã phát triển các mã hóa dòng mới dựa trên cấu trúc RC4, tích hợp với các cơ chế xác thực như Chacha20 và Salsa20.
Sự thay đổi độ dài khóa bí mật trong RC4
RC4 nổi bật với khả năng hỗ trợ độ dài khóa bí mật từ 40 bit đến 256 bit, cho phép hệ thống điều chỉnh độ dài khóa theo yêu cầu bảo mật và điều kiện hoạt động thực tế Trong môi trường chiến thuật, mức độ đe dọa có thể thay đổi nhanh chóng, vì vậy khi phát hiện nguy cơ bị đánh chặn cao, hệ thống có thể tăng độ dài khóa để nâng cao bảo mật Ngược lại, khi đe dọa thấp, hệ thống có thể giảm độ dài khóa nhằm tăng hiệu suất xử lý và đảm bảo thông lượng Việc điều chỉnh độ dài khóa có thể kết hợp với các chiến lược phân bổ tài nguyên khác như điều chỉnh công suất phát, giúp tối ưu hóa hiệu suất và bảo mật một cách toàn diện.
Yêu cầu về tính di động, linh hoạt và khả biến cao trong các ứng dụng quân sự
Mạng ad hoc di động (MANET)
Nghiên cứu về tính di động cao của mạng quân sự trước đây chủ yếu tập trung vào mạng ad hoc di động (MANET), một loại mạng không dây tự động cấu hình mà không cần cơ sở hạ tầng cố định Trong môi trường quân sự, các nút trong MANET có thể là binh lính, xe quân sự hoặc cảm biến, cho phép hình thành các mạng đặc biệt nhằm hỗ trợ liên lạc thông tin tức thời trên chiến trường.
Quản lý tính di động trong mạng MANET là một thách thức lớn do sự di chuyển không theo quy tắc của các nút, dẫn đến nguy cơ gián đoạn mạng và mất kết nối Để duy trì tính toàn vẹn của thông tin liên lạc, cần thiết phải có một phương pháp quản lý di động hiệu quả giúp mạng tự cấu hình lại nhanh chóng khi các nút di chuyển.
Chen, Dou, Li và Wei (2010) đã phát triển mô hình chuyển động nhóm hình elip (EGM) để mô phỏng hành vi chuyển động của các nhóm nút tạm thời trên chiến trường quân sự, trong đó các nút di chuyển theo quỹ đạo hình elip, phản ánh các kịch bản chiến đấu thực tế Đồng thời, Kumar, Sharma & Suman (2010) đã phân loại các chỉ số di động trong MANET và đề xuất phương pháp đo hiệu suất mạng dựa trên tính di động của các nút trong mạng.
Tác động của tính cơ động cao đến môi trường chiến thuật
Sự phát triển của máy bay không người lái (UAV) và các thiết bị di động cao đã làm tăng độ phức tạp trong mạng lưới quân sự, với UAV hiện đại có khả năng thực hiện nhiệm vụ trinh sát và tấn công ở khoảng cách xa và thay đổi vị trí liên tục Điều này tạo ra thách thức trong việc duy trì kết nối ổn định, đặc biệt khi hoạt động trong môi trường khắc nghiệt như địa hình hiểm trở và khu vực đô thị đông đúc Nghiên cứu gần đây đã tập trung vào mối liên hệ giữa tính cơ động và hiệu quả của hệ thống phòng thủ quân sự, với mô hình di động mới của Agrawal, Kapoor & Tomar (2022) cho thấy tính di động cao không chỉ ảnh hưởng đến việc truyền dữ liệu mà còn quan trọng trong việc tránh các cuộc tấn công từ kẻ thù.
Trọng lượng của thiết bị quân sự là yếu tố quan trọng ảnh hưởng đến tính cơ động cao Nghiên cứu của Hart & Gerth (2018) chỉ ra rằng sự cân bằng giữa trọng lượng và khả năng cơ động có thể tác động trực tiếp đến hiệu suất chiến đấu và khả năng né tránh các cuộc tấn công Thiết bị nhẹ giúp dễ dàng di chuyển và định vị lại nhanh chóng trong các tình huống khẩn cấp.
Tính di động trong các hệ thống quân sự hiện đại yêu cầu cung cấp dịch vụ liên tục cho người dùng di động Malowidzki và các cộng sự (2006) nhấn mạnh rằng khả năng hỗ trợ tính cơ động cao là điều kiện tiên quyết cho các hệ thống chiến thuật Họ đề xuất rằng không chỉ cần duy trì tính cơ động, mà còn phải đảm bảo độ trễ thấp, chất lượng dịch vụ cao và khả năng tái thiết mạng nhanh chóng.
Tối ưu hóa nguồn lực hệ thống trong điều kiện yêu cầu tính di động cao
Khi tính di động của thiết bị gia tăng, nhiều thách thức mới nảy sinh, đặc biệt trong việc tối ưu hóa tài nguyên mạng và đảm bảo chất lượng dịch vụ Nghiên cứu của Zeng, Zhang & Lim (2016) đã chỉ ra rằng việc tối đa hóa thông lượng trong mạng có nút chuyển tiếp di động là cần thiết, vì tính di động cao có thể làm giảm hiệu quả truyền dữ liệu nếu không có biện pháp quản lý tài nguyên hợp lý.
Guo và cộng sự (2021) đã đề xuất các phương pháp tối ưu hóa phân bổ nguồn lực trong môi trường di động cao, nơi mà các thiết bị cần di chuyển liên tục mà không làm giảm chất lượng liên lạc Họ phát triển các thuật toán phân bổ tài nguyên động, cho phép nhanh chóng thích ứng với sự thay đổi vị trí của thiết bị trong thời gian thực, từ đó nâng cao hiệu quả phòng thủ của hệ thống trước các cuộc tấn công dựa trên năng lượng.
Tác động của tính cơ động cao đến chiến lược chống đánh chặn
Nghiên cứu hiện tại chưa đầy đủ về tác động của tính cơ động cao đến khả năng phòng thủ điện tử, đặc biệt trong việc chống lại các cuộc tấn công nghe lén Các hệ thống phòng thủ điện tử gặp nhiều thách thức từ các thiết bị di động nhanh với thông số mạng thay đổi liên tục Kẻ thù có thể khai thác lỗ hổng do tính di động này để chặn tín hiệu và tấn công hệ thống Luận văn sẽ tập trung vào việc giải quyết những thách thức này nhằm bảo vệ các hệ thống khỏi các cuộc tấn công dựa trên năng lượng Bằng cách áp dụng các thuật toán phân bổ tài nguyên thông minh và phương pháp học tăng cường sâu (DRL), nghiên cứu hướng tới tối ưu hóa hệ thống trong điều kiện di động cao, đảm bảo hiệu quả bảo mật và giảm thiểu rủi ro từ các cuộc tấn công năng lượng.
Phương pháp tối ưu hóa và DRL trong thiết kế chống đánh chặn
Ưu điểm của các phương pháp tối ưu hóa truyền thống
Các phương pháp tối ưu hóa truyền thống mang lại lợi ích đáng kể với độ chính xác cao trong các giải pháp, nhờ vào các mô hình toán học mạnh mẽ Điều này giúp phân bổ tài nguyên một cách tối ưu trong các điều kiện cụ thể, đảm bảo chất lượng dịch vụ (QoS) và bảo mật hệ thống Ngoài ra, các phương pháp này được cộng đồng học thuật đánh giá cao, vì chúng thường được coi là tiêu chuẩn để so sánh với các phương pháp thay thế Chẳng hạn, nghiên cứu của Yang và cộng sự (2021b) cho thấy các giải pháp từ phương pháp tối ưu hóa là "tiêu chuẩn vàng" để đánh giá hiệu quả của các phương pháp dựa trên máy học.
Các công cụ tối ưu hóa hiện đại như CVX Solver và phần mềm MOSEK cung cấp hỗ trợ mạnh mẽ cho cộng đồng khoa học và kỹ thuật Chúng giúp thực hiện các giải pháp tối ưu hóa truyền thống, giải quyết các thách thức phức tạp và cho phép nhà nghiên cứu, kỹ sư đánh giá hiệu quả của các chiến lược phân bổ tài nguyên trong nhiều tình huống khác nhau.
Hạn chế của các phương pháp tối ưu hóa truyền thống
Mặc dù phương pháp tối ưu hóa truyền thống có nhiều ưu điểm, nhưng chúng bắt đầu bộc lộ hạn chế trong các kịch bản chiến thuật hiện đại với tính cơ động cao và hệ thống phức tạp Chi phí truyền thông và tính toán cao khi xử lý nhiều biến điều khiển dẫn đến nhu cầu lớn về nguồn lực tính toán Khi số lượng biến điều khiển tăng, bài toán tối ưu hóa trở nên phức tạp hơn, tiêu tốn nhiều thời gian và năng lượng Hơn nữa, các phương pháp này thường gặp khó khăn trong việc đáp ứng yêu cầu thay đổi theo thời gian thực, đặc biệt trong môi trường chiến thuật di động, nơi cần điều chỉnh nhanh chóng phân bổ tài nguyên để tránh gián đoạn do các cuộc tấn công của đối thủ.
DRL trong quá trình phát triển các chiến lược chống đánh chặn
Trong bối cảnh giải quyết các thiếu sót của kỹ thuật tối ưu hóa truyền thống, Học tăng cường sâu (DRL) đã nổi lên như một giải pháp hứa hẹn cho việc xây dựng chiến lược chống chặn DRL giúp hệ thống nhanh chóng đưa ra quyết định phân bổ tài nguyên mà không cần các phép toán phức tạp trong thời gian thực Thay vì đối mặt với những thách thức tối ưu hóa tốn kém, DRL áp dụng các mô hình thống kê được đào tạo trước để dự đoán và phân phối tài nguyên dựa trên thông tin hiện tại của hệ thống.
Trong các hệ thống MIMO, học tăng cường sâu (DRL) đã chứng minh khả năng tối ưu hóa phân bổ nguồn điện cho trạm gốc, đồng thời loại bỏ thiết bị gây nhiễu thông minh từ đối phương Chẳng hạn, nghiên cứu của Xiao và cộng sự (2018) đã ứng dụng DRL để hỗ trợ máy bay không người lái (UAV) quyết định gửi tín hiệu nhằm tránh nhiễu trong quá trình truyền thông tin Ngoài ra, thuật toán DRL cũng đã được sử dụng hiệu quả trong các tình huống liên lạc chống đánh chặn đa khu vực, cho thấy tính hiệu quả cao khi đối mặt với nhiều loại tấn công khác nhau (Han & Niu, 2019).
Ứng dụng DRL và mã hóa dòng trong bảo mật chống đánh chặn
So với các phương pháp tối ưu hóa truyền thống, DRL nổi bật với khả năng xử lý nhiều biến điều khiển mà không cần tính toán lại toàn bộ hệ thống Điều này khiến DRL trở thành công cụ hữu ích trong các hệ thống chiến thuật hiện đại, đặc biệt cho các thiết bị di động như máy bay không người lái và phương tiện chiến đấu mặt đất, nơi yêu cầu phản ứng nhanh trước các cuộc tấn công Để tăng cường bảo mật, DRL có thể kết hợp với mã hóa dòng, sử dụng các thuật toán nhẹ như RC4 để bảo vệ thông tin khỏi các cuộc tấn công đánh chặn dựa trên năng lượng.
Sự kết hợp giữa DRL và RC4 cho phép hệ thống tự động điều chỉnh kích thước khóa bí mật của thuật toán mã hóa theo thời gian thực, dựa trên mức độ các mối đe dọa và điều kiện chiến trường RC4 hỗ trợ khóa bí mật với độ dài đa dạng, nâng cao khả năng mã hóa đồng thời duy trì hiệu suất cao, đáp ứng yêu cầu bảo mật nghiêm ngặt của các hệ thống chiến thuật hiện đại.
Các thuật toán Học Tăng cường Sâu (DRL) như Q-learning và Tối ưu Chính sách Gần (PPO) đã được ứng dụng để mô phỏng và tối ưu hóa chiến lược phân bổ tài nguyên trong mạng liên lạc quân sự Những công nghệ này cho phép hệ thống tự động điều chỉnh và tối ưu hóa mà không cần can thiệp thủ công liên tục.
MADRL trong các kịch bản phân tán
Một khung phương pháp quan trọng trong thiết kế chống chặn hiện đại là Học tăng cường sâu đa tác tử (MADRL), được phát triển để xử lý các tình huống phân tán Trong hệ thống này, mỗi thành phần hoạt động như một tác tử độc lập Đặc biệt, trong các tình huống chiến thuật, mỗi máy bay không người lái (UAV) hoặc xe mặt đất không người lái (UGV) có khả năng đưa ra quyết định phân bổ nguồn lực dựa trên thông tin địa phương và chiến lược tổng thể của hệ thống.
MADRL cho phép phân công nhiệm vụ phòng thủ cho từng tác tử, giúp giảm rủi ro bị chặn ở cấp hệ thống Hệ thống này cũng có khả năng phản ứng nhanh và linh hoạt trước các cuộc tấn công từ nhiều nguồn khác nhau, đặc biệt trong các kịch bản chiến thuật phức tạp với các yếu tố thay đổi liên tục.
So sánh với phương pháp thông thường
Luận văn này so sánh hiệu suất của các kỹ thuật Học Tăng cường Sâu (DRL) kết hợp với mã hóa dòng RC4 và các kỹ thuật tối ưu hóa truyền thống Phân tích cho thấy sự kết hợp này không chỉ nâng cao bảo mật mà còn tối ưu hóa hiệu suất hệ thống trong các tình huống chiến thuật hiện đại, nơi mà các cuộc tấn công dựa trên năng lượng và tính di động cao đóng vai trò quan trọng.
NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 14 3.1 Chiến lược chống đánh chặn dựa trên năng lượng và kĩ thuật phòng thủ
GIẢI PHÁP CHỐNG ĐÁNH CHẶN KHÔNG DÂY CHO CÁC PHƯƠNG TIỆN CHIẾN ĐẤU MẶT ĐẤT 17 4.1 Phát biểu bài toán
Mô hình hệ thống và xây dựng bài toán
Hình 4.1: Mô hình hệ thống
Hệ thống thông tin chiến thuật sử dụng công nghệ DS-CDMA được thiết kế nhằm đảm bảo khả năng tránh bị phát hiện (LPI) và an ninh thông tin Điều này được thực hiện thông qua việc điều chỉnh công suất truyền và độ dài khóa bí mật.
Tập hợp GọiS={1,2, ,S} đại diện cho các người dùng nguồn (SUs), trong khi tập hợp D={1,2, ,D} là các người dùng đích (DUs) Cả SUs và DUs đều là các phương tiện chiến đấu mặt đất (GCV) di động, bao gồm xe tăng, xe tải tên lửa và nhiều loại phương tiện khác.
SU được trang bị một mô-đun giao tiếp với công suất phát tối đaPs,max.
Mỗi SU được kết nối với một DU tương ứng, tạo thành tập hợp C = {1, 2, , C} của các kết nối End-to-End (E2E) Các kết nối E2E có thể hoạt động theo hai chế độ khác nhau.
• Chế độ tiếp sóng (Relay Mode):
Nút tiếp sóng (rBS) là hệ thống sử dụng trạm tiếp sóng cơ sở để thiết lập các kết nối E2E ở khoảng cách xa Hệ thống này giả định rằng rBS có thể hỗ trợ B giao diện, với B là tập hợp các giá trị từ 1 đến B Mỗi giao diện b trong rBS có khả năng nhận dữ liệu từ SUs và truyền dữ liệu đến DU j.
* Giai đoạn 1: SUstruyền tín hiệu đến rBS.
* Giai đoạn 2: rBS khuếch đại và chuyển tiếp tín hiệu đến DU j.
• Chế độ Giao tiếp giữa Thiết bị (D2D Mode):
– Điều kiện sử dụng: Chế độ D2D được sử dụng cho giao tiếp khoảng cách ngắn khi khoảng cách giữa
SU và DU nhỏ hơn một ngưỡngl.
– Quy trình truyền tải: SUstruyền tín hiệu trực tiếp đến DU jmà không qua rBS.
Hệ thống giao tiếp sử dụng biến nhị phân δc sđ để xác định chế độ kết nối E2E tại thời điểm t Khi δc(t) = 1, kết nối c hoạt động ở chế độ tiếp sóng qua rBS, trong khi chế độ D2D trực tiếp sẽ được kích hoạt khi δc(t) = 0.
Trong luận văn này, hệ thống được giả định hoạt động trên địa hình phẳng, không có chướng ngại vật lớn, với giao tiếp theo đường thẳng (LoS) chiếm ưu thế, cho phép bỏ qua hiệu ứng đa đường Kênh truyền bị ảnh hưởng bởi Nhiễu Gaussian trắng cộng thêm (AWGN) và suy hao đường truyền theo mô hình không gian tự do với hệ số suy hao α=2 Độ khuếch đại kênh giữa nút phát và nút thu được xác định tại thời điểm t.
Xu & Paulraj (1993)] [57] được tính bằng:
G (t) c,x,y= (d c,x,y (t) ) −α , (4.1) vớidc,x,y (t) là khoảng cách giữa nútxvà nútycho kết nốictại thời điểmt.
SINR tại nút thuytừ nút phátxcho kết nốictại thời điểmt: γc,x,y (t) = G (t) c,x,yPc,x (t) σ 2 +∑k̸=cG (t) k,x,y P k,x (t)
(4.2) vớiPc,x (t) là công suất phát của nútxcho kết nốictại thời điểmt,σ 2 là mật độ công suất nhiễu nền.
Mạng lưới được giám sát bởi thiết bị phát hiện kẻ thù, hoạt động bằng cách nghe thụ động để phát hiện tín hiệu từ các SU và rBS Thiết bị này sử dụng kỹ thuật phát hiện dựa trên năng lượng để xác định sự tồn tại của tín hiệu thông qua việc đo cường độ tín hiệu nhận được Để giảm thiểu khả năng bị phát hiện, các SU và rBS cần điều chỉnh công suất phát Pc,x(t) và sử dụng độ dài khóa bí mật k(t) c một cách phù hợp.
Mô hình tối ưu hóa và bảo mật nhằm tối đa hóa tốc độ truyền tổng thể của các kết nối E2E, đồng thời đảm bảo an toàn thông qua việc tối ưu hóa công suất phát P c,x (t) và độ dài khóa bí mật k (t).
• Pc,s (t) : Công suất phát của SUscho kết nốic.
• P c,b (t) : Công suất phát của rBSbcho kết nốic(nếu chế độ tiếp sóng được chọn).
• k (t) c : Độ dài khóa bí mật cho kết nốic.
• δc (t) : Biến chọn chế độ giao tiếp cho kết nốic.
Ràng buộc An ninh: Thời gian cần thiết để bẻ khóa mãT break (k (t) c )phải lớn hơn hoặc bằng thời gian tối thiểu yêu cầuT min :
T break (k (t) c )≥T min Điều này đảm bảo rằng hệ thống duy trì mức độ bảo mật cần thiết.
Trong hệ thống WIN-T của luận văn, để tránh bị phát hiện bởi thiết bị đánh chặn dựa trên năng lượng, các SU và rBS cần truyền tín hiệu với giá trị SINR thấp hơn ngưỡng phát hiện dự kiến Đồng thời, luận văn cũng yêu cầu kiểm soát công suất truyền để đảm bảo cường độ SINR đo được bởi các bộ thu mong muốn đáp ứng xác suất gián đoạn dự kiến Các ràng buộc hệ thống được thể hiện qua các phương trình γmin≤γc,s,à (t) và γmin≤γc,b,à (t), trong đó à là ngưỡng phát hiện SINR của thiết bị đánh chặn Ví dụ, khả năng LPI của nhiều hệ thống hiện đại được duy trì khi giá trị SINR giao thoa giữ ở mức dưới -8dB [Diamant et al (2016)].
Trong hệ thống mạng GCV, việc điều chỉnh công suất (PA) và chỉ định yếu tố trải (SA) cần được thực hiện liên tục để thích ứng với môi trường giao tiếp thay đổi nhanh chóng Tại mỗi khe thời gian, các chế độ này phải được thực hiện nhanh chóng và phối hợp để đảm bảo cập nhật kịp thời mức công suất truyền và độ dài khóa bí mật Đồng thời, chất lượng dịch vụ (QoS) của các dịch vụ E2E cũng cần được duy trì cùng với khả năng tránh bị phát hiện (LPI) Luận văn này giải quyết bài toán tối ưu hóa nhằm bảo tồn LPI và tối đa hóa tỷ lệ truyền cho hệ thống, được định hình toán học như bài toán P1.
Mục tiêu của bài toán tối ưu hóa này là:
• Tối đa hóa tổng tốc độ truyền của tất cả các kết nối E2E tại mỗi thời điểmt.
• Đảm bảo mức độ bảo mật yêu cầu thông qua việc lựa chọn độ dài khóa bí mậtk (t) c phù hợp.
• Đảm bảo khả năng tránh bị phát hiện (LPI) và chất lượng dịch vụ (QoS) tại máy thu mong muốn.
Trong đó: τc,x,y (t) = W 0 mx,max log 2
Tốc độ truyền giữa nút phát x và nút thu y tại thời điểm t được biểu thị bằng 1+γc,x,y(t), trong đó W0 là băng thông tín hiệu gốc Công suất phát của SU và rBS cho kết nối tại thời điểm t lần lượt được ký hiệu là Pc,s(t) và Pc,b(t) Độ dài khóa bí mật cho kết nối tại thời điểm t được ký hiệu là k(t)c, trong khi mx,maxl là hệ số trải phổ cố định tại giá trị tối đa Thêm vào đó, δc(t) là biến chọn chế độ truyền thông, tuân theo quy ước đã định.
0, Truyền trực tiếp từ SU đến người dùng j. λseclà hệ số thưởng cho việc không đảm bảo mức độ bảo mật yêu cầu.
Thời gian bẻ khóa T break (k (t) c ) = 2 k (t) c f được xác định bởi độ dài khóa khóak (t) c Tmin là thời gian tối thiểu cần thiết để đảm bảo mức độ bảo mật Trong đó, f đại diện cho tốc độ thử khóa của kẻ tấn công, tức là số khóa mà họ kiểm tra mỗi giây.
Luận văn định nghĩa hàm thành phần thưởng cho thông lượng theo công thức ∑c∈Clog(k(t)c), cho thấy sự tác động của k c lên hệ thống bảo mật Khi k c tăng từ giá trị nhỏ, lợi ích bảo mật tăng nhanh chóng, nhưng sau một mức nhất định, việc tăng độ dài khóa chỉ mang lại lợi ích bảo mật nhỏ hơn, gây tiêu tốn năng lượng và giảm thông lượng Do đó, cần lựa chọn giá trị k c hợp lý để đảm bảo cả thông lượng và bảo mật Độ dài khóa bí mật k c được đo bằng số bit, và việc tăng k c làm tăng độ khó cho kẻ tấn công Thời gian bẻ khóa tăng theo cấp số nhân với k c, vì số lượng khóa khả dĩ là 2^k c Hàm logarit là hàm lõm trên miền số thực dương, do đó, khi tối đa hóa hàm lõm, kết quả sẽ nằm trên biên của tập khả thi, đáp ứng yêu cầu của bài toán.
Các ràng buộc của bài toán
Ràng buộc tránh bị phát hiện bởi máy nghe lén:
Trong đú,àlà ngưỡng SINR tối đa cho phộp tại mỏy nghe lộn để đảm bảo tớnh ẩn giấu của truyền thụng.
Ràng buộc đảm bảo chất lượng dịch vụ tại máy thu mong muốn:
(C5):γ c,s, (t) j ≥(1−δ c (t) )γ min ,∀c∈C Trong đó,γ min là ngưỡng SINR tối thiểu để đảm bảo chất lượng dịch vụ.
Ràng buộc về công suất phát:
(C7): 0≤P c,b (t) ≤PBS,max,∀c∈C Trong đó,P s,max vàP BS,max là công suất phát tối đa của SU và rBS.
Ràng Buộc Về Mức Độ Bảo Mật:
(C8):T break (k c (t) )≥T min ,∀c∈C Hoặc tương đương: k (t) c ≥log 2 (fãT min ),∀c∈C Điều này đảm bảo độ dài khóak (t) c đủ lớn để thời gian bẻ khóa vượt quáT min
Ràng buộc về độ dài khóa:
(C10):k c (t) ≥k min ,∀c∈C Trong đó,k max là độ dài khóa tối đa được hỗ trợ bởi hệ thống vàk min được xác định để đảm bảo an toàn về bảo mật
Ràng buộc về hệ số trải phổ cố định: m (t) c,s =m max,s ,m (t) c,b =m max,b ,∀c∈C
Các hệ số trải phổ m (t) c,s và m (t) c,b được xác định tại các giá trị tối ưu max,s và max,b, nhằm đơn giản hóa bài toán và đảm bảo khả năng ẩn giấu tín hiệu một cách hiệu quả nhất.
Cơ sở mô hình hóa thời gian bẻ khóa dựa trên giả định rằng bên tấn công sẽ sử dụng phương pháp tấn công vét cạn (Brute-force attack) để xâm nhập vào hệ thống Luận văn sẽ trình bày chi tiết về cơ sở này nhằm làm rõ cách thức và thời gian cần thiết để bẻ khóa hệ thống.
Đề xuất chiến lược lựa chọn chế độ giao tiếp
Để đảm bảo khả năng LPI, mạng phải hy sinh hiệu suất thông lượng để truyền tải năng lượng thấp Giải pháp cho
Để cải thiện hiệu suất thông lượng của hệ thống trong khi vẫn duy trì khả năng LPI, luận văn giả định hệ thống liên lạc chiến thuật với nhiều nút chuyển tiếp, GCV hoặc rBS Luận văn đề xuất một chiến lược lựa chọn chế độ giao tiếp linh hoạt, cho phép mỗi kết nối End-to-End (E2E) tự chọn giữa chế độ tiếp sóng qua nút trung gian và chế độ D2D trực tiếp, nhằm tối ưu hóa hiệu suất truyền thông mà không cần tăng công suất phát Hơn nữa, luận văn mở rộng bài toán P1 bằng cách giới thiệu hai biến nhị phân mới.
• δ c (t) : Biến chọn chế độ giao tiếp cho kết nốictại thời điểmt.
– δc (t) =1 :Kết nốicchọn chế độ tiếp sóng qua nút trung gian.
– δ c (t) =0 :Kết nốicchọn chế độ D2D trực tiếp.
• φc,z (t) : Biến nhị phân chỉ định nút tiếp sóngzđược chọn cho kết nốictại thời điểmt.
– φc,z (t) =1 :Nútzđược chọn làm nút tiếp sóng cho kết nốic.
Tập hợp các nút tiếp sóng tiềm năng được ký hiệu là Z={1,2, ,Z}, bao gồm các GCV khác nhau hoặc các trạm tiếp sóng (rBS) Luận văn này sẽ thay thế chỉ số b trong bài toán P1 bằng chỉ số z thuộc tập Z.
Bài toán tối ưu hóa mới được định nghĩa như sau:
+λsec∑c∈Clog(k c (t) ) Với các ràng buộc:
(C5):γc,s,z (t) ≥φc,z (t) ãγmin,∀c∈C,∀z∈Z (C6):γ c,z,j (t) ≥φc,z (t) ãγ min ,∀c∈C,∀z∈Z (C7):γ c,s, (t) j ≥(1−δ c (t) )ãγmin,∀c∈C (C8):T break (k c (t) )≥T min ,∀c∈C (C9):k (t) c ≤kmax,∀c∈C (C10):k (t) c ≥k min ,∀c∈C (C11):
Hàm mục tiêu nhằm tối đa hóa tổng thông lượng của tất cả các kết nối, bao gồm chế độ D2D và chế độ tiếp sóng, đồng thời trừ đi hàm phạt do không đáp ứng yêu cầu bảo mật.
• τc,x,y (t) :Tốc độ truyền dữ liệu giữa nút phátxvà nút thuy.
• γc,x,y (t) :Tỷ số tín hiệu trên nhiễu (SINR) giữa nútxvà núty.
• à:Ngưỡng SINR tối đa cho phộp tại thiết bị phỏt hiện của đối phương.
• γmin:Ngưỡng SINR tối thiểu để đảm bảo chất lượng dịch vụ.
• T break (k (t) c ):Thời gian cần thiết để bẻ khóa mã với độ dài khóak (t) c
• λ sec :Hệ số thưởng cho việc không đảm bảo mức độ bảo mật yêu cầu.
• Ràng buộc (C10): Đảm bảo rằng nếu kết nốicchọn chế độ tiếp sóng (δc (t) =1), thì chỉ có một nút trong tập
Zđược chọn làm nút tiếp sóng.
• Ràng buộc (C11) và (C12): Định nghĩa tính nhị phân của các biếnδc (t) vàφc,z (t)
Luận văn sử dụng phương pháp phân rã để giải quyết bài toánP2 bài toán này được chia thành hai bài toán con:
• Bài toán Phân bổ Công suất (P A ): Tối ưu hóa phân bổ công suấtPc,s (t) vàPc,z (t) với các tham số cố địnhδc (t) , φc,z (t) vàk (t) c
• Bài toán Lựa chọn Chế độ Giao tiếp (MS ): Tối ưu hóa lựa chọn chế độ giao tiếpδc (t) vàφc,z (t) với các tham số cố địnhP c,s (t) ,P c,z (t) vàk c (t)
Bài toán Lựa chọn Chế độ Giao tiếp (MS ) max δ c ,φ c,z ∑ c∈C
(C11): 0≤δ c (t) ≤1,∀c∈C(thư giãn biến nhị phân)
(C12): 0≤φc,z (t) ≤1,∀c∈C,∀z∈Z(thư giãn biến nhị phân)
Trong bài toán M S, luận văn tập trung vào việc tối ưu hóa các biến δc(t) và φc,z(t) để xác định chế độ giao tiếp và nút tiếp sóng phù hợp cho mỗi kết nối Các biến nhị phân này được chuyển đổi thành biến liên tục trong khoảng [0,1] nhằm giải quyết bài toán tối ưu hóa lồi Sau khi hoàn thành quá trình tối ưu, các biến sẽ được làm tròn để khôi phục giá trị nhị phân ban đầu Quy trình chi tiết giải quyết bài toán P2 được trình bày trong Thuật toán 4.2.
Thuật toán 4.2:Thuật toán lặp cho bài toánP 2
1 Khởi tạo: Thư giãn biến nhị phân: Chuyển các biếnδc (t) vàφc,z (t) thành các biến liên tục trong khoảng[0,1].
2 Đặt số lần lặp tối đa:ηmaxvà ngưỡng hội tụε.
3 Khởi tạo biến: Đặt giá trị khả thi ban đầu choP c,s (t) ,P c,z (t) , vàk c (t)
5 Vớiδc (t) ,φc,z (t) , vàk (t) c cố định, giải bài toánP A để tìmPc,s (t) vàPc,z (t)
6 VớiP c,s (t) ,Pc,z (t) , vàk (t) c cố định, giải bài toánM S để tìmδc (t) vàφc,z (t)
7 VớiP c,s (t) ,P c,z (t) ,δc (t) ,φc,z (t) cố định, tối ưu hóak (t) c theo các ràng buộc (C8), (C9) và (C10) Cập nhật các biếnδc (t) ,φc,z (t) ,Pc,s (t) ,Pc,z (t) , vàk (t) c cho lần lặp tiếp theo.
8 Cho đến khiSự thay đổi của hàm mục tiêu giữa hai lần lặp liên tiếp nhỏ hơnε, thìt dừng thuật toán Nếu không, tiếp tục lặp lại.
9 Làm tròn giá trị của các biếnδc (t) vàφc,z (t) :
15 Kết thúc:Với các biến đã làm trònδ c (t) vàφc,z (t) , giải lại bài toánP A để tìm lời giải tối ưu cuối cùng cho
KẾT QUẢ VÀ PHÂN TÍCH 38 5.1 Thiết lập mô phỏng
Kịch bản mô phỏng và phân tích kết quả
Trong các kịch bản mô phỏng, luận văn so sánh phương pháp đề xuất MADRL với phương pháp tối ưu hóa truyền thống, tập trung vào các khía cạnh quan trọng như hiệu quả và tính khả thi của từng phương pháp.
• Thời gian thực thi: Thời gian cần thiết để tính toán và đưa ra quyết định trong mỗi khung thời gian.
• Khả năng tránh bị đánh chặn dựa trên năng lượng: Đánh giá dựa trên giá trị SINR tại kẻ nghe lén.
• Hiệu quả của việc thay đổi độ dài khóa bí mật: Đánh giá mức độ an toàn thông tin thông qua độ dài khóa sử dụng.
Luận văn thực hiện mô phỏng trên 1,000 tập, với mỗi tập chứa 150 khung thời gian, tổng cộng đạt 150,000 khung thời gian Kết quả được tính trung bình trên các tập nhằm đảm bảo độ chính xác và độ tin cậy.
Bảng 5.2: Các siêu tham số của mô hình mạng Q-học sâu
Siêu tham số Giá trị
Số nơ-ron trong các lớp ẩn 500, 250, 120
Kích thước bộ nhớ replay 10,000
Số khung thời gian mỗi tập 150
Thời gian thực thi đóng vai trò quan trọng trong hệ thống truyền thông không dây, đặc biệt trong môi trường chiến thuật di động Để hệ thống có thể thích ứng kịp thời với sự biến đổi của kênh truyền, khoảng thời gian cần thiết cho việc tối ưu hóa phân bổ công suất, lựa chọn chế độ giao tiếp và độ dài khóa bí mật phải được rút ngắn.
Luận văn thực hiện đo thời gian thực thi của hai phương pháp trên cùng một cấu hình máy tính, sử dụng Python 3.9 và CPU Intel(R) Core(TM) i5-10400 @2.90GHz Kết quả được trình bày chi tiết trong Hình 5.1.
Hình 5.1: So sánh thời gian thực thi giữa phương pháp tối ưu hóa và phương pháp MADRL
Phương pháp MADRL cho thấy thời gian thực thi trung bình luôn nhỏ hơn 20 ms cho mỗi khung thời gian, trong khi phương pháp tối ưu hóa cần hơn 50 ms khi độ hội tụ được đặt là 1×10−3 Điều này chứng tỏ MADRL đáp ứng yêu cầu thời gian thực trong các hệ thống di động cao với kênh truyền thay đổi nhanh chóng Ngược lại, phương pháp tối ưu hóa truyền thống tốn nhiều thời gian hơn, đặc biệt khi cần độ chính xác cao, khiến nó không phù hợp cho các ứng dụng thời gian thực.
5.2.2 Khả năng tránh bị đánh chặn dựa trên năng lượng
Khả năng tránh bị phát hiện và đánh chặn là yếu tố quan trọng trong truyền thông quân sự Bài viết sử dụng chỉ số SINR tại kẻ nghe lén để đánh giá khả năng phòng thủ của hệ thống chống lại các cuộc tấn công dựa trên năng lượng Giá trị SINR thấp tại kẻ nghe lén sẽ làm giảm khả năng phát hiện và giải mã tín hiệu, từ đó nâng cao hiệu quả bảo mật cho hệ thống.
Hình 5.2: Giá trị SINR cực đại đo được trong kênh SU-Interceptor
Cả hai phương pháp đều giữ giá trị SINR dưới ngưỡng chấp nhận -8 dB, đảm bảo khả năng LPI cho mạng Phương pháp tối ưu hóa có hiệu suất LPI nhỉnh hơn với giá trị SINR thấp nhất khoảng -9.32 dB, trong khi phương pháp MADRL dao động quanh -8.3 dB Biên độ dao động SINR của MADRL nhỏ hơn, cho thấy tính ổn định trong việc duy trì khả năng LPI Điều này chứng tỏ MADRL có khả năng thích ứng tốt với điều kiện kênh truyền thay đổi, duy trì mức phát sóng thấp để tránh phát hiện, đồng thời đảm bảo chất lượng dịch vụ cho người dùng hợp pháp.
5.2.3 Thay đổi độ dài khóa bí mật để đảm bảo an toàn thông tin Độ dài khóa bí mật (kc) là một yếu tố quan trọng ảnh hưởng đến mức độ an toàn của hệ thống mã hóa Độ dài khóa càng lớn thì thời gian cần thiết để bẻ khóa càng dài, tăng cường khả năng bảo mật của hệ thống.
Hình 5.3: Giá trị trung bình củak c theo thời gian
Cả hai phương pháp đều duy trì giá trị k c ở mức cao, khoảng 210 bits, vượt ngưỡng tối thiểu 128 bits, đảm bảo an toàn thông tin Phương pháp tối ưu hóa có xu hướng giữ k c cao hơn so với phương pháp MADRL, mặc dù sự chênh lệch không đáng kể, và cả hai đều đáp ứng yêu cầu bảo mật.
Hình 5.4: So sánh giá trịkccủa một tác tử cụ thể
Hình 5.4 cho thấy rằng giá trị kccủa tác tử khi áp dụng phương pháp MADRL gần tương đương với phương pháp tối ưu hóa tại mỗi thời điểm Sự dao động của k trong phương pháp MADRL lớn hơn, cho thấy khả năng điều chỉnh linh hoạt theo điều kiện kênh truyền và yêu cầu của hệ thống Phương pháp MADRL có khả năng giảm k khi điều kiện kênh tốt nhằm tăng thông lượng, và tăng k khi cần nâng cao bảo mật.
5.2.4 Phân tích so sánh tổng hợp
Phương pháp MADRL đã chứng minh hiệu suất vượt trội trong việc cân bằng yêu cầu về thời gian thực thi, khả năng tránh bị đánh chặn và đảm bảo an toàn thông tin.
Phương pháp MADRL có thời gian thực thi ngắn hơn nhiều so với các phương pháp tối ưu hóa truyền thống, giúp hệ thống nhanh chóng thích ứng với những thay đổi trong môi trường kênh truyền Điều này rất quan trọng cho các ứng dụng thời gian thực và trong các môi trường chiến thuật có tính di động cao.
Phương pháp MADRL duy trì giá trị SINR tại kẻ nghe lén dưới ngưỡng chấp nhận được, đảm bảo an toàn cho hệ thống, mặc dù phương pháp tối ưu hóa có hiệu suất LPI tốt hơn một chút.
Sự ổn định của MADRL trong việc duy trì SINR ở mức thấp cho thấy tính hiệu quả của phương pháp trong việc tránh bị phát hiện.
An toàn thông tin: Cả hai phương pháp đều duy trì độ dài khóa bí mật ở mức cao để đảm bảo an toàn thông tin.
Phương pháp MADRL cho phép điều chỉnh linh hoạt độ dài khóa dựa trên điều kiện kênh truyền, từ đó tối ưu hóa hiệu suất hệ thống mà không làm giảm mức độ bảo mật.
Phương pháp MADRL nổi bật với tính linh hoạt và khả năng thích ứng cao, cho phép điều chỉnh chiến lược hành động theo các điều kiện kênh truyền và môi trường thay đổi Điều này khiến MADRL trở thành lựa chọn lý tưởng cho các hệ thống truyền thông không dây trong những môi trường biến động.