Luận văn thạc sĩ giải pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai thác

Kiến thức cơ bản

Bất thường và các phương pháp phát hiện bất thường phổ biến

Bất thường là những đối tượng, sự kiện hoặc dấu hiệu không tương thích với phần lớn các yếu tố khác trong tập dữ liệu được coi là bình thường Nó cũng có thể được hiểu là bất kỳ hành vi nào không tuân theo quy tắc chung của những gì được xem là bình thường.

Hành vi "bất thường" khác với hành vi "bình thường" và thường mang tính chất tạm thời, xuất hiện hoặc biến mất không theo quy luật Việc phát hiện bất thường liên quan đến việc tìm kiếm các mẫu trong tập dữ liệu không phù hợp với hành vi mong đợi, cũng như xác định các cá thể khác biệt so với phần lớn dữ liệu trong tập.

Những mẫu không phù hợp thường được gọi là bất thường, dị thường, ngoại lai, quan sát trái ngược, sự bất ngờ, sự đặc thù hoặc chất gây ô nhiễm trong các lĩnh vực ứng dụng khác nhau Trong số này, hai thuật ngữ bất thường và ngoại lai là phổ biến nhất trong bối cảnh phát hiện bất thường và đôi khi được sử dụng thay thế cho nhau.

Phát hiện bất thường là công cụ quan trọng trong nhiều lĩnh vực, bao gồm an ninh mạng, gian lận tài chính, kiểm tra y tế và sản xuất Ví dụ, sự bất thường trong dữ liệu giao dịch thẻ tín dụng có thể báo hiệu hành vi trộm cắp hoặc đánh cắp danh tính Tương tự, bất thường trong việc đăng nhập vào hệ thống có thể cho thấy xâm nhập trái phép, trong khi sự biến đổi bất thường của lưu lượng dữ liệu trong mạng nội bộ có thể chỉ ra rằng dữ liệu nhạy cảm đang bị sao chép hoặc gửi đi bởi kẻ tấn công.

Việc phát hiện bất thường rất quan trọng vì chúng chứa đựng thông tin hữu ích cho nhiều ứng dụng thực tế Bất thường tồn tại dưới nhiều dạng khác nhau, do đó, cần áp dụng các phương pháp phát hiện phù hợp với từng ứng dụng cụ thể Chúng có thể được phân loại thành ba loại: bất thường điểm (point anomalies), bất thường bối cảnh (contextual anomalies) và bất thường tập hợp (collective anomalies) Dưới đây là mô tả chi tiết về các loại bất thường này.

Một điểm dữ liệu được coi là bất thường khi nó khác biệt rõ rệt so với phần còn lại của tập dữ liệu Cụ thể, nếu khoảng cách của một điểm đến trung tâm của tập dữ liệu lớn hơn tất cả các khoảng cách từ các điểm khác đến trung tâm đó, thì điểm này được xác định là bất thường Đây là hình thức bất thường cơ bản nhất và là chủ đề chính trong nhiều nghiên cứu về phát hiện bất thường.

Hình 1.1 Một ví dụ về bất thường điểm trong một tập dữ liệu trong không gian hai chiều

Hình 1.1 minh họa các điểm O1, O2 và khu vực O3, cho thấy chúng nằm ngoài phạm vi bình thường của các cụm N1 và N2, do đó được coi là các điểm bất thường Ví dụ thực tế là phát hiện thời gian đăng nhập hệ thống bất thường Khi xem xét dữ liệu đăng nhập của một cá nhân tại công ty, nếu thời gian đăng nhập khác với thời gian bình thường hàng ngày của họ, đó sẽ được xem là một điểm bất thường.

Bất thường bối cảnh được xác định dựa trên một bối cảnh cụ thể, hay còn gọi là bất thường có điều kiện, liên quan đến cấu trúc và hình thái của dữ liệu Một điểm có thể là bất thường trong bối cảnh này nhưng lại bình thường trong bối cảnh khác Bất thường bối cảnh thường được nghiên cứu trong các ứng dụng liên quan đến dữ liệu biến đổi theo thời gian Khái niệm bối cảnh được tạo ra bởi các cấu trúc trong tập dữ liệu và cần được quy định trong quá trình xây dựng vấn đề Mỗi trường hợp dữ liệu được xác định bởi hai bộ thuộc tính.

Các thuộc tính ngữ cảnh đóng vai trò quan trọng trong việc xác định bối cảnh của một thể hiện Chẳng hạn, trong bộ dữ liệu không gian, kinh độ và vĩ độ được coi là các thuộc tính ngữ cảnh Tương tự, trong dữ liệu chuỗi thời gian, thời gian là thuộc tính ngữ cảnh giúp xác định vị trí của một thể hiện trong toàn bộ chuỗi.

Các thuộc tính hành vi là những đặc điểm phi ngữ cảnh của một thể hiện, ví dụ như lượng mưa trung bình toàn cầu trong một tập dữ liệu không gian Lượng mưa tại bất kỳ vị trí nào được coi là thuộc tính hành vi, phản ánh sự biến đổi khí hậu và điều kiện thời tiết.

Các hành vi bất thường được xác định thông qua các thuộc tính trong một bối cảnh cụ thể Một biểu hiện dữ liệu có thể là bất thường trong một ngữ cảnh nhất định, nhưng lại có thể được coi là bình thường trong ngữ cảnh khác Tính chất này rất quan trọng trong việc xác định các thuộc tính ngữ cảnh và hành vi trong kỹ thuật phát hiện bất thường theo ngữ cảnh.

Thời gian (tháng) Hình 1.2 Ví dụ về bất thường bối cảnh

Biểu đồ nhiệt độ của ba năm liên tiếp cho thấy tháng t2 là một điểm bất thường trong chuỗi nhiệt độ theo thời gian, trong khi nhiệt độ tại tháng t1 tương tự với t2 nhưng không được xem là bất thường do diễn ra trong bối cảnh khác.

Trong việc phát hiện gian lận thẻ tín dụng, một ví dụ cụ thể là việc phân tích thời điểm mua hàng Nếu một cá nhân thường có hóa đơn mua sắm hàng tuần khoảng một triệu đồng, nhưng đột ngột chi tiêu 10 triệu đồng trong một tuần vào tháng Bảy, điều này sẽ được coi là bất thường Ngược lại, cùng một mức chi tiêu 10 triệu đồng trong tuần trước Tết Âm lịch lại được xem là bình thường Việc áp dụng kỹ thuật phát hiện bất thường theo ngữ cảnh phụ thuộc vào ý nghĩa của các bất thường trong lĩnh vực ứng dụng cụ thể.

Bất thường tập hợp là loại bất thường thứ ba, xảy ra khi một tập dữ liệu có những đặc điểm khác biệt so với các tập dữ liệu khác Hình 1.3 minh họa lưu lượng dữ liệu trên một hệ thống, cho thấy sự khác biệt rõ rệt giữa các tập dữ liệu.

Ta có thể thấy, lưu lượng trên hệ thống trong khoảng thời gian từ mẫu thứ 250 đến

Thời điểm 300 khác biệt so với các thời điểm khác, mặc dù mẫu dữ liệu trong khoảng thời gian này khá tương đồng, nhưng chúng được coi là tập hợp bất thường.

Hình 1.3 Ví dụ về bất thường tập hợp về lưu lượng trên hệ thống

1.1.2 Các phương pháp phát hiện bất thường phổ biến

Các phương pháp đánh giá một hệ thống phân lớp dữ liệu

Để đánh giá hiệu quả của một hệ thống phân lớp, chúng ta cần áp dụng các khái niệm chung cho bài toán phân loại hai lớp dữ liệu (bất thường/bình thường) mà chúng ta đang nghiên cứu.

Cách đánh giá này thường được áp dụng cho các bài toán phân lớp có hai lớp dữ liệu

Trong hai lớp dữ liệu, một lớp có mức độ nghiêm trọng cao hơn và cần được dự đoán chính xác hơn Chẳng hạn, trong việc xác định bệnh ung thư, việc bỏ sót trường hợp ung thư quan trọng hơn so với việc chẩn đoán nhầm Tương tự, trong việc phát hiện mìn dưới lòng đất, sự bỏ sót mìn có thể gây hậu quả nghiêm trọng hơn so với việc báo động nhầm Trong lĩnh vực lọc email rác, việc đưa nhầm email quan trọng vào thùng rác là nghiêm trọng hơn so với việc xác định sai một email rác.

Trong các bài toán phân loại, lớp dữ liệu quan trọng cần xác định chính xác là lớp Positive (P-dương tính), trong khi lớp còn lại được gọi là Negative (N-âm tính) Các khái niệm True Positive (TP), False Positive (FP), True Negative (TN), và False Negative (FN) được định nghĩa dựa trên Ma trận nhầm lẫn, như trình bày trong Bảng 1.1 Bảng này mô tả rõ ràng các trường hợp dựa trên kết quả dự đoán so với thực tế.

Bảng 1.1 Ma trận nhầm lẫn

Dự đoán: Positive Dự đoán: Negative

Thực tế: Positive True Positive (TP) False Negative (FN)

Thực tế: Negative False Positive (FP) True Negative (TN)

Trong phân tích dữ liệu, các chỉ số như Tỷ lệ Dương tính Giả (TPR), Tỷ lệ Âm tính Giả (FNR), Tỷ lệ Dương tính Thật (FPR) và Tỷ lệ Âm tính Thật (TNR) thường được chú trọng Những chỉ số này được tính toán dựa trên Ma trận Nhầm lẫn Chuẩn hóa, như được trình bày trong Bảng 1.2 Bảng này cũng cung cấp công thức cụ thể để tính toán các tỷ lệ TPR, FNR, FPR và TNR.

Bảng 1.2 Ma trận nhầm lẫn chuẩn hóa

Dự đoán: Positive Dự đoán: Negative

Thực tế: Positive TPR = TP/(TP + FN) FNR = FN/(FN+ TP)

Thực tế: Negative FPR = FP/(FP + TN) TNR = TN/(FP + TN)

The False Positive Rate (FPR), also known as the False Alarm Rate, and the False Negative Rate (FNR), referred to as the Miss Detection Rate, are critical metrics in mine detection In this context, it is preferable to have a higher False Alarm Rate rather than risk missing a detection, indicating that a higher FPR can be acceptable to achieve a lower Miss Detection Rate.

Căn cứ mục đích xây dưng bài toán phân lớp dữ liệu, ta có các chú ý như sau:

Đối với các bài toán có nhiều lớp dữ liệu, chúng ta có thể tạo bảng True/False và Positive/Negative cho từng lớp bằng cách coi lớp đó là lớp Positive, trong khi các lớp còn lại được gộp chung thành lớp Negative.

Trong một số bài toán, việc điều chỉnh FNR và FPR có thể đạt được bằng cách thay đổi ngưỡng (Threshold) Tiếp theo, chúng ta sẽ khám phá thêm các khái niệm liên quan.

1.2.2 Độ chính xác và độ hồi tưởng

Trong bài toán phân loại với tập dữ liệu có sự chênh lệch lớn giữa các lớp, độ chính xác (Precision) và độ hồi tưởng (Recall) là hai phép đo hiệu quả thường được sử dụng Để minh họa, chúng ta xem xét bài toán phân loại nhị phân, trong đó một lớp được coi là Positive và lớp còn lại là Negative Hình 1.4 cung cấp cái nhìn trực quan về các khái niệm này cũng như công thức tính độ chính xác và độ hồi tưởng.

Hình 1.4 Cách tính độ chính xác và độ hồi tưởng

Precision được xác định là tỷ lệ giữa số điểm True Positive và tổng số điểm được phân loại là Positive (TP + FP) Trong khi đó, Recall được định nghĩa là tỷ lệ giữa số điểm True Positive và tổng số điểm thực sự là Positive (TP + FN) Độ chính xác và hồi tưởng được mô tả qua các công thức 2.1 và 2.2.

TPR và Recall là hai đại lượng tương đương, trong khi Precision và Recall đều là các giá trị không âm, tối đa là 1 Precision cao cho thấy độ chính xác của các điểm tìm được là tốt, trong khi Recall cao biểu thị True Positive Rate (TPR) cao, tức là tỷ lệ bỏ sót các điểm thực sự positive thấp.

Khi Precision đạt giá trị 1, mọi điểm được xác định đều là Positive, không có điểm Negative nào trong kết quả Tuy nhiên, Precision = 1 không đảm bảo rằng mô hình hoạt động hiệu quả, vì cần xác định xem liệu mô hình đã phát hiện đầy đủ tất cả các điểm Positive hay chưa.

Nếu một mô hình chỉ tìm được đúng một điểm Positive mà nó chắc chắn nhất thì ta không thể gọi nó là một mô hình tốt

Khi Recall bằng 1, tất cả các điểm Positive được xác định, nhưng điều này không cho biết số lượng điểm Negative có trong đó Nếu một mô hình phân loại tất cả các điểm là Positive, Recall sẽ đạt giá trị 1, nhưng đây là một mô hình kém hiệu quả Một mô hình phân loại tốt cần có cả Precision và Recall cao, nghĩa là càng gần giá trị 1 càng tốt.

- True Positive (TP): số lượng điểm của lớp Positive được phân loại đúng là Positive

- True Negative (TN): số lượng điểm của lớp Negative được phân loại đúng là Negative

- False Positive (FP): số lượng điểm của lớp Negative bị phân loại nhầm thành Positive

- False Negative (FN): số lượng điểm của lớp Positive bị phân loại nhầm thành Negative

- True Positive Rate (TPR), False Negative Rate (FNR), False Positive Rate (FPR), True Negative Rate (TNR)

Bài viết này sẽ trình bày về việc phát hiện các hành vi bất thường của người dùng thông qua dữ liệu ghi nhận từ hệ thống thông tin, nhằm mục đích cảnh báo và đảm bảo an toàn thông tin.

Mô hình phát hiện hành vi đăng nhập hệ thống bất thường

Giới thiệu đề tài phát hiện bất thường trên hệ thống

Luận văn này đề xuất một giải pháp giám sát và phát hiện hành vi đăng nhập bất thường trên hệ thống thông tin bằng cách phân tích dữ liệu hành vi người dùng Các thông tin log như thời điểm đăng nhập, số lần đăng nhập thành công và thất bại, địa chỉ IP client và hệ thống, cùng với các yêu cầu tác động và dữ liệu truy xuất được sử dụng để đánh giá và phát hiện các hành vi bất thường Giải pháp này cung cấp cảnh báo kịp thời cho bộ phận giám sát an toàn thông tin, giúp nâng cao bảo mật, đặc biệt là đối với các hệ thống chứa dữ liệu quan trọng Mục tiêu của luận văn là mô tả bài toán, xây dựng mô hình và công cụ thu thập, phân tích dữ liệu từ hành vi người dùng để phát hiện và cảnh báo những hành vi đăng nhập không bình thường.

Trong phần tiếp theo, bài viết sẽ trình bày về việc phát triển hệ thống phân tích và phát hiện bất thường, với trọng tâm là phân tích các bất thường trong quá trình đăng nhập.

Mô tả bài toán bất thường đăng nhập

Trong phần này, luận văn sẽ tập trung vào bài toán phát hiện bất thường trong hành vi đăng nhập hệ thống, điều mà đơn vị rất quan tâm Hành vi đăng nhập không chỉ diễn ra từ người dùng hợp pháp mà còn từ kẻ tấn công, người có thể xâm nhập vào tài khoản tổ chức thông qua các phương pháp như tấn công dò quét mật khẩu hoặc khai thác lỗ hổng Sau khi chiếm đoạt tài khoản, kẻ tấn công có thể thực hiện các hành vi đăng nhập trái phép, truy xuất thông tin mật và đánh cắp dữ liệu, gây nguy hại cho hệ thống Tuy nhiên, do không nắm rõ thói quen của người dùng, hành vi đăng nhập của kẻ tấn công thường có các đặc điểm khác biệt so với hồ sơ đăng nhập thông thường Tại VTNet, các hành vi đăng nhập được coi là bất thường khi phát hiện địa chỉ IP, dải IP, thời điểm và địa điểm đăng nhập khác với những gì đã được ghi nhận trong vòng 60 ngày Thông tin thu thập từ hệ thống sẽ giúp nhận diện và cảnh báo các bất thường, đảm bảo an toàn thông tin cho tổ chức.

- Địa chỉ IP, dải địa chỉ IP của người dùng khi thực hiện đăng nhập hệ thống

Sẽ phát hiện bất thường nếu thực hiện đăng nhập từ máy tính không phải máy tính làm việc thường xuyên của người dùng

Khi người dùng đăng nhập vào hệ thống, thông tin về quốc gia, số hiệu mạng (ASN) và nhà cung cấp dịch vụ Internet (ISP) sẽ được thu thập từ địa chỉ IP Những dữ liệu này sẽ được làm giàu để phục vụ cho việc phân tích, giúp xác định vị trí truy cập và phát hiện các hành vi bất thường, như trường hợp kẻ tấn công thực hiện đăng nhập từ xa, không phải từ vị trí làm việc thông thường của người dùng.

Loại đăng nhập và môi trường đăng nhập khác nhau giữa người dùng và kẻ tấn công Người dùng thường sử dụng giao diện đăng nhập để truy cập hệ thống, trong khi kẻ tấn công thường thực hiện đăng nhập thông qua cửa sổ lệnh hoặc truy cập từ xa.

Thời điểm đăng nhập là yếu tố quan trọng giúp xác định thời gian diễn ra hành vi đăng nhập, từ đó đánh giá được tần suất đăng nhập trong từng khoảng thời gian trong ngày và các ngày trong tuần.

Hệ thống sẽ thu thập thông tin để xây dựng công cụ tính toán, phân tích và cảnh báo các bất thường liên quan đến đăng nhập, chẳng hạn như phát hiện đăng nhập từ địa chỉ IP lạ không phải là địa chỉ IP quen thuộc của người dùng Khi có sự bất thường, hệ thống sẽ gửi cảnh báo cho bộ phận an toàn thông tin để tiến hành kiểm tra và xử lý, từ đó nâng cao hiệu quả trong công tác đảm bảo an toàn thông tin tại đơn vị Bài viết tiếp theo sẽ trình bày cách tiếp cận và đề xuất xây dựng hệ thống phát hiện bất thường.

Giới thiệu mô hình hệ thống phát hiện bất thường

Hệ thống phát hiện bất thường phân tích dữ liệu log sự kiện trên hệ thống công nghệ để phát hiện dấu hiệu bất thường thông qua hành vi của đối tượng và đưa ra cảnh báo Đây là một phần của khai phá dữ liệu an toàn thông tin (Security Data Mining) và là thành phần quan trọng trong hệ thống giám sát an toàn thông tin của VTNet Hình 2.1 minh họa mô hình tổng quan của hệ thống quản lý và giám sát an toàn thông tin.

Hệ thống giám sát an toàn thông tin VTNet, như thể hiện trong Hình 2.1, bao gồm nhiều thành phần liên kết chặt chẽ, tạo thành một hệ sinh thái phục vụ cho việc giám sát và đảm bảo an toàn thông tin tại đơn vị Hệ thống này được cấu trúc thành ba lớp chính, được mô tả chi tiết dưới đây.

Lớp dưới cùng của hệ thống chịu trách nhiệm thu thập và cung cấp thông tin dữ liệu đầu vào, bao gồm các thành phần thiết yếu.

Endpoint được cài đặt trên máy chủ và máy trạm để thu thập thông tin hồ sơ một cách đầy đủ Thành phần này cũng cung cấp khả năng điều tra sâu, cách ly và khôi phục các máy chủ, máy trạm khi cần thiết.

- Network Security Monitoring (NSM) hỗ trợ thu thập lấy log truy cập, giám sát các kết nối giữa các node mạng

- Gateway Security Monitoring (GSM) hỗ trợ thu thập log và kiểm soát kết nối của ngõ (Gateway) vào vùng cần bảo vệ

Các sản phẩm và giải pháp từ hãng thứ ba, bao gồm hệ thống quản lý máy tính tập trung (Active Directory - AD), hệ thống quản lý tên miền (DNS), hệ thống phòng chống virus (Antivirus - AV) và hệ thống tường lửa (Firewall), đều có khả năng kết nối và cung cấp thông tin log cho các hệ thống tập trung an toàn thông tin (ATTT) phía trên.

Lớp tiếp theo là các thành phần xử lý, tập trung dữ liệu từ lớp bên dưới Lớp này bao gồm các thành phần quan trọng như:

SIEM (Quản lý và Phân tích Thông tin An ninh) là một hệ thống thiết yếu trong quản lý sự kiện an toàn thông tin, thu thập, lưu trữ và xử lý dữ liệu an ninh tập trung Hệ thống này chuẩn hóa và phân loại dữ liệu theo định dạng chung, tối ưu hóa cho phân tích và điều tra sự cố, đồng thời loại bỏ các thành phần dư thừa SIEM cho phép phân tích và báo cáo tập trung về các sự kiện an ninh mạng, sử dụng các quy tắc tương quan để phát hiện các cuộc tấn công mà các giải pháp thông thường không nhận diện được Nhờ đó, người vận hành có thể nhanh chóng điều tra và nhận diện các vi phạm, từ đó đưa ra các quyết định hiệu quả và kịp thời.

Advanced Malware Analysis (AMA) là một hệ thống phân tích mã độc tự động, đa lớp, chuyên phát hiện mã độc và mã khai thác, đặc biệt trong các cuộc tấn công APT Hệ thống này nhận yêu cầu quét tệp từ các nguồn khác, thực hiện phân tích và cung cấp kết quả rõ ràng về tính độc hại của tệp AMA áp dụng nhiều phương pháp phân tích tiên tiến như Hypervisor, Static Analysis và Dynamic Analysis, giúp phát hiện cả mã độc đã biết và chưa từng được nhận diện.

Security Data Mining (SDM) là hệ thống phân tích dữ liệu lớn, ứng dụng công nghệ Big Data và Data Mining để phát hiện các bất thường trong hệ thống, phục vụ cho việc giám sát và đảm bảo an toàn thông tin Giải pháp này kết hợp khả năng lưu trữ phân tán và tính toán song song của công nghệ Big Data với các thuật toán học máy thông minh, nhằm phát hiện các bất thường cũng như dấu hiệu tấn công trên dữ liệu log được lưu trữ lâu dài Đây là trọng tâm mà luận án này hướng đến để xây dựng và hoàn thiện hệ thống.

Lớp trên cùng của mô hình giám sát hệ thống là thành phần quản lý an toàn thông tin, đóng vai trò quan trọng trong việc giám sát và quản lý toàn bộ hệ thống Nó hỗ trợ việc vận hành và xử lý các cảnh báo an toàn thông tin theo quy trình đã được thiết lập bởi đơn vị.

Hình 2.1 Mô hình tổng thể hệ thống giám sát an toàn thông tin

Luận văn này tập trung vào thành phần Khai thác Dữ liệu An ninh (Security Data Mining - SDM), với việc mô tả chi tiết về phân tích dữ liệu lớn thông qua công nghệ Big Data và Data Mining nhằm phát hiện các bất thường trong hệ thống Đặc biệt, bài toán về bất thường đăng nhập được nhấn mạnh, góp phần vào công tác giám sát và đảm bảo an toàn thông tin.

Third-party solutions, including Active Directory (AD), Domain Name System (DNS), and firewall configurations, are essential for effective security data mining The operation of security data mining relies on the data provided by these systems, which is illustrated in the data flow diagram shown in Figure 2.2 below.

Hình 2.2: Mô hình luồng dữ liệu cho hệ thống phát hiện bất thường

Dữ liệu đầu vào cho hệ thống Security Data Mining (SDM) bao gồm thông tin giám sát an toàn thông tin từ các phần mềm cài đặt trên máy chủ và máy trạm, cũng như từ các thành phần giám sát an toàn thông tin lớp mạng và cổng kết nối, cùng với dữ liệu log từ các thiết bị của hãng thứ ba Hệ thống SDM đồng bộ hóa dữ liệu log theo thời gian thực từ hệ thống Log tập trung và thực hiện xử lý, phân tích dữ liệu dựa trên các thuật toán đã được lập lịch để phát hiện bất thường, đặc biệt là hành vi đăng nhập bất thường Sau khi phân tích, hệ thống sẽ cảnh báo về các hành vi bất thường cho hệ thống giám sát an toàn thông tin tập trung, nhằm hỗ trợ bộ phận phụ trách an toàn thông tin xử lý theo quy trình.

Việc thu thập, lưu trữ và xử lý log từ các nguồn khác nhau, như mô tả trong Hình 2.2, là rất quan trọng Logs được lưu trữ tập trung không chỉ hỗ trợ quản lý, phân tích và giám sát an toàn thông tin mà còn phục vụ cho nhiều mục đích khác Dữ liệu thô trên hệ thống lưu trữ log sẽ được xử lý qua hệ thống log parser theo chuẩn, tạo ra chuỗi dữ liệu JSON (JavaScript Object Notation) JSON là một định dạng dữ liệu có quy tắc rõ ràng, được hầu hết các ngôn ngữ lập trình hiện nay hỗ trợ và sử dụng.

Khai phá dữ liệu an toàn thông tin (Security Data Mining)

Job phát hiện bất thường

Hệ thống giám sát ATTT (Security Management) Cảnh báo

GSM lưu trữ dữ liệu vào tệp và cơ sở dữ liệu một cách dễ dàng, với định dạng đơn giản giúp việc sử dụng và truy vấn trở nên thuận tiện hơn nhiều so với XML Chính vì vậy, tính ứng dụng của GSM hiện nay rất phổ biến.

Thực nghiệm

Kiến trúc công cụ

Hệ thống phát hiện bất thường bao gồm ba phân hệ chính: lưu trữ phân tán, tính toán song song và bộ các ca sử dụng Kiến trúc tổng thể của hệ thống được thể hiện trong Hình 3.1, trong đó phân hệ lưu trữ dữ liệu lớn sử dụng cơ sở dữ liệu phân tán Hadoop, và phân hệ xử lý dữ liệu lớn áp dụng tính toán song song MapReduce Hai phân hệ này được xây dựng trên nền tảng phổ biến và sẵn có trên toàn cầu, phục vụ cho việc xử lý dữ liệu lớn hiệu quả.

Phân hệ phân tích bất thường trong luận văn này tập trung vào việc phát hiện các bất thường liên quan đến đăng nhập Được phát triển bằng ngôn ngữ Scala, phân hệ này sử dụng Framework Spark và Hadoop để tối ưu hóa quá trình phân tích dữ liệu.

Hình 3.1: Mô hình luồng dữ liệu cho hệ thống phát hiện bất thường.

Cài đặt công cụ

Luận văn này tập trung vào việc phát hiện bất thường trong hệ thống lưu trữ phân tán và tính toán song song Hệ thống sẽ phân tích và cảnh báo các hành vi đăng nhập không bình thường, chẳng hạn như việc đăng nhập từ địa chỉ IP lạ hoặc vào thời điểm không thường xuyên.

Phân hệ lưu trữ dữ liệu lớn

Cơ sở dữ liệu phân tán Hadoop

Phân hệ xử lý dữ liệu lớn

Tính toán song song MapReduce

Phân hệ phân tích bất thường

Phân tích các ca sử dụng

Job phát hiện bất thường

Hệ thống giám sát ATTT (Security Management) Cảnh báo

3.2.1 Phân hệ lưu trữ dữ liệu lớn

- Về lưu trữ phân tán ứng dụng công nghệ lưu trữ tệp phân tán (Distributed

Hệ thống File System trên nền tảng công nghệ Hadoop được thiết kế để lưu trữ dữ liệu lớn với nhiều tính năng nổi bật, bao gồm băng thông đọc/ghi cao, cơ chế tự sao lưu đảm bảo an toàn cho dữ liệu, và khả năng nâng cấp phần cứng dễ dàng Hệ thống này hỗ trợ đa dạng định dạng dữ liệu, từ dữ liệu có cấu trúc đến dữ liệu bán cấu trúc và phi cấu trúc, mang lại sự linh hoạt trong quản lý và xử lý dữ liệu.

Dữ liệu log được thu thập từ nhiều nguồn, bao gồm syslog từ hệ thống máy chủ, ứng dụng, thiết bị mạng và các endpoint cài đặt trên máy chủ Những thông tin và hoạt động của máy chủ sẽ được truyền tải và lưu trữ trên hệ thống log tập trung.

Hình 3.2: Hệ thống lưu trữ dữ liệu

Hình 3.3: Hệ thống lưu trữ dữ liệu (tiếp)

Các dữ liệu thô được xử lý qua hệ thống log, bao gồm phân tích và nén theo từng chuẩn riêng, sau đó được đánh index để tăng tốc độ xử lý và lưu trữ trên hệ thống HDFS (Hadoop Distributed File System) Các tệp dữ liệu từ các nguồn khác nhau như Email, AD, SSO, và VPN được lưu vào các thư mục riêng biệt, đảm bảo tổ chức và dễ dàng truy cập Chi tiết về các tệp được lưu trữ trong từng thư mục cụ thể cũng được thể hiện rõ ràng trong hệ thống.

Hệ thống lưu trữ HDFS được quản lý thông qua một giao diện quản lý tệp, cho phép quản lý dịch vụ lưu trữ phân tán hiệu quả Hiện tại, hệ thống đang hoạt động với 11 node phân tán, cung cấp tổng dung lượng lưu trữ lên tới 714 TB, với tỷ lệ sử dụng ổ đĩa đạt 59,29%.

Hình 3.4: Quản lý dịch vụ trữ dữ liệu trên HDFS

Hệ thống tính toán song song, dựa trên nền tảng MapReduce của Google, cho phép xử lý dữ liệu phức tạp trên quy mô lớn trong thời gian ngắn Thay vì sử dụng các truy vấn cơ sở dữ liệu truyền thống, hệ thống triển khai các thuật toán phức tạp để giám sát và phát hiện tấn công Việc tổ chức xử lý song song được thực hiện thông qua cấu hình hệ thống cấp tài nguyên, trong đó mỗi container đại diện cho một khối CPU và bộ nhớ động Mỗi container chỉ hoạt động trên một máy vật lý, nhưng ứng dụng có thể chạy trên nhiều container và nhiều máy khác nhau để tối ưu hóa khả năng tính toán Hình 3.5 mô tả quản lý hệ thống với thông tin về tài nguyên sử dụng, bao gồm CPU, bộ nhớ, tình trạng các node và số lượng ứng dụng đang chạy.

Hình 3.5: Hệ thống quản lý việc xử lý song song

Luận văn này tập trung vào việc ứng dụng công nghệ học máy để phát hiện bất thường trong quá trình vận hành hệ thống công nghệ thông tin tại Viettel, đặc biệt là trong việc phát hiện bất thường khi đăng nhập vào các hệ thống.

3.2.3 Phân hệ phân tích ca sử dụng phát hiện bất thường đăng nhập Đây là phân hệ được xây dựng để phục vụ cho bài toán mà luận văn đưa ra Phân hệ phân tích và phát hiện các bất thường đăng nhập vào hệ thống được thiết kế chạy định kì để xây dựng hồ sơ hành vi và thực hiện đánh giá để phát hiện bất thường theo mô hình toán học được áp dụng tính điểm bất thường của hành vi đăng nhập như đã giới thiệu tại Chương 2 Từ các dữ liệu đã được lưu trữ và xử lý tại 3.2.1 và 3.2.2 dựa trên nền tảng có sẵn, phân hệ phân tích ca sử dụng phát hiện bất thường đăng nhập được được xây dựng bằng ngôn ngữ Scala Phân hệ bao gồm nhiều tiến trình nhỏ Tiến trình đầu tiên sẽ trích xuất các thông tin đầu vào từ cơ sở dữ liệu gốc phục vụ bài toán được nêu trong luận văn bao gồm đối tượng tác động, đối tượng chịu tác động, loại đăng nhập vào hệ thống (login hay logout), các thuộc tính gồm địa chỉ IP, thời gian đăng nhập Tiến trình tiếp theo thực hiên bổ sung thêm thông tin phục vụ phân tích

Dựa trên thông tin thuộc tính địa chỉ IP, tiến hành truy vấn danh mục quản lý địa chỉ IP để bổ sung thông tin về dải IP, nhà cung cấp dịch vụ Internet (ISP) và quốc gia Đồng thời, từ thông tin thời gian, bổ sung giờ trong ngày và ngày trong tuần Sau khi thu thập đầy đủ thông tin đầu vào, tiến hành lưu trữ và tính điểm các hành vi theo công thức đã nêu Cuối cùng, ghi nhận ngưỡng cảnh báo trên giao diện hệ thống, so sánh với kết quả phân tích và đẩy cảnh báo tới hệ thống giám sát an toàn thông tin của đơn vị.

Phân hệ được phát triển bằng ngôn ngữ Scala thông qua Framework Spark và Hadoop Sau khi hoàn thành, chương trình sẽ được biên dịch thành tệp thực thi (.jar) thông qua trình biên dịch Scala Tệp thực thi này sẽ được triển khai lên hệ thống Hadoop YARN để lập lịch chạy, với các cấu hình và tham số cụ thể nhằm thực hiện phân tích bất thường.

Hình 3.6 Lập lịch và cấu hình chạy định kì phân tích dữ liệu

Hình 3.7 Các job chạy định kì phân tích dữ liệu

Quản lý hoạt động phân tích hành vi đăng nhập bất thường trên hệ thống được thực hiện qua một job chạy định kỳ hàng ngày, như thể hiện trong Hình 3.7 và 3.8 Hình 3.7 mô tả ca sử dụng anomaly-behavior-detection nhằm phân tích hành vi bất thường, đồng thời cung cấp cái nhìn chi tiết về các thành phần trong tiến trình này.

Hình 3.8 Job chạy định kì phân tích dữ liệu hành vi bất thường

Sau khi phân tích các hành vi, hệ thống sẽ so sánh với ngưỡng đã thiết lập để đánh giá mức độ bất thường Nếu hành vi được xác định là bất thường, hệ thống sẽ phát sinh cảnh báo và cung cấp thông tin chi tiết trong phần tiếp theo.

Thực nghiệm

3.3.1 Thu thập dữ liệu và kịch bản

Trong phần này, để thực nghiệm kết quả đạt được, một bộ dữ liệu đã được tạo ra bằng cách sử dụng công cụ sinh ngẫu nhiên các bản ghi theo kịch bản giả lập về hành vi truy cập của người dùng Bộ dữ liệu này bao gồm các thuộc tính như địa chỉ IP, địa điểm truy cập, khung thời gian truy cập trong ngày và ngày trong tuần, với những thay đổi ít hoặc có tính lặp lại Ngoài ra, công cụ cũng tạo ra các bản ghi về hành vi bất thường, bao gồm địa chỉ IP, địa điểm và thời gian truy cập khác với kịch bản sử dụng bình thường Tổng cộng, bộ dữ liệu chứa 3.763.678 bản ghi về các log đăng nhập.

Trong nghiên cứu này, 200.000 người dùng với hơn 10.000 địa chỉ IP khác nhau đã được theo dõi hành vi thông thường, dẫn đến việc tạo ra 99.116 bản ghi bất thường nhằm kiểm thử khả năng phát hiện của hệ thống Dữ liệu đăng nhập được thu thập trong khoảng thời gian 60 ngày Kết quả phân tích hành vi bất thường được thực hiện trên hệ thống với bộ dữ liệu đầu vào, tương ứng với các ngưỡng đã được xác định trong Bảng 3.1 Kết quả đầu ra từ phân hệ phân tích ca sử dụng, như đã mô tả trong phần 3.2.3, đã cung cấp những thông tin quan trọng về hành vi người dùng.

- Precision: tỉ lệ phát hiện bất thường chính xác trên tổng số bất thường đã dự đoán

- Recall: tỉ lệ dự đoán bất thường trên tổng số bất thường thực tế

- FPR: tỉ lệ bắt sai

- TP: số lượng bất thường bắt được

- TN: số lượng bình thường bắt được

- FP: số lượng mẫu bình thường nhưng bắt bất thường

- FN: số lượng mẫu bất thường nhưng dự đoán là bình thường

Bảng 3.1 Kết quả chạy với tập dữ liệu

Precision (tỉ lệ phát hiện bất thường chính xác trên tổng số bất thường đã dự đoán)

Recall (tỉ lệ dự đoán bất thường trên tổng số bất thường thực tế)

FPR ( tỉ lệ bắt sai)

TP (số lượng bất thường)

TN ( số lượng bình thường)

FP (số lượng mẫu bình thường nhưng bắt bất thường)

FN (số lượng mẫu bất thường nhưng dự đoán là bình thường)

3.3.2 Chọn ngưỡng cảnh báo bất thường

Sau khi phân tích dữ liệu và xác định mức độ bất thường của hành vi, bước tiếp theo là xác định chỉ số ngưỡng cảnh báo cho hành vi bất thường trong hệ thống SDM Hệ thống sẽ tự động gửi cảnh báo đến hệ thống giám sát khi chỉ số vượt ngưỡng đã được thiết lập Mỗi ngưỡng cảnh báo sẽ dẫn đến số lượng phát hiện và cảnh báo bất thường khác nhau Việc thiết lập ngưỡng cảnh báo này còn liên quan đến quá trình giám sát và xử lý các cảnh báo trong hệ thống giám sát an toàn thông tin khi đưa vào hoạt động thực tế Do đó, việc chọn ngưỡng sẽ phụ thuộc vào mục đích sử dụng của đơn vị và từng bài toán cụ thể.

Kết quả từ các thử nghiệm với tập dữ liệu mẫu cho thấy rằng việc điều chỉnh ngưỡng phát hiện ảnh hưởng đến số lượng mẫu được đánh giá là bất thường và bình thường Theo Bảng 3.1, các chỉ số như tỷ lệ phát hiện bất thường chính xác, tỷ lệ dự đoán bất thường và tỷ lệ bắt sai đều thay đổi theo từng ngưỡng Khi tăng số lượng phát hiện bất thường, có nguy cơ cao hơn trong việc nhầm lẫn hành vi bình thường với bất thường Vì vậy, việc điều chỉnh ngưỡng là cần thiết để đạt được mục tiêu mong muốn trong ứng dụng thực tiễn.

Khi sử dụng ngưỡng từ 63 trở lên, tỉ lệ bắt sai đạt 0, cho thấy đây là ngưỡng lý tưởng cho việc xử lý tự động các cảnh báo bất thường, đảm bảo rằng mọi cảnh báo đều chính xác Tuy nhiên, ngưỡng này chỉ phát hiện được 47,8% các trường hợp bất thường, dẫn đến việc bỏ sót 51.761 mẫu bất thường Để giảm thiểu việc bỏ sót và tăng cường khả năng phát hiện, có khả năng xảy ra dự đoán sai, tức là những trường hợp thực tế bình thường lại được xác định là bất thường.

Bảng 3.2 Kết quả chạy với tập dữ liệu threshold

Precision (tỉ lệ phát hiện bất thường chính xác trên tổng số bất thường đã dự đoán)

Recall (tỉ lệ dự đoán bất thường trên tổng số bất thường thực tế)

FPR ( tỉ lệ bắt sai))

TP (số lượng bất thường)

TN ( số lượng bình thường)

FP (số lượng mẫu bình thường nhưng bắt bất thường)

FN (số lượng mẫu bất thường nhưng dự đoán là bình thường)

Để hỗ trợ việc chọn ngưỡng cảnh báo, luận văn đã mô phỏng kết quả trên biểu đồ với ba đường Precision, Recall và FPR Biểu đồ này giúp trực quan hóa sự thay đổi của các chỉ số đánh giá kết quả đầu ra của hệ thống phát hiện bất thường khi thay đổi các ngưỡng Cụ thể, tại ngưỡng 63, tỷ lệ bắt chính xác các bất thường đạt 100% với chỉ số Precision = 1 và FPR = 0 Tuy nhiên, tỷ lệ phát hiện bất thường chỉ đạt 47,8%, dẫn đến việc bỏ sót 52,2% các bất thường.

Hình 3.8 Biểu đồ tại ngưỡng 63

Trong bài toán phát hiện bất thường, chỉ số tối ưu cho mô hình là khi cả tỉ lệ chính xác và tỉ lệ phát hiện bất thường đều đạt mức cao.

Precision và Recall đều đạt mức cao, cho thấy hiệu quả của mô hình Qua việc biểu diễn kết quả đầu ra bằng biểu đồ mô phỏng, ngưỡng 41 được xác định là tối ưu cho việc phát hiện bất thường Đồng thời, tỷ lệ bắt nhầm FPR cũng rất thấp, chỉ 0,1%.

Hình 3.9: Kết quả đầu ra của việc xác định ngưỡng cảnh bảo

Sau khi đánh giá kết quả từ tập dữ liệu thực hiện, chúng ta sẽ xác định ngưỡng phù hợp để phát hiện các bất thường và gửi cảnh báo Các trường hợp được xem là bất thường khi vượt quá ngưỡng đã đặt ra, như thể hiện trong biểu đồ Đối với tập dữ liệu mẫu này, luận văn quyết định sử dụng ngưỡng cảnh báo là 41, nơi mà độ chính xác của mô hình đạt cao với precision là 0.948 và recall là 0.821.

Áp dụng thực nghiệm

Hệ thống phát hiện bất thường (SDM) đã được triển khai tại đơn vị, cho phép phân tích dữ liệu thực trên hệ thống công nghệ thông tin VTNet SDM bao gồm 11 node phân tán, lưu trữ và xử lý 50 TB dữ liệu trong 60 ngày nhằm phát hiện các hành vi bất thường Hệ thống được lập lịch để chạy hàng ngày, phân tích và cảnh báo các hành vi đăng nhập không bình thường Ngoài ra, SDM còn liên kết với hệ thống giám sát và cảnh báo an toàn thông tin thông qua máy chủ Redis 6, giúp phát hiện các bất thường trong việc đăng nhập vào các hệ thống quan trọng như Email.

Trong những tháng gần đây, hệ thống giám sát ATTT của VTNet đã nhận được cảnh báo từ hệ thống SDM về việc đăng nhập bất thường, được xác minh là chính xác Cụ thể, người dùng đã thực hiện đăng nhập VPN từ địa chỉ IP ngoài Việt Nam, như thể hiện trong Hình 3.10.

Redis, viết tắt của REmote DIctionary Server, là một mã nguồn mở nổi bật dùng để lưu trữ dữ liệu có cấu trúc Nó có thể hoạt động như một cơ sở dữ liệu, bộ nhớ đệm, hoặc trình chuyển tiếp tin nhắn và danh sách tác vụ chờ xử lý Redis là hệ thống lưu trữ dữ liệu dạng khóa-giá trị (KEY-VALUE) mạnh mẽ và phổ biến hiện nay.

Hình 3.10 Cảnh báo trên hệ thống

Hệ thống phát hiện bất thường trong hoạt động khai thác CNTT tại VTNet đã đạt được những kết quả khả quan trong việc phát hiện đăng nhập bất thường Hệ thống này được tích hợp với các công cụ giám sát an toàn thông tin hiện có, tạo nên một hệ thống quản lý toàn diện về an toàn thông tin cho VTNet.

Luận văn đã trình bày việc xây dựng công cụ phân tích và mô hình sử dụng thuật toán để tính điểm hành vi đăng nhập của người dùng, nhằm xác định ngưỡng tối ưu cho việc phát hiện hành vi bất thường Sau khi hoàn thành phần mềm và thử nghiệm trên dữ liệu thực tế, hệ thống đã hoạt động hiệu quả, cung cấp phân tích trực quan để hỗ trợ quyết định về ngưỡng phát hiện bất thường Khi phát hiện hành vi bất thường, hệ thống sẽ gửi cảnh báo đến hệ thống giám sát an toàn thông tin của VTNet để các bộ phận chuyên trách xử lý Công cụ này đã được áp dụng thành công, phát hiện nhiều trường hợp đăng nhập bất thường vào các hệ thống quan trọng, góp phần nâng cao công tác quản lý giám sát an toàn thông tin tại đơn vị.

Tiêu đề	Giải pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai thác các hệ thống thông tin tại Viettel
Tác giả	Nguyễn Đăng Tiệp
Người hướng dẫn	PGS. TS. Phạm Ngọc Hùng
Trường học	Đại Học Quốc Gia Hà Nội - Trường Đại Học Công Nghệ
Chuyên ngành	Hệ thống thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	09/2020
Thành phố	Hà Nội

Định dạng
Số trang	50
Dung lượng	1,89 MB