1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giải pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai thác các hệ thống thông tin tại viettel​

50 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,89 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Có thể sử dụng lưu nó vào một tệp, một bản ghi trong có sở dữ liệu dễ dàng NIST National Institute of Standards thông tin SIEM Security Information and Event Management Hệ thống quản lý

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-oo0oo -

NGUYỄN ĐĂNG TIỆP

GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội – 09/2020

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-oo0oo -NGUYỄN ĐĂNG TIỆP

GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL

Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin

Mã Số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

HƯỚNG DẪN KHOA HỌC: PGS TS PHẠM NGỌC HÙNG

Hà Nội – 09/2020

Trang 3

Mục lục

LỜI CẢM ƠN ii

LỜI CAM ĐOAN iv

DANH MỤC HÌNH VẼ v

Giới thiệu 1

Chương 1 Kiến thức cơ bản 5

1.1 Bất thường và các phương pháp phát hiện bất thường phổ biến 5

1.1.1 Bất thường 5

1.1.2 Các phương pháp phát hiện bất thường phổ biến 9

1.1.3 Các thách thức trong phát hiện bất thường 11

1.2 Các phương pháp đánh giá một hệ thống phân lớp dữ liệu 12

1.2.1 True/False Positive/Negative 12

1.2.2 Độ chính xác và độ hồi tưởng 13

1.2.3 Tóm tắt 15

Chương 2: Mô hình phát hiện hành vi đăng nhập hệ thống bất thường 16

2.1 Giới thiệu đề tài phát hiện bất thường trên hệ thống 16

2.2 Mô tả bài toán bất thường đăng nhập 16

2.3 Giới thiệu mô hình hệ thống phát hiện bất thường 17

2.3.1 Cách thức phân tích dữ liệu 21

2.3.2 Xây dựng mô hình phân tích dữ liệu 26

Chương 3: Thực nghiệm 28

3.1 Kiến trúc công cụ 28

3.2 Cài đặt công cụ 28

3.2.1 Phân hệ lưu trữ dữ liệu lớn 29

3.2.2 Phân hệ xử lý 30

3.2.3 Phân hệ phân tích ca sử dụng phát hiện bất thường đăng nhập 31

3.3 Thực nghiệm 33

3.3.1 Thu thập dữ liệu và kịch bản 33

3.3.2 Chọn ngưỡng cảnh báo bất thường 37

3.4 Áp dụng thực nghiệm 39

Kết luận 41

TÀI LIỆU THAM KHẢO 43

Trang 4

LỜI CẢM ƠN

Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS

TS Phạm Ngọc Hùng, người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu thực hiện luận văn cho tới khi hoàn thành công việc của mình

Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo Khoa Công nghệ thông tin, Trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập, nghiên cứu tại Trường

Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi trong quá trình học tập

và nghiên cứu

Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp đã giúp đỡ, tạo điều kiện thuận lợi cho tôi học tập và nghiên cứu chương trình Thạc sĩ tại Trường Đại học Công nghệ, ĐHQGHN

Trang 5

DANH MỤC TỪ VIẾT TẮT/THUẬT NGỮ

Từ viết tắt Từ đầy đủ Ý nghĩa

một số dịch vụ chạy trên Windows Server nhằm mục đích quản lý quyền

và truy cập vào các tài nguyên mạng ASN Autonomous System Number Số hiệu mạng thường được dùng

trong các thủ tục định tuyến động trên mạng Internet

ISP Internet Service Provider Nhà cung cấp dich vụ Internet

JSON JavaScript Object Notation Một dạng dữ liệu tuân theo một quy

luật nhất định mà hầu hết các ngôn ngữ lập trình hiện nay đều có thể đọc được Có thể sử dụng lưu nó vào một tệp, một bản ghi trong có sở dữ liệu

dễ dàng NIST National Institute of Standards

thông tin SIEM Security Information and

Event Management

Hệ thống quản lý và phân tích sự kiện an toàn thông tin

UEBA User & Entity Behavior

Analytics

Phân tích bất thường về hành vi người dùng và thực thể

VPN Virtual Private Network Mạng riêng ảo

VTNet Viettel Networks Tổng Công ty Mạng lưới Viettel

Trang 6

LỜI CAM ĐOAN

Tôi xin cam đoan rằng luận văn thạc sĩ chuyên ngành hệ thống thông tin “Giải pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai thác các

hệ thống thông tin tại Viettel” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của PGS TS Phạm Ngọc Hùng, không sao chép lại của người khác Trong toàn

bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng, hợp pháp và được trích dẫn trung thực

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này

Hà Nội, ngày 01 tháng 9 năm 2020

Học viên

Nguyễn Đăng Tiệp

Trang 7

DANH MỤC HÌNH VẼ

Hình 1.1 Một ví dụ về bất thường điểm trong một tập dữ liệu trong không gian

hai chiều 6

Hình 1.2 Ví dụ về bất thường bối cảnh 7

Hình 1.3 Ví dụ về bất thường tập hợp về lưu lượng trên hệ thống 8

Hình 1.4 Ví dụ bài toán phân lớp phát hiện thư rác 9

Bảng 1.1 Ma trận nhầm lẫn 12

Bảng 1.2 Ma trận nhầm lẫn chuẩn hóa 13

Hình 1.4 Cách tính độ chính xác và độ hồi tưởng 14

Hình 2.1 Mô hình tổng thể hệ thống giám sát an toàn thông tin 19

Hình 2.2: Mô hình luồng dữ liệu cho hệ thống phát hiện bất thường 20

Hình 2.3 Mô hình hệ thống phát hiện bất thường 21

Hình 2.4 Các thuộc tính liên quan đến địa chỉ IP 22

Hình 2.5 Cấu trúc dữ liệu hành vi phát hiện bất thường 23

Bảng 2.1 Các thuộc tính sử dụng để phát hiện bất thường đăng nhập 24

Hình 2.6: Mô hình phân bố của một thuộc tính 26

Hình 3.1: Mô hình luồng dữ liệu cho hệ thống phát hiện bất thường 28

Hình 3.2: Hệ thống lưu trữ dữ liệu 29

Hình 3.3: Hệ thống lưu trữ dữ liệu (tiếp) 29

Hình 3.5: Hệ thống quản lý việc xử lý song song 31

Hình 3.6 Lập lịch và cấu hình chạy định kì phân tích dữ liệu 32

Hình 3.7 Các job chạy định kì phân tích dữ liệu 32

Hình 3.8 Job chạy định kì phân tích dữ liệu hành vi bất thường 33

Bảng 3.1 Kết quả chạy với tập dữ liệu 34

Bảng 3.2 Kết quả chạy với tập dữ liệu 38

Hình 3.8 Biểu đồ tại ngưỡng 63 38

Hình 3.9: Kết quả đầu ra của việc xác định ngưỡng cảnh bảo 39

Hình 3.10 Cảnh báo trên hệ thống 40

Trang 8

Giới thiệu

Trong những năm gần đây, sự phát triển mạnh các hệ thống và ứng dụng công nghệ thông tin (CNTT) đã đem lại những lợi ích không nhỏ cho con người bao gồm cả đời sống, công nghệ, kinh tế, xã hội, v.v Bên cạnh đó, vấn đề an ninh và bảo mật về đảm bảo an toàn thông tin cho các hệ thống công nghệ thông tin cũng là một thách thức không nhỏ Các hành vi xâm nhập trái phép, tấn công vào những hệ thống máy tính của các cá nhân hay tổ chức cũng ngày càng gia tăng và gây ra những thiệt hại nghiêm trọng Theo trang thông tin của VTV (Đài truyền hình Việt Nam), một báo cáo năm

2020 mới đây được công ty bảo mật Bkav công bố cho thấy, tại Việt Nam, nếu như vào năm 2018, tổng thiệt hại do tấn công mạng là gần 15.000 tỷ đồng thì đến hết năm

2019, con số này đã là gần 21.000 tỷ đồng Mức thiệt hại đã tăng thêm hơn 6.000 tỷ đồng, tương đương với khoảng 40% Theo thống kê của Bkav, số lượng máy tính bị mất dữ liệu trong năm 2019 lên tới 1.8 triệu lượt, tăng 12% so với năm 20181 Và theo báo cáo từ hãng bảo mật Kaspersky, so với năm 2018, số lượng các mối đe dọa được phát hiện bởi phần mềm diệt vi-rút trên web đã tăng gấp hơn năm lần (523%), tổng cộng là 2.660.000 vào năm 20192

Tháng 4/2019, dữ liệu cá nhân của hơn 100 triệu người dùng của dịch vụ tìm kiếm

Ấn Độ có tên JustDial bị lộ khi một cơ sở dữ liệu trực tuyến không được bảo vệ Dữ liệu bị rò rỉ được thu thập trong thời gian thực từ mọi khách hàng truy cập dịch vụ qua trang Web, ứng dụng di động hoặc thậm chí các cuộc gọi và bao gồm tên người dùng, địa chỉ email, số điện thoại di động, địa chỉ, nghề nghiệp và thậm chí cả ảnh cá nhân, v.v.3

Tháng 6/2019, cơ quan thu thập y tế Mỹ (AMCA) bị khai thác dữ liệu làm lộ thông tin cá nhân và thông tin thanh toán của gần 20 triệu bệnh nhân sau khi bị tấn công xâm nhập vào cổng thanh toán của họ Thông tin bị truy cập trái phép bao gồm tên, ngày sinh, địa chỉ, điện thoại, ngày dịch vụ, nhà cung cấp, thông tin số dư và thẻ tín dụng hoặc tài khoản ngân hàng, v.v Chỉ vài tuần sau khi các vi phạm này được công

bố, AMCA đã nộp đơn xin phá sản với lý do tài chính và pháp lý4 Tháng 8/2019, Capital One, một trong những ngân hàng thương mại lớn nhất ở Mỹ, đã bị đánh cắp

dữ liệu, làm lộ thông tin cá nhân của hơn 106 triệu thẻ tín dụng từ năm 2005 đến năm

1

https://vtv.vn/cong-nghe/18-trieu-luot-may-tinh-viet-nam-bi-mat-du-lieu-trong-nam-2019-20200115170552486.htm

2 due-to-web-skimmers

https://www.kaspersky.com/about/press-releases/2019_malware-variety-grows-by-137-in-2019-3 “ Over100MillionJustDialUsers’PersonalDataFoundExposedOntheInternet,”byMohitKumar,TheHa ckerNews,April17,2019

4 “Data Breach Forces Medical Debt Collector AMCA to File for Bankruptcy Protection,” by Charlie Osborne, ZDNet, June 19, 2019

Trang 9

2019 Tin tặc đã khai thác một cấu hình sai của thiết bị tường lửa trên một trong những máy chủ cung cấp dịch vụ ảo hoá (Cloud) của Capital One và lấy cắp hơn 700 thư mục dữ liệu5

Tháng 10/2019, dữ liệu y tế cá nhân của gần một triệu người ở New Zealand đã bị lộ trong một cuộc tấn công xâm nhập vào hệ thống của tổ chức Tu Ora Compass Health Một tin tặc với cái tên “Vanda The God” đã đe dọa bán những thông tin này Các cuộc điều tra cho thấy hệ thống đã bị tấn công vào bốn lần khác nhau5 Tháng 11/2019, UniCredit, một ngân hàng của Italia, bị xâm phạm dữ liệu dẫn đến rò rỉ thông tin cá nhân của ba triệu khách hàng, sau khi một kẻ tấn công không xác định xâm phạm một tệp cũ từ năm 2015 chứa hồ sơ của khách hàng, bao gồm tên, số điện thoại và địa chỉ email5

Trong số các hành động và biện pháp để đảm bảo an toàn thông tin theo tiêu chuẩn của Viện tiêu chuẩn và Công nghệ Quốc gia Mỹ (National Institute of Standards and Technology - NIST), hiện nay, các đơn vị đang tập trung và làm tốt việc định nghĩa, nhận dạng các tài sản, các nguy cơ về an toàn thông tin và từ đó thực hiện các biện pháp bảo vệ cũng như khắc phục và nâng cấp hệ thống Tuy nhiên, còn hai biện pháp quan trọng khác chưa được thực hiện tốt đó là phát triển và thực hiện các hoạt động thích hợp để xác định sự xuất hiện của một sự kiện về an ninh mạng và tổ chức triển khai các hoạt động xử lý liên quan đến việc phát hiện cảnh báo liên quan đến an toàn thông tin Cụ thể, các kế hoạch ứng phó, truyền thông, phân tích, giảm nhẹ thiệt hại

và cải tiến Để thực hiện hai nhiệm vụ này, việc phân tích bất thường và các sự kiện trên hệ thống là một trong những biện pháp quan trọng để hỗ trợ phát hiện kịp thời các sự kiện về an ninh mạng để từ đó đơn vị có những biện pháp ứng phó kịp thời để đảm bảo an toàn thông tin Việc phân tích bất thường về hành vi người dùng và thực thể (User & Entity Behavior Analytics – UEBA) cũng là một chủ đề rất được quan tâm tại nhiều đơn vị và trên thế giới cũng có nhiều hãng công nghệ về bảo mật cũng rất quan tâm đến vấn đề như LogRhythm hay Exabeam, Securonix và xây dựng những công cụ cho việc để phát hiện và cảnh báo các nguy cơ mất an toàn thông tin trên hệ thống

Hiện tại, Tổng Công ty Mạng lưới Viettel (VTNet) đang vận hành hệ thống công nghệ thông tin lớn với hàng nghìn máy chủ và thiết bị mạng, thiết bị bảo mật và hệ thống

cơ sở dữ liệu lớn lưu trữ nhiều thông tin quan trọng liên quan đến hạ tầng mạng lưới cung cấp dịch, thông tin cá nhân, tài khoản, giao dịch của khách hàng, v.v Hệ thống đang cung cấp dịch vụ cho hàng triệu khách hàng với hơn 60 triệu thuê bao di động cùng hơn 5 triệu thuê bao cố định băng rộng tính đến đầu năm 2020 Và để đảm bảo việc cung cấp dịch vụ của hệ thống, các hoạt động vận hành khai thác hệ thống công

5 https://www.ntsc.org/assets/pdfs/cyber-security-report-2020.pdf

Trang 10

nghệ thông tin này với việc truy cập vào các máy chủ, cơ sở dữ liệu, thiết bị mạng để kiểm tra tình trạng hoạt động, khai thác, cập nhật dữ liệu, xử lý các lỗi dịch vụ phát sinh, v.v diễn ra thường xuyên và liên tục Chính vì vậy, hệ thống CNTT lớn và quan trọng này có nguy cơ và rủi ro cao về việc mất an toàn thông tin (ATTT) Một số nguy cơ mất ATTT trên hệ thống như việc xâm nhập, tác động trái phép vào hệ thống nhằm lấy cắp, sửa đổi thông tin, đặc biệt các thông tin thông tin dữ liệu về khách hàng, phá hoạt gây thiệt hại về kinh tế (như thay đổi thông tin, giá trị tài khoản của khách hàng) và ảnh hưởng lớn đến uy tín đến công ty Các hoạt động kiểm soát cũng như triển khai các công cụ, giải pháp bảo mật nhằm tăng cường giám sát, bảo vệ cho

hệ thống CNTT này đã được triển khai và áp dụng chặt chẽ Tuy nhiên, các hoạt động kiểm tra, đánh giá bất thường trong các hoạt động vận hành khai thác hệ thống CNTT này vẫn chưa có công cụ để quản lý toàn diện để phân tích và đưa ra cảnh báo trên hệ thống giám sát ATTT của VTNet Một số nội dung đang phải thực hiện thủ công bằng cách thực hiện định kỳ kiểm tra lại log tác động trên hệ thống để phát hiện và xử lý các trường hợp sai phạm về truy cập, tác động hệ thống sai quy định Do đó, yêu cầu thực tế đặt ra cần xây dựng công cụ phân tích nhằm phân tích các sự kiện, các dấu hiệu bất thường trong việc truy cập, tác động vào các hệ thống quan trọng nhằm hỗ trợ cho việc phát hiện, cảnh báo để tổ chức hành động xử lý kịp thời để đảm bảo an toàn thông tin tại đơn vị

Mục đích nghiên cứu của luận văn này là hướng đến giải quyết bài toán phát hiện bất thường trong hoạt động vận hành khai thác các hệ thống CNTT tại VTNet Các bất thường cần được phát hiện như đăng nhập trái phép vào hệ thống, tiến trình lạ thực hiện dò quét trên hệ thống mạng nội bộ, thực hiện kết nối ra ngoài bất thường, tiến trình mở cổng bất thường trên hệ thống từ việc phân tích các log kết nối, đăng nhập (thời điểm đăng nhập vào hệ thống, thời gian tác động, địa chỉ IP client sử dụng, địa chỉ IP hệ thống bị tác động, thông tin yêu cầu về dữ liệu được truy xuất, nội dung thay đổi, v.v.) Vì các hệ thống tại VTNet khá lớn nên đề tài tập trung thực hiện trên các hệ thống CNTT quan trọng nhằm xây dựng mô hình và công cụ thu thập, phân tích log và phát hiện bất thường về đăng nhập trên hệ thống Và kết quả từ đề tài này giúp đơn vị giám sát được các vấn đề bất thường trong việc kết nối đăng nhập vào hệ thống Từ đó, đề tài góp phần vào việc đảm bảo an toàn thông tin tại đơn vị, giúp giảm thiểu rủi ro trong việc lấy cắp, sửa đổi hoặc phá hoại thông tin quan trọng của VTNet, của khách hàng cũng như hạn chế việc gây thiệt hại kinh tế, uy tín của đơn

vị Ngoài ra, công cụ phát hiện bất thường này có thể được tiếp tục được mở rộng với nhiều bài toán phân tích và phát hiện bất thường khác trong hoạt động vận hành khai thác các hệ thống thông tin tại đơn vị như bất thường về lưu lượng kết nối, bất thường

về các giao dịch tài chính, bất thường trong vệc tác động các lệnh vào hệ thống, v.v cũng như các tình huống phân tích phức tạp với nhiều sự kiện kết hợp lại với nhau

Trang 11

Nội dung của luận văn được trình bày trong ba chương, phần giới thiệu và phần kết luận Mở đầu là phần giới thiệu về đề tài, trình bày ngữ cảnh bài toán, những lý do chọn đề tài, mục tiêu của đề tài và cấu trúc của luận văn Các khái niệm về bất thường, các kiến thức cơ bản, các phương pháp phát hiện bất thường và các thách thức đối với việc phát hiện bất thường được trình bày tiếp trong Chương 1 Chương 2 sẽ giới thiệu bài toán, đề xuất giải pháp, thiết kế hệ thống phát hiện bất thường và áp dụng

cụ thể với hành vi đăng nhập bất thường vào hệ thống Kết quả thực nghiệm, đánh giá thuật toán, kiểm tra mô hình và điều chỉnh tham số của hệ thống của giải pháp được bày trong Chương 3 Cuối cùng là phần kết luận, định hướng mở rộng và tài liệu tham khảo

Trang 12

Chương 1 Kiến thức cơ bản

Để mô tả rõ hơn về bài toàn phát hiện bất thường, trong Chương 1, luận văn sẽ giới thiệu các khái niệm cơ bản về bất thường và các phương pháp phát hiện bất thường phổ biến cũng như các phương pháp đánh giá một hệ thống phân lớp dữ liệu Các khái niệm và phương pháp được trình bày trong chương này là những kiến thức nền tảng cho mô hình đề xuất trong Chương 2

1.1 Bất thường và các phương pháp phát hiện bất thường phổ biến

1.1.1 Bất thường

Bất thường là những đối tượng, sự kiện hay dấu hiệu không phù hợp hoặc không tuân theo với hầu hết những đối tượng, sự kiện hay dấu hiệu còn lại trong tập dữ liệu được xác định là bình thường [10] Hoặc nó có thể được định nghĩa là bất kỳ hành vi nào

“khác” với hành vi “bình thường” [4] Bất thường thường có tính chất tạm thời, xuất hiện hay biến mất không tuân theo quy luật Việc phát hiện bất thường đề cập đến các vấn đề của việc tìm kiếm các mẫu trong tập dữ liệu mà không phù hợp với hành vi mong đợi [1] hay tìm kiếm các các cá thể khác với phần lớn dữ liệu trong tập dữ liệu [6] Những mẫu không phù hợp này thường được gọi là bất thường, dị thường, ngoại lai, quan sát trái ngược, sự bất ngờ, sự đặc thù hoặc chất gây ô nhiễm trong các lĩnh vực ứng dụng khác nhau [1] Trong số này, bất thường và ngoại lai là hai thuật ngữ được dùng phổ biến nhất là trong bối cảnh phát hiện bất thường, đôi khi thay thế cho nhau

Phát hiện bất thường phát hiện sử dụng rộng rãi trong một loạt các ứng dụng như phát hiện phát hiện xâm nhập cho an ninh mạng, gian lận giao dich tài chính ngân hàng, bất thường trong quá trình kiểm tra ý tế, phát hiện lỗi trong quy trình sản xuất hoặc trên các hệ thống quan trọng Ví dụ, bất thường trong dữ liệu giao dịch thẻ tín dụng

có thể chỉ ra hành vi trộm cắp thẻ tín dụng hoặc đánh cắp nhận dạng, bất thường về việc đăng nhập vào hệ thống có thể là dấu hiệu của việc xâm nhập trái phép vào hệ thống hoặc sự biến đổi bất thường của lưu lượng dữ liệu trong mạng nội bộ có thể là dấu hiệu của dữ liệu “nhạy cảm” đang bị sao chép hoặc gửi bởi kẻ tấn công

Việc phát hiện bất thường là quan trọng vì chúng thường chứa đựng những thông tin hữu ích, có ý nghĩa trong nhiều ứng dụng thực tế Trong thực tế, bất thường tồn tại ở nhiều dạng khác nhau, do vậy tùy thuộc vào từng ứng dụng cụ thể mà ta có những phương pháp phát hiện bất thường khác nhau Bất thường có thể được chia làm ba loại gồm bất thường điểm (point anomalies), bất thường bối cảnh (contextual

Trang 13

anomalies) và bất thường tập hợp (collective anomalies) [1] Dưới đây là mô tả chi tiết các loại bất thường này

Bất thường điểm:

Nếu một dữ liệu riêng biệt được coi là dị thường với phần còn lại của tập dữ liệu thì

đó được coi là một bất thường điểm Ví dụ, một điểm có khoảng cách đến trung tâm của một tập dữ liệu lớn hơn so với tất cả các khoảng cách từ những điểm trong tập hợp đó tới trung tâm này thì những điểm này được coi là bất thường Đây là loại bất thường đơn giản nhất và là trọng tâm của phần lớn các nghiên cứu về phát hiện bất thường

Hình 1.1 Một ví dụ về bất thường điểm trong một tập dữ liệu trong không gian

hai chiều

Ví dụ trong Hình 1.1 mô tả các điểm O1, O2 cũng như các điểm thuộc khu vực O3

nằm ngoài phạm vi của khu vực bình thường (N1, N2) Do đó chúng là bất thường điểm vì chúng khác so với các điểm dữ liệu bình thường (nằm trong các cụm N1 hoặc N2) Như một ví dụ trong thực tế, xem xét việc phát hiện thời gian đăng nhập hệ thống bất thường Lấy tập dữ liệu về việc đăng nhập vào hệ thống máy tính tại công

ty của một cá nhân Để đơn giản, chúng ta hãy giả sử rằng dữ liệu được xác định chỉ bằng một thuộc tính là thời gian đăng nhập Một đăng nhập vào hệ thống tại một thời điểm khác với thời gian đăng nhập bình thường hàng ngày của người đó sẽ là một sự bất thường điểm

Trang 14

Bất thường bối cảnh:

Bất thường bối cảnh được xác định dựa trên một bối cảnh cụ thể (còn gọi là bất thường

có điều kiện) Khái niệm bối cảnh ở đây được xác định từ cấu trúc, hình thái của dữ liệu đang xem xét Cần lưu ý rằng, một điểm là bất thường trong bối cảnh này nhưng

có thể hoàn toàn là bình thường trong bối cảnh khác Bất thường bối cảnh thường được nghiên cứu, khám phá trong các ứng dụng liên tới các dữ liệu biến đổi theo thời gian Các khái niệm về một bối cảnh được tạo ra bởi các cấu trúc trong tập dữ liệu và phải được quy định như một phần của việc xây dựng vấn đề Mỗi trường hợp dữ liệu được xác định bằng cách sử dụng bởi hai bộ thuộc tính:

- Thuộc tính ngữ cảnh: Các thuộc tính theo ngữ cảnh được sử dụng để xác định bối cảnh (hoặc vùng lân cận) của một thể hiện Ví dụ, trong bộ dữ liệu không gian(kinh độ và vĩ độ) của một vị trí là các thuộc tính ngữ cảnh Trong dữ liệu chuỗi thời gian, thời gian là một thuộc tính ngữ cảnh mà xác định vị trí của một thể hiện trên toàn bộ chuỗi

- Thuộc tính hành vi: Các thuộc tính hành vi xác định các đặc điểm phi ngữ cảnh của một thể hiện Ví dụ, trong một tập dữ liệu không gian mô tả lượng mưa trung bình của toàn thế giới, thì lượng mưa ở bất kỳ vị trí nào sẽ là một thuộc tính hành vi

Các hành vi bất thường được xác định bằng cách sử dụng các giá trị cho các thuộc tính của các hành vi trong một bối cảnh cụ thể Một thể hiện dữ liệu có thể là một sự bất thường theo ngữ cảnh trong một bối cảnh nhất định, nhưng một thể hiện dữ liệu giống hệt nhau (về mặt thuộc tính hành vi) có thể được xem là bình thường trong một bối cảnh khác Tính chất này là chìa khóa trong việc xác định các thuộc tính ngữ cảnh

và hành vi trong kỹ thuật phát hiện bất thường theo ngữ cảnh

Trang 15

Hình 1.2 mô tả biểu đồ nhiệt độ của các tháng trong ba năm liên tiếp Ta nhận thấy rằng, thời điểm t2 được coi là một bất thường bối cảnh trong một chuỗi về nhiệt độ theo thời gian, trong khi đó nhiệt độ lúc t1 giống như lúc t2 nhưng xảy ra trong một bối cảnh khác nhưng lại không được coi là một sự bất thường

Một ví dụ cụ thể trong thực tế có thể được tìm thấy trong việc phát hiện gian lận thẻ tín dụng Một thuộc tính ngữ cảnh trong việc sử dụng của thẻ tín dụng có thể là thời điểm mua Giả sử một cá nhân thường có một hóa đơn mua sắm hàng tuần là một triệu đồng trừ thời điểm trong tuần trước tết Âm lịch, có khi nó đạt đến 10 triệu đồng Nhưng một lần mua mới 10 triệu đồng trong một tuần vào tháng Bảy sẽ được coi là một sự bất thường theo ngữ cảnh, vì nó không phù hợp với các hành vi bình thường của cá nhân trong bối cảnh thời gian (mặc dù cùng một lượng chi tiêu trong tuần trước tết Âm lịch sẽ được xem là bình thường) Việc lựa chọn của việc áp dụng một kỹ thuật phát hiện bất thường theo ngữ cảnh được xác định bởi ý nghĩa của các bất thường theo ngữ cảnh trong lĩnh vực ứng dụng đích

Bất thường tập hợp:

Loại bất thường thứ ba là bất thường tập hợp Nếu một tập dữ liệu có những đặc trưng khác so với các tập hợp dữ liệu còn lại thì tập hợp ấy được coi là bất thường Hình 1.3 mô tả dữ liệu lưu lượng dữ liệu trên một hệ thống

Ta có thể thấy, lưu lượng trên hệ thống trong khoảng thời gian từ mẫu thứ 250 đến

300 khác với các thời điểm còn lại, mặc dù những mẫu dữ liệu là khá tương đồng nhau trong khoảng thời gian này, những thời điểm này được coi là bất thường tập hợp

Hình 1.3 Ví dụ về bất thường tập hợp về lưu lượng trên hệ thống

Trang 16

1.1.2 Các phương pháp phát hiện bất thường phổ biến

Có nhiều phương pháp phát hiện bất thường đã được đề xuất Ta có thể phân thành các nhóm chính như sau: nhóm phương pháp dựa trên kỹ thuật phân lớp [11, 8], nhóm phương pháp dựa trên kỹ thuật phân cụm [12], nhóm phương pháp dựa trên kỹ thuật phân tích phổ, phương pháp dựa trên kỹ thuật thống kê và một số nhóm phương pháp khác [1]

Nhóm phương pháp phân lớp lấy ý tưởng từ thực tế rằng ta có thể phân tách tập dữ liệu thành hai lớp “bình thường” và “bất thường” thông qua việc xây dựng một mô hình phân loại trên phần dữ liệu được huấn luyện trước Bài toán phân lớp này là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện) Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phân lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào phân lớp nào Có nhiều bài toán phân lớp dữ liệu như phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Bài toán phân lớp nhị phân là bài toán gắn nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau dựa vào việc dữ liệu đó có hay không

có các đặc trưng của bộ phân lớp Bài toán phân lớp đa lớp là quá trình phân lớp dữ liệu với số lượng lớp lớn hơn hai Như vậy với từng dữ liệu chúng ta phải xem xét và phân lớp chúng vào những lớp khác nhau chứ không phải là hai lớp như bài toán phân lớp nhị phân Và thực chất bài toán phân lớp nhị phân là một bài toán đặt biệt của phân lớp đa lớp Ứng dụng của bài toán này được sử dụng rất nhiều và rộng rãi trong thực tế ví dụ như bài toán nhận dạng khuôn mặt, nhận diện giọng nói, phát hiện thư rác như Hình 1.4 Như trong Hình 1.4, một Email khi đi qua hệ thống phân loại, nó

sẽ được xác định là thư rác hay không

Hình 1.4 Ví dụ bài toán phân lớp phát hiện thư rác

Và đối với các bài toán phân lớp dữ liệu có thể sử dụng các thuật toán học máy có giám sát (Supervised Learning) để xây dựng mô hình cho bài toán này như SVM [11], Mạng nơ-ron nhân tạo (Neural Network) [9], Cây quyết định (Decision Tree) [2] Ưu điểm của nhóm phương pháp này là các thuật toán có thể xử lý được những dữ liệu

đa lớp với khả năng chính xác cao, cũng như thời gian phát hiện bất thường nhanh Tuy nhiên, nhóm phương pháp này vẫn còn đối mặt với một số hạn chế sau như các

Trang 17

thuật toán thường ràng buộc dữ liệu phải cho biết trước nhãn cho những mẫu “bình thường” trong quá trình huấn luyện mô hình

Tiếp theo đến nhóm phương pháp phát hiện bất thường thứ hai là dựa trên các kỹ thuật phân cụm Tượng tự như nhóm phương pháp đầu, nhóm phương pháp này dựa trên giả thiết rằng (i) những dữ liệu “bình thường” thuộc vào một cụm dữ liệu, trong khi những dữ liệu “bất thường” không thuộc hoặc thuộc một cụm dữ liệu khác (ii) hay như những dữ liệu bình thường thuộc về những cụm dữ liệu lớn, dày, đồng thời các điểm bất thường sẽ thuộc về các cụm thưa Nhóm phương pháp này có những ưu điểm sau đây: (i) thường được áp dụng trong những bài toán học không giám sát khi

mà dữ liệu chưa có thông tin gán nhãn, (ii) có thể xử lý được những dữ liệu phức tạp Tuy vậy, các phương pháp này phụ thuộc nhiều vào sự hiệu quả của loại thuật toán phân cụm, đồng thời độ phức tạp thuật toán tương đối cao Thuật toán được sử dụng

có thể kể đến như K-Means Clustering [5], phân cụm theo thứ bậc Hierarchical Clustering [7], phân cụm theo xác suất Probabilistic Clustering [3]

Nhóm thứ ba liên quan tới việc phân tích phổ của dữ liệu Các phương pháp trong nhóm này lấy ý tưởng từ thực tế rằng khi dữ liệu được nhúng trên một không gian con có số chiều nhỏ hơn so với không gian dữ liệu gốc, thì những mẫu dữ liệu “bình thường” và bất thường có thể phát hiện dễ dàng dựa trên sự khác nhau của chúng Lợi thế của nhóm phương pháp này là có khả năng phát hiện được bất thường trong các loại dữ liệu có số chiều lớn và tương tự như nhóm thứ hai, các phương pháp trong nhóm này thường được áp dụng trong các bài toán học không giám sát Mặc dù vậy,

độ phức tạp tính toán của nhóm phương này tương đối cao

Nhóm phương pháp phát hiện bất thường tiếp theo là dựa trên kỹ thuật thống kê Phương pháp này dựa trên giả định chính rằng các trường hợp dữ liệu bình thường xảy ra ở các vùng có xác suất cao của mô hình ngẫu nhiên, trong khi các trường hợp bất thường xảy ra ở các vùng có xác suất thấp của mô hình ngẫu nhiên [1] Các hệ thống dựa trên kỹ thuật này hoạt động trên nguyên tắc giám sát các hoạt động của đối tượng và từ đó sinh ra các hồ sơ biểu diễn hành vi của chúng Đối với mỗi đối tượng,

hệ thống luôn duy trì hai loại hồ sơ hành vi hoạt động hiện tại và hồ sơ lưu trữ Và như vậy, cứ mỗi hành vi diễn ra, hệ thống cập nhật hồ sơ hiện tại và thực hiện tính toán điểm bất thường của hành vi đó Sau đó đánh giá bằng cách so sánh hồ sơ hiện tại và hồ sơ được lưu trữ Nếu điểm số bất thường vượt một ngưỡng nhất định thì hệ thống sẽ đưa ra cảnh báo Ưu điểm của phương pháp dựa trên kỹ thuật thống kê là tính toán nhanh, không phức tạp về thuật toán, tuy nhiên nhược điểm của phương pháp này là khó xác định ngưỡng cảnh báo Bên cạnh đó việc xác định phân bố thống

kê phù hợp với các hành vi cũng là một thách thức vì không thể sử dụng phương pháp thống kê để mô hình hóa mọi hành vi Với bài toán thực tế về phát hiện đăng nhập

Trang 18

bất thường đặt ra, luận văn này tập trung sử dụng phương pháp dựa trên kỹ thuật thống kê để phát hiện bất thường

1.1.3 Các thách thức trong phát hiện bất thường

Ở mức độ tóm lược, sự bất thường được định nghĩa là một mẫu không phù hợp với hành vi bình thường như dự kiến (kì vọng) Do đó, một cách tiếp cận phát hiện bất thường đơn giản là xác định vùng biểu thị hành vi bình thường và chỉ ra bất kì mẫu

dữ liệu không thuộc vùng bình thường này là bất thường Nhưng một số yếu tố làm cho cách tiếp cận rõ ràng đơn giản này rất khó khăn

Yếu tố đầu tiên như định nghĩa một khu vực bình thường trong đó bao gồm tất cả các hành vi bình thường có thể là rất khó khăn Bên cạnh đó, ranh giới giữa hành vi bình thường và bất thường thường là không chính xác Như vậy một quan sát bất thường nằm gần ranh giới thực sự có thể là bình thường, và ngược lại

Yếu tố thứ hai là khi bất thường là kết quả của các hành động nguy hiểm (có hại), các đối tượng tác động nguy hiểm thường thích ứng bản thân để làm cho các quan sát bất thường xuất hiện như bình thường, do đó làm cho công việc xác định hành vi bình thường khó khăn hơn Ba là trong nhiều lĩnh vực, hành vi bình thường tiếp tục phát triển và một quan niệm hiện tại về hành vi bình thường có thể không đủ đại diện trong tương lai

Tiếp theo yếu tố thứ tư là khái niệm chính xác về sự bất thường là khác nhau đối với các miền ứng dụng khác nhau Ví dụ, trong lĩnh vực y tế, độ lệch nhỏ so với bình thường (ví dụ: biến động nhiệt độ cơ thể) có thể là một sự bất thường, trong khi độ lệch tương tự trong miền thị trường chứng khoán (ví dụ: biến động giá trị của cổ phiếu) có thể được coi là bình thường Do đó, việc áp dụng một kỹ thuật được phát triển trong một lĩnh vực này sang một lĩnh vực khác không đơn giản Yếu tố thứ năm

là sự sẵn có của dữ liệu được dán nhãn để đào tạo/xác nhận các mô hình được sử dụng bởi các kỹ thuật phát hiện bất thường thường là một vấn đề lớn Và yếu tố thứ sáu là thông thường dữ liệu chứa nhiễu có xu hướng tương tự như bất thường trong thực tế

và do đó rất khó phân biệt và loại bỏ

Do những thách thức trên, vấn đề phát hiện bất thường, ở dạng chung nhất của nó, không dễ giải quyết Trong thực tế, hầu hết các kỹ thuật phát hiện bất thường hiện có giải quyết một công thức cụ thể của vấn đề Công thức được xây dựng ra bởi các yếu

tố khác nhau như bản chất của dữ liệu, tính khả dụng của dữ liệu được dán nhãn, loại

dị thường được phát hiện, v.v Thông thường, các yếu tố này được xác định bởi miền ứng dụng cần phát hiện dị thường Các nhà nghiên cứu đã áp dụng các khái niệm từ các ngành khác nhau như thống kê, học máy, khai thác dữ liệu, lý thuyết thông tin, lý thuyết quang phổ và đã áp dụng chúng vào các công thức vấn đề cụ thể

Trang 19

Như vậy, có nhiều cách (giải pháp, phương pháp) để chúng ta xử lý và phân tích dữ liệu để phát hiện bất thường, xây dựng một hệ thống phân lớn chúng ta cần một phép đánh giá để xem mô hình sử dụng có hiệu quả không và để so sánh khả năng của các

mô hình Tuy nhiên, để chúng ta có thể đánh giá được sự khác nhau giữa các giải pháp chúng ta cần đo lường để so sánh và giúp tối ưu các giải pháp Nội dung tiếp theo, tôi sẽ giới thiệu các phương pháp đánh giá các mô hình phân lớp Hiệu năng của một mô hình thường được đánh giá dựa trên tập dữ liệu kiểm thử

1.2 Các phương pháp đánh giá một hệ thống phân lớp dữ liệu

Để hỗ trợ đánh giá một hệ thống phân lớp, có các khái niệm chung thường được áp dụng cho bài toán phân lớp có hai lớp dữ liệu mà chúng ta đang quan tâm (bất thường/bình thường) như sau

1.2.1 True/False Positive/Negative

Cách đánh giá này thường được áp dụng cho các bài toán phân lớp có hai lớp dữ liệu

Cụ thể hơn, trong hai lớp dữ liệu này có một lớp nghiêm trọng hơn lớp kia và cần được dự đoán chính xác Ví dụ, trong bài toán xác định có bệnh ung thư hay không thì việc không bị sót quan trọng hơn là việc chẩn đoán nhầm âm tính thành dương tính Trong bài toán xác định có mìn dưới lòng đất hay không thì việc bỏ sót nghiêm trọng hơn việc báo động nhầm rất nhiều Hay trong bài toán lọc email rác thì việc cho nhầm email quan trọng vào thùng rác nghiêm trọng hơn việc xác định một email rác

là email thường

Trong những bài toán này thường định nghĩa lớp dữ liệu quan trọng hơn cần được xác định đúng là lớp Positive (P-dương tính), lớp còn lại được gọi là Negative (N-âm tính) Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa trong Ma trận nhầm lẫn như Bảng 1.1 Trong Bảng 1.1 mô

tả cụ thể các trường hợp dựa trên kết quả dự đoán với thực tế

Bảng 1.1 Ma trận nhầm lẫn

Thực tế: Positive True Positive (TP) False Negative (FN)

Thực tế: Negative False Positive (FP) True Negative (TN)

Trang 20

Và người ta thường quan tâm đến False Positive Rate (TPR), False Negative Rate (FNR), False Positive Rate (FPR) và True Negative Rate (TNR) dựa trên Ma trận nhầm lẫn chuẩn hóa (normalized confusion matrix) như Bảng 1.2 Trong Bảng 1.2 đưa ra công thức tính các tỉ lệ TPR, FNR, FPR, TNR

Căn cứ mục đích xây dưng bài toán phân lớp dữ liệu, ta có các chú ý như sau:

- Với các bài toán có nhiều lớp dữ liệu, ta có thể xây dựng bảng True/False Positive/Negative cho mỗi lớp nếu coi lớp đó là lớp Positive, các lớp còn lại gộp chung thành lớp Negative

- Trong một số bài toán, việc tăng hay giảm FNR, FPR có thể được thực hiện bằng việc thay đổi một ngưỡng (Threshold) nào đó Trong phần tiếp theo, ta đi tiếp các khái niệm

1.2.2 Độ chính xác và độ hồi tưởng

Với bài toán phân loại mà tập dữ liệu của các lớp chênh lệch nhau rất nhiều, có một phép đó hiệu quả thường được sử dụng là độ chính xác (Precision) và độ hồi tưởng (Recall) Để làm rõ hơn, trước hết xét bài toán phân loại nhị phân và coi một trong hai lớp là Positive, lớp còn lại là Negative Trong Hình 1.4 mô tả trực quan hơn về các khái niệm cũng như các công thức tính độ chính xác và độ hồi tưởng

Trang 21

Hình 1.4 Cách tính độ chính xác và độ hồi tưởng

Với một cách xác định một lớp là Positive, Precision được định nghĩa là tỉ lệ số điểm True Positive trong số những điểm được phân loại là Positive (TP + FP) Recall được định nghĩa là tỉ lệ số điểm True Positive trong số những điểm thực sự

là Positive (TP + FN) Độ chính xác và hồi tưởng được định nghĩa theo các Công thức 2.1, 2.2 tương ứng

Khi Precision = 1, mọi điểm tìm được đều thực sự là Positive, tức không có điểm Negative nào lẫn vào kết quả Tuy nhiên, Precision = 1 không đảm bảo mô hình

là tốt, vì câu hỏi đặt ra là liệu mô hình đã tìm được tất cả các điểm Positive hay chưa

Trang 22

Nếu một mô hình chỉ tìm được đúng một điểm Positive mà nó chắc chắn nhất thì ta không thể gọi nó là một mô hình tốt

Khi Recall = 1, mọi điểm Positive đều được tìm thấy Tuy nhiên, đại lượng này lại không đo liệu có bao nhiêu điểm Pegative bị lẫn trong đó Nếu mô hình phân loại mọi điểm là Positive thì chắc chắn Recall = 1, tuy nhiên dễ nhận ra đây là một mô hình cực tồi Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao, tức càng gần một càng tốt

Trang 23

Chương 2: Mô hình phát hiện hành vi đăng nhập hệ thống bất thường

Chương 1 đã giới thiệu các khái niệm và phương pháp xác định bất thường cũng như phương pháp đánh giá hệ thống phân lớp Trong chương này, luận văn sẽ giới thiệu

mô hình và bài toán cụ thể áp dụng thực tế về phát hiện hành vi đăng nhập bất thường trên hệ thống

2.1 Giới thiệu đề tài phát hiện bất thường trên hệ thống

Xuất phát từ yêu cầu thực tế về việc cần giám sát và phát hiện những hành vi đăng nhập bất thường trên hệ thống thông tin, luận văn đề xuất xây dựng một giải pháp với

mô hình phân tích các dữ liệu về hành vi người dùng trên hệ thống Các hành vi tương tác của người dùng trên hệ thống được phân tích dựa trên các thông tin log các sự kiện như thời điểm đăng nhập, số lần đăng nhập thành công, thất bại vào hệ thống, địa chỉ IP client sử dụng, địa chỉ IP hệ thống, thông tin yêu cầu về tác động, dữ liệu được truy xuất, nội dung thay đổi.v.v.từ đó thực hiện phân tích, đánh giá nhằm phát hiện các hành vi bất thường Giải pháp giúp cảnh báo kịp thời cho bộ máy giám sát

an toàn thông tin những bất thường về việc đăng nhập vào hệ thống nhằm hỗ trợ công tác đảm bảo an toàn thông tin, đặc biệt kiểm soát tốt với việc đăng nhập vào những

hệ thống chứa dữ liệu quan trọng của đơn vị Với mục tiêu đề ra, luận văn hướng tới việc mô tả bài toán, cơ sở lý thuyết, xây dựng mô hình, công cụ thu thập và phân tích các mẫu thu thập được từ hành vi người dùng nhằm phát hiện, cảnh báo các hành vi bất thường trong việc đăng nhập hệ thống

Trong phần tiếp theo, luận văn sẽ giới thiệu tiếp về việc xây dựng hệ thống phân tích

và phát hiện bất thường trên hệ thống và tập trung vào phân tích các bất thường đăng nhập

2.2 Mô tả bài toán bất thường đăng nhập

Trong phần 2.1 đã giới thiệu tổng quan về việc phát hiện bất thường trên hệ thống Trong phần này, luận văn sẽ mô tả chi tiết về bài toán bất thường đăng nhập hệ thống, một trong những bài toàn mà tại đơn vị rất quan tâm Việc đăng nhập vào hệ thống là hành vi của cả người dùng thông thường cũng như cuộc kẻ tấn công để truy xuất vào

hệ thống Một kẻ tấn công lấy được tài khoản người dùng thuộc tổ chức thông qua nhiều hình thức và một trong những hình thức phổ biến như tấn công dò quét mật khẩu vào các tài khoản public như Email, VPN hoặc thực hiện khai thác lỗ hổng, xâm nhập được vào hệ thống và lấy được cơ sở dữ liệu về tài khoản người dùng Sau khi

có được tài khoản người dùng, kẻ tấn công thực hiện các hành vi đăng nhập trái phép vào hệ thống và có thể thực hiện các tác động trái phép như truy xuất thông tin mật,

để đánh cắp dữ liệu, làm tê liệt hệ thống thông tin Tuy nhiên do không nắm được

Trang 24

thói quen người dùng nên hành vi đăng nhập của kẻ tấn công có các thuộc tính khác với hồ sơ đăng nhập (profile) của người dùng Với bài toán nghiệp vụ tại VTNet, các hành vi đăng nhập hệ thống được đánh giá là bất thường khi phát hiện địa chỉ IP, dải địa chỉ IP thực hiện đăng nhập, thời điểm đăng nhập, địa điểm đăng nhập vào hệ thống khác với hành vi thường thấy đã được ghi nhận trên hệ thống trong thời gian nhất định, thường được xét trong vòng 60 ngày Các thông tin thu thập được trên hệ thống giúp nhận diện và phát hiện các bất thường này để cảnh báo cho lực lượng phụ trách đảm bảo an toàn thông tin Các thông tin để phân tích bao gồm:

- Địa chỉ IP, dải địa chỉ IP của người dùng khi thực hiện đăng nhập hệ thống

Sẽ phát hiện bất thường nếu thực hiện đăng nhập từ máy tính không phải máy tính làm việc thường xuyên của người dùng

- Quốc gia, số hiệu mạng (ASN), nhà cung cấp dịch vụ Internet (ISP) của người dùng khi đăng nhập hệ thống Từ địa chỉ IP thực hiện đăng nhập, thông tin sẽ được làm giầu để củng cố thêm cho việc phân tích dữ liệu như thông tin quốc gia, số hiệu mạng và tên nhà cung cấp dịch vụ Internet nhằm xác định vị trí truy cập để đánh giá một hành vi bất thường như khi kẻ tấn công váo hệ thống thực hiện đăng nhập từ xa không phải từ vị trí làm việc hàng ngày của người dùng

- Loại đăng nhập, môi trường đăng nhập: sự khác nhau về môi trường đăng nhập

hệ thống, người dùng thường dùng giao diện đăng nhập, kẻ tấn công thường đăng nhập qua cửa sổ lệnh hoặc qua truy cập từ xa

- Thời điểm đăng nhập: xác định thời điểm của của hành vi đăng nhập, từ đó đánh giá được giờ có hành vi đăng nhập trong ngày và các ngày trong tuần

Từ các thông tin thu thập trên hệ thống, xây dựng công cụ thực hiện tính toán, phân tích, cảnh báo các bất thường về đăng nhập vào hệ thống Ví dụ như xác định bất thường đăng nhập từ địa chỉ IP khác lại không phải địa chỉ IP của máy tính người dùng hàng ngày Từ đó, hệ thống sẽ cảnh báo để bộ phận phụ trách an toàn thông tin

sẽ thực hiện tiến hành kiểm tra và xử lý, hỗ trợ cho công tác đảm bảo an toàn thông tin tại đơn vị Trong nội dung tiếp theo, luận văn sẽ giới thiệu cách tiếp cập và đề xuất việc xây dựng hệ thống phát hiện bất thường

Hệ thống phát hiện bất thường thực hiện phân tích các dữ liệu liệu log về các sự kiện xảy ra trên hệ thống công nghệ và phân tích chúng để tìm ra các dấu hiệu bất thường dựa trên việc phân tích các hành vi của đối tượng và đưa ra cảnh báo Hệ thống này được gọi là khai phá dữ liệu an toàn thông tin (Security Data Mining) Và nó là một thành phần trong hệ thống giám sát an toàn thông tin của VTNet đã được xây dựng Hình 2.1 mô tả mô hình tổng quan hệ thống quản lý, giám sát an toàn thông tin tại

Trang 25

VTNet Như trong Hình 2.1, tổng quan hệ thống giám sát an toàn thông tin có nhiều các thành phần hệ thống liên kết với nhau tạo thành một hệ sinh thái phục vụ cho công tác giám sát, đảm bảo an toàn thông tin tại đơn vị Hệ thống tổng thể này có ba lớp được mô tả cụ thể dưới đây

Lớp dưới cùng là lớp thu thập và cung cấp các thông tin dữ liệu đầu vào cho toàn bộ

hệ thống, nó bao gồm các thành phần như sau:

- Endpoint cài đặt trên các máy chủ, máy trạm nhằm thu thập đầy đủ các thông tin hồ sơ của chúng Và thành phần này cũng hỗ trợ khả năng điều tra sâu, cách

ly và khôi phục các máy chủ, máy trạm này khi cần thiết

- Network Security Monitoring (NSM) hỗ trợ thu thập lấy log truy cập, giám sát các kết nối giữa các node mạng

- Gateway Security Monitoring (GSM) hỗ trợ thu thập log và kiểm soát kết nối của ngõ (Gateway) vào vùng cần bảo vệ

- Các sản phẩm, giải pháp của hãng thứ 3 như hệ thống quản lý máy tính tập trung (AD), hệ thống quản lý tên miền (DNS), hệ thống phòng chống virus máy tính (AV), hệ thống tường lửa (Firewall) v.v có kết nối và cung cấp thông tin log lên các hệ thống tập trung ATTT phía trên

Lớp tiếp theo, ở giữa, đó là các thành phần xử lý tập trung dữ liệu từ lớp phía dưới cung cấp lên Lớp này có các thành phần như sau:

- SIEM (Security Information and Event Management) là hệ thống quản lý và phân tích sự kiện an toàn thông tin Và nó là thành phần quan trọng trong các

hệ thống giám sát ATTT chung Nó thu thập đầy đủ log của toàn bộ hệ thống, lưu trữ và xử lý dữ liệu ATTT tập trung Dữ liệu thu thập về sẽ được hệ thống sắp xếp, chuẩn hoá và phân loại lại theo một định dạng chung, tối ưu hoá cho việc phân tích và điều tra xử lý sự cố Đồng thời dữ liệu cũng được lọc bớt các thành phần dư thừa Hệ thống SIEM cho phép phân tích tập trung và báo cáo

về các sự kiện an ninh mạng của tổ chức, phát hiện thông qua các bộ luật tương quan (correlation rule), giúp phát hiện các cuộc tấn công mà không thể phát hiện được bởi các giải pháp thông thường, đảm bảo cho người vận hành có thể điều tra và nhận diện nhanh chóng các vi phạm, tấn công đang xảy ra trong hệ thống, từ đó đưa ra các quyết định hiệu quả và kịp thời

- Advanced Malware Analysis (AMA) là hệ thống phân tích mã độc tự động, đa lớp, hỗ trợ phân tích hầu hết các loại tệp nhằm phát hiện mã độc, mã khai thác đặc biệt là các loại mã độc trong các cuộc tấn công có chủ đích APT Hệ thống nhận yêu cầu quét tệp từ các hệ thống khác, phân tích, đưa ra kết quả là độc hay sạch Hệ thống AMA sử dụng nhiều phương pháp phân tích với các tính năng và công nghệ vượt trội: Hypervisor, Static Analysis, Dynamic Analysis,

Ngày đăng: 09/02/2021, 23:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. B. Arindam, C.Varun and K. Vipin (2009), “Anomaly detection: A survey”, ACM Computing Surveys, 31(3), pp. 1-72 Sách, tạp chí
Tiêu đề: Anomaly detection: A survey”, "ACM Computing Surveys
Tác giả: B. Arindam, C.Varun and K. Vipin
Năm: 2009
[2]. Harsh H. Patel, Purvi Prajapati (2018). “Study and Analysis of Decision Tree Based Classification Algorithms”, International Journal of Computer Sciences and Engineering, Vol. 6 Issue 10 Sách, tạp chí
Tiêu đề: Study and Analysis of Decision Tree Based Classification Algorithms”, "International Journal of Computer Sciences and Engineering
Tác giả: Harsh H. Patel, Purvi Prajapati
Năm: 2018
[3]. Iyigun, Cem & Ben-Israel, Adi. (2013), “Probabilistic Distance Clustering, Algorithm and Applications”, Clustering Challenges in Biological Networks Sách, tạp chí
Tiêu đề: Probabilistic Distance Clustering, Algorithm and Applications”
Tác giả: Iyigun, Cem & Ben-Israel, Adi
Năm: 2013
[4]. Kaustav Das & Jeff Schneider (2007), “Detecting anomalous records in categorical datasets”, Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 220-229 Sách, tạp chí
Tiêu đề: Detecting anomalous records in categorical datasets”, "Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining
Tác giả: Kaustav Das & Jeff Schneider
Năm: 2007
[5]. Li, Youguo & Wu, Haiyan. (2012), “A Clustering Method Based on K-Means Algorithm”, Physics Procedia, Vol. 25, pp. 1104-1109 Sách, tạp chí
Tiêu đề: A Clustering Method Based on K-Means Algorithm”, "Physics Procedia
Tác giả: Li, Youguo & Wu, Haiyan
Năm: 2012
[7]. Murtagh, Fionn & Contreras, Pedro. (2011), “Methods of Hierarchical Clustering”, Computing Research Repository Sách, tạp chí
Tiêu đề: Methods of Hierarchical Clustering”
Tác giả: Murtagh, Fionn & Contreras, Pedro
Năm: 2011
[8]. Mr.Sudhir M.Gorade, Prof.Ankit Deo2,Prof. Preetesh Purohit (2017), “A Study of Some Data Mining Classification Techniques”, International Research Journal of Engineering and Technology (IRJET), Vol. 04 Issue 04 Sách, tạp chí
Tiêu đề: A Study of Some Data Mining Classification Techniques”, "International Research Journal of Engineering and Technology (IRJET)
Tác giả: Mr.Sudhir M.Gorade, Prof.Ankit Deo2,Prof. Preetesh Purohit
Năm: 2017
[10]. Shikha Agrawal, Jitendra Agrawal (2015), “Survey on Anomaly Detection using Data Mining Techniques”, In 19th International Conference on Knowledge Based and Intelligent Information and Engineering Systems, Vol.60, pp. 708-713 Sách, tạp chí
Tiêu đề: Survey on Anomaly Detection using Data Mining Techniques”, "In 19th International Conference on Knowledge Based and Intelligent Information and Engineering Systems
Tác giả: Shikha Agrawal, Jitendra Agrawal
Năm: 2015
[11]. S.Neelamegam, Dr.E.Ramaraj (2013), Classification algorithm in Data mining: An Overview, In International Journal of Computer Applications (0975 – 8887), Vol. 79 No. 2 Sách, tạp chí
Tiêu đề: In International Journal of Computer Applications (0975 – 8887)
Tác giả: S.Neelamegam, Dr.E.Ramaraj
Năm: 2013
[12]. T. Sajana, C. M. Sheela Rani and K. V. Narayana (2016), “A Survey on Clustering Techniques for Big Data Mining”, Indian Journal of Science and Technology, Vol. 9(3) Sách, tạp chí
Tiêu đề: A Survey on Clustering Techniques for Big Data Mining”, "Indian Journal of Science and Technology
Tác giả: T. Sajana, C. M. Sheela Rani and K. V. Narayana
Năm: 2016
[6]. Markus Goldstein and Andreas Dengel (2012), Histogram-based Outlier Score (HBOS): A fast Unsupervised Anomaly Detection Algorithm Khác
[9]. Philipp Christian Petersen (2020), Neural Network Theory, University of Vienna Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w