Audit Database - Kiểm toán cơ sở dữ liệu - Phát hiện các mẫu truy cập bất thường trong cơ sở dữ liệu quan hệ

Những nỗ lực đáng kể gần đây dành cho sự phát triển của hệ thống quản lý cơ sở dữ liệu (DBMS)nhằm đảm bảo an ninh tốt hơn . Một phần quan trọng của bất kì giải pháp bảo mật mạnh mẽ nào là Intrusion Detection (ID), nó có thể phát hiện hành vi bất thường của các ứng dụng và người dùng. Ngày nay có rất ít các cơ chế ID đề xuất các thiết kế đặc biệt để hoạt động trong các DBMS. Trong bài báo này, chúng tôi đề xuất một cơ chế như vậy. Phương pháp tiếp cận của chúng tôi là dựa trên khai thác truy vấn SQL được lưu trữ trong tập tin đăng nhập của cơ sở dữ liệu kiểm toán. Kết quả của quá trình khai thác tài nguyên được sử dụng để tạo ra các cấu hình có thể mô hình hành vi bình thường truy cập cơ sở dữ liệu và xác định những kẻ xâm nhập. Chúng tôi xem xét hai kịch bản để giải quyết vấn đề. Trong trường hợp đầu tiên , chúng tôi giả định rằng cơ sở dữ liệu có một Role Based Access Control (RBAC) mô hình tại chỗ. Ở dưới một hệ thống RBAC cho phép được liên kết với các vai trò, nhóm nhiều người dùng, hơn là với những người dùng duy nhất. Một lợi ích quan trọng của việc cung cấp một kỹ thuật ID cụ thể phù hợp với cơ sở dữ liệu RBAC là nó có thể giúp bảo vệ chống lại các mối đe dọa nội bộ. Hơn nữa, sự tồn tại của vai trò làm cho việc dùng phương pháp tiếp cận của chúng tôi có thể dùng cả với các cơ sở dữ liệu với lượng người dùng lớn. Trong kịch bản thứ hai , chúng tôi giả định rằng không có vai trò liên quan đến người sử dụng cơ sở dữ liệu. Trong trường hợp này, chúng ta nhìn trực tiếp vào các hành vi của người dùng. Chúng tôi sử dụng các thuật toán phân nhóm để tạo thành các hồ sơ ngắn gọn đại diện cho hành vi người dùng bình thường. Để phát hiện, chúng tôi sử dụng các cụm cấu hình như vai trò hoặc sử dụng kỹ thuật phát hiện outlier để xác định hành vi lệch từ các cấu hình. Thử nghiệm đánh giá sơ bộ của chúng tôi trên cả hai cơ sở dữ liệu thực tế và tổng hợp các dấu vết cho thấy phương pháp của chúng tôi làm việc tốt trong các tình huống thực tế.

Trang 1

NHẬN XÉT CỦA GIÁO VIÊN

Trang 2

MỤC LỤC

Trang

Nhận xét của giáo viên 1

Mục lục 2

Danh mục các hình vẽ 3

Lời nói đầu 4

1 Giới thiệu 5

1.1 Methodology( Phương pháp) 6

1.2 System architecture( Kiến trúc hệ thống) 8

1.3 Related work( công việc liên quan) 9

1.4 Paper roadmap (lộ trình phát triển) 11

2 Trình bày dữ liệu 12

3 Vai Trò Phát Hiện Bất Thường 16

3.1 Phân Loại 16

3.2 Thử Nghiệm Đánh Giá 19

3.2.1 Tập hợp dữ liệu 20

3.3 Kết quả 21

4 Phát hiện những dị thường không bị giám sát 24

4.1 Hàm khoảng cách 26

4.2 Thuật toán nhóm cụm 27

4.2.1 k-centers 27

4.2.2 k-means 28

4.3 Phương pháp phát hiện các bất thường 29

4.4 Đánh giá thử nghiệm 30

Kết Luận 34

Trang 3

DANH MỤC CÁC HÌNH VẼ, BẢNG

Hình 3 Hình 3: Tập dữ liệu 2: Mô tả vai trò 22

Bảng 2 Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai 23

Hình 4 Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai 25

Hình 5 Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai 25

Hình 6 Tập dữ liệu không được giám sát: Thuật toán k-means

- Tỉ lệ xác thực sai và từ chối sai về phương thức phát hiện

Naive Bayes

31

Hình 7 Tập dữ liệu không được giám sát: Thuật toán k-centers

Naive Bayes

31

Hình 8 Tập dữ liệu không được giám sát: Thuật toán k-means

ngoại tuyến

33

Hình 9 Tập dữ liệu không được giám sát: Thuật toán k-centers

ngoại tuyến

32

Hình 10 Tập dữ liệu không được giám sát: Tỉ lệ xác chối sai

về phương thức phát hiện ngoại tuyến với xâm nhập truy vấn

từ phân bố xác suất khác nhau

33

Trang 4

Lời Nói Đầu

Những nỗ lực đáng kể gần đây dành cho sự phát triển của hệ thống quản

lý cơ sở dữ liệu (DBMS)nhằm đảm bảo an ninh tốt hơn Một phần quan trọngcủa bất kì giải pháp bảo mật mạnh mẽ nào là Intrusion Detection (ID), nó cóthể phát hiện hành vi bất thường của các ứng dụng và người dùng Ngày nay

có rất ít các cơ chế ID đề xuất các thiết kế đặc biệt để hoạt động trong cácDBMS Trong bài báo này, chúng tôi đề xuất một cơ chế như vậy Phươngpháp tiếp cận của chúng tôi là dựa trên khai thác truy vấn SQL được lưu trữtrong tập tin đăng nhập của cơ sở dữ liệu kiểm toán Kết quả của quá trình khaithác tài nguyên được sử dụng để tạo ra các cấu hình có thể mô hình hành vibình thường truy cập cơ sở dữ liệu và xác định những kẻ xâm nhập Chúng tôixem xét hai kịch bản để giải quyết vấn đề Trong trường hợp đầu tiên , chúngtôi giả định rằng cơ sở dữ liệu có một Role Based Access Control (RBAC) môhình tại chỗ Ở dưới một hệ thống RBAC cho phép được liên kết với các vaitrò, nhóm nhiều người dùng, hơn là với những người dùng duy nhất Một lợiích quan trọng của việc cung cấp một kỹ thuật ID cụ thể phù hợp với cơ sở dữliệu RBAC là nó có thể giúp bảo vệ chống lại các mối đe dọa nội bộ Hơn nữa,

sự tồn tại của vai trò làm cho việc dùng phương pháp tiếp cận của chúng tôi cóthể dùng cả với các cơ sở dữ liệu với lượng người dùng lớn Trong kịch bảnthứ hai , chúng tôi giả định rằng không có vai trò liên quan đến người sử dụng

cơ sở dữ liệu Trong trường hợp này, chúng ta nhìn trực tiếp vào các hành vicủa người dùng Chúng tôi sử dụng các thuật toán phân nhóm để tạo thành các

hồ sơ ngắn gọn đại diện cho hành vi người dùng bình thường Để phát hiện,chúng tôi sử dụng các cụm cấu hình như vai trò hoặc sử dụng kỹ thuật pháthiện outlier để xác định hành vi lệch từ các cấu hình Thử nghiệm đánh giá sơ

bộ của chúng tôi trên cả hai cơ sở dữ liệu thực tế và tổng hợp các dấu vết chothấy phương pháp của chúng tôi làm việc tốt trong các tình huống thực tế

Trong quá trình thực hiện đề tài nhóm em không khỏi mắc phải thiếu sót.Mong thầy đóng góp ý kiến để chúng em có thể hoàn thiện tốt hơn trongnhững đề tài sau này

Em xin chân thành cảm ơn!

Sinh viên thực hiện :

Hà văn Trường Nguyễn việt Long

La Khắc Điệp

Đỗ văn Tiền Nguyễn như Tỉnh

Trang 5

Kiểm toán cơ sở dữ liệu - Phát hiện các mẫu truy cập bất thường

trong cơ sở dữ liệu quan hệ

1 Giới thiệu

Ngày nay, dữ liệu là một tài sản quan trọng cho các công ty và tổ chức

Có những dữ liệu trị giá hàng triệu USD và các tổ chức cần phải rất cần thầntrong việc kiểm soát truy cập vào các dữ liệu, đối với cả người dùng bên trong

tổ chức và người dùng bên ngoài Bảo mật dữ liệu cũng rất quan trọng khi giảiquyết các vấn đề liên quan đến sự riêng tư của dữ liệu liên quan đến cá nhân.các công ty và tổ chức quản lý dữ liệu như vậy cần phải cung cấp đảm bảomạnh mẽ về tính bảo mật của những dữ liệu này để thực hiện theo quy định củapháp luật và chính sách Nhìn chung, bảo mật dữ liệu có vai trò trung tâm trongbối cảnh lớn hơn của hệ thống an toàn thông tin Vì vậy , sự phát triển củaDatabase Management Systems (DBMS) với đảm bảo an toàn cao là một vấn

đề nghiên cứu trọng tâm Sự phát triển của các DBMS yêu cầu 1 phiên bản vềkiến trúc và công nghệ được thông qua bởi DBMS truyền thống Một phầnquan trọng của thế hệ mới này security-aware DBMS là 1 cơ chế IntrusionDetection (ID) Mặc dù DBMS cung cấp cơ chế kiểm soát truy cập, chỉ riêngcác cơ chế không đủ để đảm bảo an toàn dữ liệu Chúng cần phải được bổ sungbằng các cơ chế ID phù hợp , việc sử dụng các cơ chế như vậy là rất quan trọng

để bảo vệ chống lại các cuộc tấn công mạo danh và chống lại các mã độc hạiđược nhúng vào trong các chương trình ứng dụng Ngoài ra cơ chế ID có thểgiúp đỡ trong việc giải quyết các vấn đề của các mối đe dọa nội bộ, một vấn đềngày càng quan trọng trong các tổ chức hiện nay mà đã không đưa ra đượcnhiều giải pháp Tuy nhiên, mặc dù thực tế là xây dựng hệ thống ID cho cácmạng và hệ điều hành đã có một khu vực hoạt động nghiên cứu, đã có vài hệthống ID được thiết kế đặc biệt vào DBMS

Mục tiêu của công trình nghiên cứu trong bài báo này là để giải quyếtnhu cầu đó bằng cách điều tra sự phát triển của một hệ thống ID DBMS cụ thể

Có hai lý do chính thúc đẩy sự cần thiết của hệ thống ID Đầu tiên là các hànhđộng được coi là độc hại cho một ứng dụng cơ sở dữ liệu không nhất thiết làđộc hại cho mạng hoặc hệ điều hành; do đó hệ thống ID thiết kế đặc biệt chosau này sẽ không có hiệu quả để bảo vệ cơ sở dữ liệu Thứ hai, và phù hợp hơn,

là hệ thống ID được thiết kế cho các mạng và hệ điều hành không đủ để bảo vệ

cơ sở dữ liệu chống lại các mối đe dọa nội bộ, đó là một vấn đề quan trọng khi

Trang 6

giao dịch sự riêng tư Có nhiều khó khăn hơn để bảo vệ chống lại các mối đedọa, vì chúng được xuất phát từ các đối tượng là người dùng hợp pháp của hệthống, và do đó có thể có quyền truy cập vào các dữ liệu và tài nguyên Mộtđiểm bổ sung cần được làm rõ là chúng tôi không cung cấp một định nghĩachính thức về an ninh mà cơ chế ID 1 DBMS cụ thể phải đảm bảo Tuy nhiên,chúng tôi cho rằng một định nghĩa như vậy là cần thiết Cụ thể hơn, một hệthống ID hoạt động ở cấp DBMS không chịu trách nhiệm để đảm bảo rằng cácyêu cầu bảo mật nhất định được bảo đảm Đây là một trách nhiệm của cácthành phần khác trong cơ sở hạ tầng an ninh Mục tiêu của hệ thống ID là đểxác định mô hình truy cập không mong muốn bởi người dùng có thẩm quyền(và ứng dụng) và báo cáo với các bên liên quan, chẳng hạn như DataBaseAdministrator (DBA) or the Site Security Officer (SSO) Hành động đáng ngờnhư vậy có thể là dấu hiệu của các cuộc tấn công có tổ chức của người sử dụngđược ủy quyền (các mối đe dọa nội bộ), hoặc trong một số trường hợp có thểhữu ích để tiếp tục tinh chỉnh các yêu cầu an ninh ban đầu của hệ thống

1.1 Methodology( Phương pháp)

Chìa khóa cơ bản của ý tưởng cách tiếp cận là xây dựng hồ sơ của hành

vi người dùng bình thường tương tác với một cơ sở dữ liệu Chúng tôi dùng cáccấu hình để phát hiện các hành vi bất thường.Trong bối cảnh này, cách tiếp cậncủa chúng tôi sẽ xem xét hai kịch bản ứng dụng khác nhau Chúng tôi cho rằng

cơ sở dữ liệu có một Role Based Access Control (RBAC) mô hình tại chỗ.Giấy phép được quy định cụ thể liên quan đến vai trò và không có liên quanđến người dùng cá nhân 1 hoặc nhiều vai trò được gán cho mỗi người dùng

Hệ thống ID của chúng tôi xây dựng một hồ sơ cá nhân cho mỗi vai trò và cóthể xác định vai trò những kẻ xâm nhận, cá nhân trong khi đang nắm giữ mộtvai trò cụ thể đi chệch khỏi hành vi bình thường của vai trò đó Việc sử dụngvai trò làm cho cách tiếp cận của chúng tôi có thể sử dụng ngay cả đối với các

cơ sở dữ liệu với một số đông người dùng Quản lý một vài vai trò hiệu quảhơn nhiều hơn so với quản lý nhiều người dùng cá nhân Với liên quan đến ID,bằng cách sử dụng vai trò đó có nghĩa là số lượng hồ sơ để xây dựng và duy trì

là nhỏ hơn nhiều hơn so với những người dùng cá nhân RBAC đã được chuẩnhóa

Trong trường hợp thứ hai, chúng tôi giải quyết cùng một vấn đề điềukiện DBMS mà không có bất kỳ định nghĩa vai trò Đây là trường hợp cần phảixem xét vì không phải tất cả các tổ chức phải tuân theo một mô hình RBACcho người dùng ủy quyền của cơ sở dữ liệu của họ Trong bối cảnh như vậy,mọi giao dịch có liên quan đến người sử dụng đã phát hành nó Một phươngpháp tiếp cận cho ID trong thiết lập này sẽ xây dựng một hồ sơ khác nhau chomỗi người sử dụng Đối với hệ thống với các cơ sở người dùng lớn một cáchtiếp cận như vậy sẽ cực kì kém hiệu quả Hơn nữa, nhiều người dùng trong các

Trang 7

hệ thống chỉ thỉnh thoảng mới gửi các truy vấn dữ liệu Trong trường hợpngười dùng hoạt động cao,hồ sơ sẽ phù hợp hơn, nếu người dùng không hoạtđộng hồ sơ sẽ không phù hợp Trong trường hợp đầu tiên, chúng ta sẽ thấy một

số lượng lớn các báo động sai, trong khi trường hợp thứ hai sẽ dẫn đến sốlượng lớn các báo động bị mất, báo động cần phải có được nâng lên Chúng tôikhắc phục những khó khăn này bằng cách xây dựng các nhóm người sử dụng

hồ sơ chỉ dựa trên những người sử dụng các giao dịch gửi đến cơ sở dữ liệu

Do đó hồ sơ, chúng tôi xác định một sự bất thường như là một mô hình truycập lệch từ các cấu hình Bài viết này nêu ra một giải pháp ID thiết kế đặc biệtcho các hệ thống cơ sở dữ liệu, 2 vấn đề chúng ta giải quyết như sau: làm thếnào để xây dựng và duy trì chính xác hồ sơ đại diện và nhất quán hành vi ngườidùng Dùng các hồ sơ như thế nào để thực hiện nhiệm vụ ID Các giải pháp cho

cả hai vấn đề dựa trên việc sử dụng các dấu vết “intrusion free (xâm nhập miễnphí)” cơ sở dữ liệu của bản ghi cơ sở dữ liệu log kiểm toán đại diện cho hành

vi người dùng bình thường Tuy nhiên, những thông tin chứa trong các dấu vếtkhác nhau tùy thuộc vào tình huống ứng dụng trong câu hỏi Khi vai trò củathông tin không tồn tại, vấn đề được chuyển đổi thành một vấn đề có giám sát

Hình 1 Tổng quan về quá trình ID

Phân loại A được đào tạo bằng cách dùng một tập hợp các hồ sơ đào tạoxâm nhập Sau đó phân loại này được sử dụng để phát hiện các hành vi bấtthường Ví dụ, nếu một người cho rằng để có một vai trò cụ thể trong khi phânloại hành vi phân loại của họ mang vai trò khác, khi đó cảnh báo sẽ được nânglên Mặt khác, đối với trường hợp không có thông tin về vai trò, chúng ta hìnhthành giải pháp dựa trên kỹ thuật không được giám sát Chúng tôi sử dụng cácthuật toán phân nhóm để xây dựng các nhóm người sử dụng Những nhóm này

Trang 8

có thể giúp các DBA trong việc quyết định vai trò để xác định Với mỗi ngườidùng, chúng tôi duy trì các sơ đồ nhóm đại diện Với giai đoạn ID, chúng tôichỉ định hai cách tiếp cận khác nhau Phương pháp tiếp cận đầu tiên, chúng tôi

xử lý vấn đề theo cách thức tương tự như trường hợp giám sát với các nhómgiống các lớp phân loại Cách tiếp cận thứ hai, chúng tôi xử lý các giai đoạnphát hiện Khi đó, một báo động được nâng lên cho một truy vấn mới nếu nóđược đánh dấu như là một outlier đối với cụm đại diện Thách thức chính trongviệc tấn công là có thể trích xuất các thông tin chính xác từ các dấu vết cơ sở

dữ liệu, hồ sơ chính xác có thể được xây dựng Để giải quyết vấn đề này,chúng tôi đưa một số đại diện cho các hồ sơ đăng nhập cơ sở dữ liệu, đặc trưngbởi đặc tính khác nhau, tương ứng, bởi mức độ chính xác khác nhau Bằngcách sử dụng những đại diện chúng tôi giải quyết các kịch bản đầu tiên như làmột vấn đề phân loại và kịch bản thứ hai là một vấn đề phân nhóm

1.2 System architecture (Kiến trúc hệ thống)

Kiến trúc của hệ thống bao gồm ba thành phần chính: thông thương cơchế DBMS xử lý quá trình thực hiện truy vấn, các tập tin đăng nhập cơ sở dữliệu kiểm toán và cơ chế ID Các thành phần này tạo thành DBMS mới mởrộng được tăng cường với một hệ điều hành độc lập ID ở cấp cơ sở dữ liệu.Tổng quan về quá trình ID được thể hiện trong hình 1 Đầu tiên, chọn tính năngchuyển đổi các truy vấn SQL thành một trong quiplet hình được hỗ trợ bởi cơchế ID(xem phần 2) Các công cụ phát hiện sau đó kiểm tra quiplet chống lạicác cấu hình hiện có và trình đánh giá của các truy vấn (bất thường hoặc khôngbất thường) công cụ phản ứng Các công cụ đáp ứng tham khảo một cơ sởchính sách cơ chế phản ứng hiện ra một đáp ứng tùy thuộc vào sự đánh giá củacác truy vấn được gửi bởi các công cụ phát hiện Một truy vấn bất thường cóthể không nhất thiết bao hàm một sự xâm nhập Các thông tin và các chínhsách an ninh cũng phải được đưa vào tài khoản Ví dụ, nếu người dùng đăngnhập dưới vai trò thực hiện một số hoạt động đặc biệt để quản lý một trườnghợp khẩn cấp, cơ chế ID có thể được hướng dẫn để nâng báo động trong trườnghợp như vậy Nếu kết quả đáp ứng quyết định để nâng cao một báo thức, một

số hành động để xử lý thealarm có thể được thực hiện Các hành động phổ biếnnhất là gửi một cảnh báo cho người quản trị bảo mật Tuy nhiên, hành độngkhác là có thể (hình 1), chẳng hạn như vô hiệu hóa vai trò và ngắt kết nối người

sử dụng truy cập hoặc thả các truy vấn Nếu bằng cách đánh giá, truy vấnkhông phải là bất thường, kết quả đáp ứng chỉ đơn giản là cập nhật các bản ghikiểm toán cơ sở dữ liệu và các cấu hình với các thông tin truy vấn Trước khiphát hiện, các module sẽ tạo ra các hồ sơ cá nhân tạo ra các cấu hình ban đầu

từ một tập hợp các hồ sơ xâm nhập miễn phí từ cơ sở dữ liệu log kiểm tra

1.3 Related work (Công việc liên quan)

Trang 9

Một số phương pháp tiếp cận đối phó với ID cho hệ điều hành và mạnglưới đã được phát triển Tuy nhiên chúng không đầy đủ để bảo vệ cơ sở dữliệu Một mức độ trừu tượng cao và kiến trúc của một DBMS kết hợp với mộtthành phần ID đã được đề xuất gần đây Tuy nhiên, công việc này chủ yếu tậptrung về các giải pháp chung chung chứ không phải là đề xuất các phươngpháp tiếp cận thuật toán cụ thể Cuối cùng, trong một phương pháp để ID được

mô tả là chỉ dùng cho các ứng dụng thời gian thực, chẳng hạn như giao dịchchứng khoán được lập trình tương tác với một cơ sở dữ liệu Ý tưởng chínhtrong công việc này là để khai thác các thuộc tính thời gian thực của dữ liệu đểthực hiện nhiệm vụ ID Kỹ thuật phát hiện bất thường để phát hiện các cuộc tấncông vào các ứng dụng web đã được thảo luận bởi Vigna et al [15] Ý tưởngdựa trên phương pháp tiếp cận để phát hiện các tấn công SQL được đề xuất bởiValeur et al [26] Cơ sở của công việc này tương tự như việc chúng ta sử dụngcác kỹ thuật để phát hiện các cuộc tấn công SQL dựa trên cơ sở dữ liệu Tuynhiên, phương pháp của họ tập trung vào việc phát hiện các cuộc tấn côngchống lại các cơ sở dữ liệu back-end được sử dụng bởi các ứng dụng dựa trênweb Như vậy, kiến trúc của ID và các thuật toán phù hợp với bối cảnh đó.Chúng tôi đề xuất cách tiếp cận 1 mục đích chung đối với phát hiện của cácmẫu truy cập bất thường trong một cơ sở dữ liệu được đại diện bởi các truy vấnSQL gửi đến cơ sở dữ liệu Một phát hiện bất thường hệ thống cơ sở dữ liệuquan hệ được đề xuất bởi Spalka et al [24 ] Công trình này tập trung vào pháthiện các bất thường trong một trạng thái cơ sở dữ liệu cụ thể được thể hiện bởicác dữ liệu trong các mối quan hệ Kỹ thuật đầu tiên họ sử dụng các chức năng

cơ bản thống kê để so sánh các giá trị tham khảo cho mối quan hệ thuộc tínhđang được theo dõi để phát hiện bất thường Kỹ thuật thứ hai giới thiệu cáckhái niệm về quan hệ ghi lại lịch sử thay đổi giá trị dữ liệu của các thuộc tínhgiám sát giữa 2 hệ thống phát hiện bất thường Công việc này bổ sung chocông việc của chúng tôi vì nó tập trung vào các khía cạnh ngữ nghĩa của cáctruy vấn SQL bằng cách phát hiện các trạng thái cơ sở dữ liệu bất thường đạidiện bởi các dữ liệu trong các mối quan hệ, trong khi chúng tôi tập trung vàocác khía cạnh cú pháp bằng cách phát hiện các mẫu truy cập bất thường trong 1DBMS

Một cách tiếp cận khác phù hợp hướng tới một cơ chế ID cơ sở dữ liệu

cụ thể là Hu et al [13] Họ đề xuất các cơ chế cho việc tìm kiếm các mối quan

hệ phụ thuộc dữ liệu giữa các giao dịch và sử dụng thông tin này để tìm bấtthường ẩn trong các bản ghi cơ sở dữ liệu Nguyên nhân của phương pháp tiếpcận của họ là như sau: nếu một mục dữ liệu được cập nhật, bản cập nhật nàykhông xảy ra một mình, nhưng được đi kèm với một tập hợp các sự kiện kháccũng được đăng trong các tập tin ghi lưu cơ sở dữ liệu Do đó, mỗi lần cập nhậtmục được đặc trưng bởi ba bộ: bộ đọc, bộ của các mục đã được đọc vì cậpnhật, bộ viết trước, thiết lập các hạng mục đã được viết trước khi cập nhật, và

Trang 10

tập hợp bài viết, tập hợp các mục đã được viết sau khi cập nhật và kết quả củanó.Cách tiếp cận này xác định các giao dịch độc hại bằng cách so sánh những

bộ các bản cập nhật mục khác nhau

Một cách tiếp cận nữalà khái niệm tương tự như chúng ta là một trongnhững cơ sở hệ thống DEMIDS [7] EMIDS là một phát hiện lạm dụng hệthống, phù hợp cho các hệ thống cơ sở dữ liệu quan hệ Nó dùng dữ liệu đăngnhập kiểm toán để lấy được hồ sơ mô tả mô hình điển hình truy cập của người

sử dụng cơ sở dữ liệu.Cần thiết một cách tiếp cận như vậy là giả định rằng các

mô hình truy cập của người sử dụng thường tạo thành một phạm vi hoạt độngtrong đó bao gồm bộ các thuộc tính thường được tham chiếu cùng với một sốgiá trị DEMIDS giả sử kiến thức về cấu trúc và ngữ nghĩa dữ liệu được mãhóa trong một lược đồ cơ sở dữ liệu nhất định.Các biện pháp từ xa sau đó được

sử dụng để hướng dẫn tìm kiếm cho các tập phổ biến mô tả phạm vi làm việccủa người sử dụng Hạn chế của cách tiếp cận này là số lượng người sử dụngcho một hệ thống cơ sở dữ liệu có thể khá lớn và duy trì (hoặc cập nhật) cấuhình cho số lượng lớn người sử dụng rất khó Hơn nữa, cách tiếp cận được sửdụng bởi DEMIDS để xây dựng hồ sơ người dùng yêu cầu giả thiết về một cơ

sở dữ liệu nhất định giản đồ Điều này có thể ảnh hưởng đến việc áp dụng củaphương pháp Cách tiếp cận của chúng tôi là xây dựng hồ sơ bằng cách sửdụng thông tin cú pháp từ các truy vấn SQL xuất hiện trong các bản ghi cơ sở

dữ liệu làm cho cách tiếp cận của chúng tôi tổng quát hơn Lee et al.[18] là mộtcách tiếp cận để phát hiện các truy cập cơ sở dữ liệu bất hợp pháp bằng vân taygiao dịch Đây là một công nghệ tóm tắt câu lệnh SQL vào dấu vân tay biểuhiện thường nhỏ gọn Hệ thống phát hiện xâm nhập bằng cách kết hợp các báocáo SQL mới với một tập dấu vân tay giao dịch hợp pháp cơ sở dữ liệu Côngviệc này có thể được phân loại như một hệ thống ID dựa trên khái niệm chữ kýkhác nhau từ phương pháp trên mà chúng tôi đề xuất trong bài báo này

Ngoài các phương pháp tiếp cận trên, công việc trước đây của chúng tôi

về truy vấn [6] cũng có thể được mô tả như là một cơ chế ID DBMS cụ thể.Tuy nhiên, công việc mà chúng tôi tập trung là việc xác định các loại hình cụthể của những kẻ xâm nhập, cụ thể là những người gây ra cuộc tấn công truyvấn Một người kĩ sư có thể dùng một cuộc tấn công cơ sở dữ liệu với các truyvấn có thể làm cạn kiệt nguồn tài nguyên của DBMS làm cho nó không có khảnăng phục vụ người sử dụng hợp pháp Cuối cùng, bài viết này mở rộng côngviệc của chúng tôi theo hai hướng mới Chúng tôi tăng cường biểu diễn của cáctruy vấn SQL bằng cách lấy thông tin từ các truy vấn Điều này có ích trongviệc phát hiện các bất thường củacác đặc tính trong các vị ngữ truy vấn đượcsửa đổi mà không cần chạm vào các thuộc tính dự kiến Hơn nữa, công việctrước đây của chúng tôi là trường hợp mà trong đó vai trò thông tin có sẵntrong kiểm toán cơ sở dữ liệu đăng nhập Trong đó thiết lập các vấn đề của ID

đã được giảm xuống còn một vấn đề giám sát Ở đây, chúng tôi cũng xem xét

Trang 11

các trường hợp, trong đó vai trò thông tin không có sẵn trong các bản ghi cơ sở

dữ liệu Đây là một phần mở rộng quan trọng bởi vì nó làm cho việc áp dụngcác kĩ thuật thiết lập mà không sử dụng một mô hình RBAC để kiểm soát truycập

1.4 Paper roadmap (Lộ trình phát triển)

Bài viết này được sắp xếp như sau Mục tiếp theo mô tả các định dạngkiểm toán hồ sơ đăng nhập và ba cấp độ đại diện khác nhau được hỗ trợ bởiphương pháp tiếp cận của chúng tôi Phần 3 mô tả chi tiết dựa trên vai trò pháthiện bất thường Cách tiếp cận và báo cáo kết quả thử nghiệm có liên quan.phần 4 giải thích các thiết lập phát hiện bất thường không được giám sát và báocáo các kết quả thử nghiệm có liên quan Chúng tôi kết luận giấy bằng cáchthảo luận về công việc trong tương lai

Trang 12

2 Trình bày dữ liệu

Để định danh hành vi của người dùng, chúng ta sử dụng cơ sở dữ liệukiểm toán thông tin về hành động của người sử dụng Các hồ sơ kiểm toán,sau khi xử lý, được sử dụng để tạo thành các cấu hình ban đầu đại diện chohành động chấp nhận được Mỗi mục trong file kiểm toán được biểu diễn nhưmột đơn vị dữ liệu riêng biệt, các đơn vị này sau đó được kết hợp để tạo thành

hồ sơ mong muốn Chúng tôi cho rằng người dùng tương tác với cơ sở dữ liệuthông qua các lệnh, mỗi lệnh là một mục khác nhau trong tập tin nhật kí, cấutrúc theo ngôn ngữ SQL Ví dụ, trong trường hợp của các truy vấn select nhưsau lệnh có định dạng:

SELECT [DISTINCT] {TARGET-LIST}

FROM {RELATION-LIST}

WHERE {QUALIFICATION}

Để xây dựng hồ sơ, chúng ta cần xử lý đăng nhập các mục tập tin trước

và chuyển đổi chúng sang một định dạng mà có thể được phân tích bởi cácthuật toán của chúng ta Vì vậy, chúng ta đại diện mỗi mục nhập bởi một đơn

vị dữ liệu cơ bản bao gồm năm trường, và do đó nó được gọi là 1 quiplet

Quiplets là đơn vị cơ bản của chúng ta để xem các tập tin đăng nhập và

là những thành phần cơ bản cho các hồ sơ hình thành Hành động của người sửdụng được đặc trưng bằng cách sử dụng bộ quiplets như vậy Trong quipletchứa các thông tin sau đây: các lệnh SQL của người dùng, thiết lập các mốiquan hệ truy cập, và cho mỗi quan hệ như vậy, các thiết lập của các thuộc tínhtham chiếu Thông tin này có sẵn trong ba thành phần cơ bản của các truy vấnSQL, cụ thể là, theSQL COMMAND, theRELATIONLIST và TARGETLIST

Chúng ta cũng xử lý theQUALIFICATIONcomponent của các truy vấn

để lấy thông tin về quan hệ và thuộc tính tương ứng của chúng, được sử dụngtrong các câu truy vấn Do đó, hình thức trừu tượng của quiplet bao gồm 5 lĩnhvực: (SQL Command, Projection Relation Information, Projection AttributeInformation, Selection Relation In-formation and Selection AttributeInformation) Đối với các mục đích đơn giản, chúng ta biểu diễn một quipletchung bằng cách sử dụng 5 ary quan hệ Q(c; PR; PA; SR; SA), trong đó ctương ứng với lệnh, PR để quan hệ chiếu thông tin, PA là thông tin thuộc tínhtham chiếu, SR là các thông tin quan hệ lựa chọn, và SA là lựa chọn thông tinthuộc tính Tùy thuộc vào loại quiplet hai đối số PR ( hoặc SR) và PA ( hoặcSA) có thể có các loại khác nhau, nhưng để đơn giản và rõ ràng, chúng ta chophép các kí hiệu bị quá tải Bất cứ khi nào các loại của quilt là quan trọng,chúng ta sẽ xác định một cách rõ ràng Tuy nhiên, đôi khi nó không được chỉ ramột cách rõ ràng cho tất cả các loại quiplets Tùy thuộc vào mức độ cần thiếttrong giai đoạn xây dựng hồ sơ cá nhân và trong ID, chúng ta biểu diễn

Trang 13

quiplets từ các mục tập tin đăng nhập bằng cách sử dụng ba cấp độ biểu diễnkhác nhau Mỗi cấp độ được đặc trưng bởi một số lượng khác nhau của cácthông tin được ghi Các thông tin liên quan và thuộc tính được giả sử là có mặttrong các điều kiện tham gia của câu .Chúng ta không xem xét các trường hợpcủa truy vấn con phức tạp mà không thể giảm điều kiện tham gia Rõ ràng,chúng ta chỉ hiển thị các đại diện cho các cú pháp của một lệnh được chọn Đạidiện nhìn chung là đầy đủ để nắm bắt thông tin từ các câu lệnh SQL khác nhưchèn, xóa và cập nhật Ví dụ, lệnh chèn, chèn vào mối quan hệ và các cột được

mã hóa như mối quan hệ chiếu và các thuộc tính chiếu Chúng ta gọi các đạidiện đơn giản nhất của kiểm toán đăng nhập bản ghi file là quiplet đơn giảnhoặc c quiplet Một c-quiplet ghi chỉ số quan hệ, các thuộc tính riêng biệt dựkiến và được lựa chọn bởi các truy vấn SQL Vì vậy, c-quiplets cơ bản là môhình có bao nhiêu mối quan hệ và bao nhiêu thuộc tính được truy cập trongtổng số, chứ không phải là các yếu tố cụ thể được truy cập bởi truy vấn Các c-quiplets được định nghĩa như sau: Một quiplet đơn giản hoặc c quiplet là mộtđại diện một bản ghi của cơ sở dữ liệu đăng nhập kiểm toán các file đăng nhập.Mỗi quiplet c-bao gồm 5 lĩnh vực: (SQL-CMD, PROJ-REL-COUNTER,PROJ-ATTR-COUNTER, SEL-REL-COUNTER, SEL-ATTR-COUNTER).Trước tiên là biểu tượng và tương ứng với các lệnh SQL ban hành Hai lĩnhvực tiếp theo là số, và tương ứng với số lượng các mối quan hệ, các thuộc tínhliên quan đến mệnh đề chiếu của các truy vấn SQL, Hai lĩnh vực cuối cùng là

số, và tương ứng với số lượng các mối quan hệ và các thuộc tính liên quan đếnviệc lựa chọn mệnh đề của truy vấn SQL

Trong các điều khoản của các quiplet Q (), cả hai PR (hoặc SR) và PA(hoặc SA) tương ứng với số lượng các mối quan hệ và các thuộc tính liên quanđến truy vấn tương ứng Rõ ràng, một số lượng lớn các thông tin có giá trịtrong đăng nhập cơ sở dữ liệu được bỏ qua bởi c-quiplets Tuy nhiên nó có ích

để xem xét như một đại diện dữ liệu nguyên thủy, vì nó đầy đủ trong trườnghợp có một số lượng nhỏ các vai trò khác nhau Hơn nữa, đại diện phức tạphơn các mục tập tin đăng nhập được dựa trên định nghĩa c-quiplets Đề án đạidiện thứ hai nắm bắt thêm thông tin từ các bản ghi file đăng nhập Chúng tôigọi đây là đại diện, hạt trung bình quiplet hoặc m-quiplet Những quiplets thừa

kế quiplets thô bằng cách tiếp tục khai thác các thông tin có trong các mụcđăng nhập Giống như một c-quiplet, m-quiplet đại diện cho một mục đăngnhập duy nhất của cơ sở dữ liệu đăng nhập tập tin Trong trường hợp này, mặc

dù mối quan hệ từng được đại diện riêng số lượng các thuộc tính dự kiến của

nó (hoặc chọn) bởi truy vấn SQL Như vậy, trong điều kiện của quiplet, kýhiệu: Q (), PR, PA, SR và SA là vectơ của cùng kích thước bằng số lượng cácmối quan hệ trong cơ sở dữ liệu

M-quiplets được định nghĩa như sau:

Trang 14

Định nghĩa 2 một hạt quiplet trung bình hoặc m-quiplet là một đối tượng

dữ liệu tương ứng với một mục duy nhất của file bản ghi cơ sở dữ liệu và baogồm 5 lĩnh vực: (SQL-CMD, PROJ-REL-BIN[], PROJ-ATTR-COUNTER[],SEL-REL-BIN[], SEL-ATTR-COUNTER[]) Các lĩnh vực đầutiên là biểu tượng và tương ứng với các lệnh SQL ban hành, thứ hai là một sốnhị phân (bit) vector có kích thước bằng với số lượng các mối quan hệ trong cơ

sở dữ liệu Các bit ở vị trí i được thiết lập tới 1 nếu mối quan hệ thứ i- dự kiếntrong Truy vấn SQL Các lĩnh vực thứ ba của quiplet là một vector của kíchthước bằng nhau về số lượng của các mối quan hệ trong cơ sở dữ liệu

Yếu tố thứ i của các PROJ-attr-COUNTER [] vector tương ứng với sốlượng các thuộc tính của thứ-i trong mối quan hệ, theo dự kiến trong truy vấnSQL Các ngữ nghĩa của SEL-REL-BIN [] và SEL-attr-COUNTER [] vectơ làtương đương với những người PROJ-REL-BIN [] và PROJ-attr COUNTER[]vectơ, nhưng các thông tin lưu giữ trước đây tương ứng vơi các lựa chọn thay

vì dự đoán của các truy vấn SQL

Cuối cùng, chúng ta giới thiệu một mức độ đại diện thứ ba của đăngnhập hồ sơ tập tin mà chất chiết xuất từ các thông tin tối đa từ các tập tin đăngnhập Chúng ta gọi đay là đại diện tốt quiplet hoặc f quiplet Cấu trúc của mộtquiplet-f tương tự như của một quiplet-m Đặc biệt, lần đầu tiên, thứ hai và cáclĩnh vực thứ tư của một quiplet-f tương ứng với các trường của m-quiplets F-quiplets và m-quiplets chỉ khác nhau trong các lĩnh vực thứ ba và thứ năm.Trong trường hợp f-quiplets, các lĩnh vực này là vector của vector và gọi làPROJ-BIN attr [] [] và SEL-BIN-attr [] [] tương ứng Yếu tố thứ i của PROJ-BIN attr [] [] là một vector tương ứng với các mối quan hệ thứ i của cơ sở dữliệu và có kích thước bằng nhau về số lượng các thuộc tính của quan hệ i Yếu

tố thứ i của PROJ-BIN-attr [] [] giá trị nhị phân cho thấy các thuộc tính cụ thểcủa mối quan hệ được dự đoán trong truy vấn SQL các ngữ nghĩa của SEL-BIN-attr [] [] là tương tự Đối với f-triplets, PR và SR là vector có kích thướcbằng với số lượng các mối quan hệ trong cơ sở dữ liệu trong khi PA và SA làvectơ cùng kích thước, nhưng với mỗi phần tử là một vector của kích thướcbằng nhau số lượng các thuộc tính liên quan i Các định nghĩa chính thức của f-quiplets là như sau:

Định nghĩa 3 quiplet mịn hoặc f quiplet là một đại diện chi tiết của mộtmục đăng nhập Nó bao gồm 5 các lĩnh vực (SQL-CMD, PROJ-REL-BIN [],PROJ-attr-BIN [] [] SEL-REL-BIN [], SEL-attr-BIN [] []) Các lĩnh vực đầutiên là biểu tượng và tương ứng với các lệnh SQL, thứ hai là một vector nhịphân có chứa 1 trong i vị trí trong truy vấn SQL Lĩnh vực thứ ba là một vectorcủa vector n, trong đó n là số lượng các mối quan hệ trong cơ sở dữ liệu Yếu

tố PROJ-attr-BIN [i] [j] bằng 1 nếu các truy vấn SQL dự án thuộc tính thứ jcủa mối quan hệ thứ i, và nó bằng 0 nếu ngược lại Tương tự, lĩnh vực thứ tư

Trang 15

là một vector nhị phân có chứa trong nó vị trí thứ i nếu mối quan hệ thứ i được

sử dụng trong truy vấn SQL vị ngữ Các lĩnh vực thứ năm là một vectors củavector n, n là số lượng các mối quan hệ trong cơ sở dữ liệu yếu tố SEL-attr-BIN [i] [j] bằng 1 nếu các tài liệu tham khảo truy vấn SQL thuộc tính thứ j củaquan hệ thứ i trong truy vấn vị ngữ, nó là bằng 0 nếu ngược lại

Bảng 1 cho thấy một lệnh SQL tương ứng với lựa chọn báo cáo và đạidiện của mình theo ba loại khác nhau của quiplets Trong ví dụ, xem xét mộtlược đồ cơ sở dữ liệu bao gồm hai mối quan hệ:

R1 ={A1, B1, C1, D1} and R2 ={A2; B2; C2; D2}

Trang 16

3 Vai Trò Phát Hiện Bất Thường

Trong phần này, chúng tôi mô tả phương pháp liên quan đến vai trò củangười sử dụng có sẵn trong cơ sở dữ liệu Vai trò thông tin này cho phép giảiquyết các vấn đề của người dung như là phân loại tiêu chuẩn

3.1 Phân Loại

Sử dụng phân loại Naive Bayes(NBC) cho ID trong RBAC – cơ sở dữ liệuquản lý Mặc dù có một số giả định các mô hình về tính độc lập phân loại thuộctính , các thực nghiệm chứng minh rằng điều ngạc nhiên tính hữu ích trongthực tế Hơn nữa, NBC đã được chứng minh là có hiệu quả trong nhiều ứngdụng thực tiễn như văn bản phân loại và chẩn đoán [9,22,11], và thường cạnhtranh phức tạp hơn nhiều kỹ thuật [17,10] Lý do cho sự phổ biến của NBC làyêu cầu thấp tính toán cho cả quá trình đào tạo và phân loại nhiệm vụ Thờigian nhỏ chạy các giả định độc lập thuộc tính Hơn nữa, giống như tất cả cácphân loại xác suất theo Aposteriori Xác suất tối đa (MAP) quyết định quy tắc.NBC đến phân loại chính xác lớp chính xác hơn có khả năng xảy ra hơn so vớibất kỳ lớp khác Nói cách khác, phân loại tổng thể ảnh hưởng đến sự thiếu hụtcủa nó cơ bản của mô hình xác suất Độc giả có thể xem trên bài viếtDomingos et al [9] giải thích khu vực tối ưu cho NBC và thảo luận về những

lý dothực hiện có hiệu quả của nó ngay cả khi các thuộc tính trong phụ thuộcvào giả định

Chúng tôi lần đầu tiên mô tả các nguyên tắc chung của NBC (xem chitiết [22]) và sau đó hiển thị nó và được áp dụng để thiết lập của chúng tôi.Trong thực nghiệm giám sát, mỗi trường hợp x của dữ liệu được mô tả như làmột kết hợp của các thuộc tính các giá trị, mục tiêu và chức năng f (x) chỉ cóthể đưa giá trị từ một số tập hợp hữu hạn V Các thuộc tính tương ứng tập hợpcác quan sát và các yếu tố của V là các riêng biệt kết hợp với những quan sát.Trong vấn đề phân loại, một tập hợp các ví dụ DT được cung cấp, và mộttrường hợp mới với các giá trị thuộc tính (a1; ::: an) được đưa ra Mục đích là

để dự đoán mục tiêu giá trị, hoặc lớp, trường mới này

Cách tiếp cận chúng tôi mô tả ở đây là để chỉ định cho điều này lớp giátrị có thể xảy ra nhất V Map, cho các thuộc tính (a1,…an) mô tả nó Đó là

Trang 17

Lệnh SQL c-quiplet m-quiplet f-quipletSELECT

< 1; 1 > [0; 1;0; 0]; [0; 1; 0;0]

Bảng 1 Ví dụ xây dựng Quiplet

Sử dụng Bayes Theorem, chúng ta có thể viết lại như sau :

Phép lấy đại số cuối cùng là khả thi bởi vì mẫu số không phụ thuộc vào

sự lựa chọn của Vi và do đó nó có thể bỏ qua các đối số argmax Ước tính p(Vi) là đơn giản vì nó đòi hỏi chỉ cần đếm tần số Vi trong dữ liệu Tuy nhiên,tính toán P(a1,…an|vi) là khó khăn khi xem xét một lượng lớn tập dữ liệu vàmột số lượng hợp lý lớn của các thuộc tính [8] NBC, tuy nhiên, dựa trên giảđịnh đơn giản hóa rằng các giá trị thuộc tính là điều kiện độc lập, và do đó

Điều này làm giảm đáng kể phép tính toán khi tính mỗi một giá trị của P(ai|vj) chỉ đòi hỏi một số tần số trong dữ liệu có giá trị lớp bằng vj

Vì vậy, giả định độc lập có điều kiện để giải quyết các chi phí tính toán,Tuy nhiên, có là một vấn đề cần được thảo luận Giả sử e sự kiện xảy ra nej sốlần trong dữ liệu cài đặt cho vj một lớp học đặc biệt với kích thước |Dvj| Khi

đó cung cấp một ước lượng của các xác suất trong nhiều trường hợp

nó cung cấp ước lượng nhỏ khi nej là rất nhỏ Một ví dụ rõ ràng là trường hợp

nej = 0 Xác suất không tương ứng các phân loại một cách không thể đảongược, kể từ khi theo phương trình 1, xác suất không khi nhân với các điều

Định dạng
Số trang	34
Dung lượng	610,44 KB