1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security

21 599 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 482,29 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH---—&–--- BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security GV

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

-—&– -

BÀI THU HOẠCH MÔN HỌC

CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG

Đề tài:

Khai mỏ dữ liệu trong bảo mật hệ thống

Data mining in system security

GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Hà Minh Ái – CH1101001 Lớp: Cao học CNTT khóa 6

TP.HCM, 06-2012

Trang 2

MỤC LỤC

Danh sách hình vẽ 2

Tài liệu tham khảo 3

Thuật ngữ viết tắt 4

A ĐẶT VẤN ĐỀ 5

B NỘI DUNG 6

I Khai mỏ dữ liệu (Data mining) 6

1 Giới thiệu 6

2 Các bài toán điển hình 8

II Bảo mật hệ thống 10

III Khai mỏ dử liệu trong bảo mật hệ thống 12

1 Phát hiện đối tượng ẩn danh 13

2 Gom nhóm cảnh báo phát hiện xâm nhập 17

C KẾT LUẬN 20

Trang 3

DANH SÁCH HÌNH VẼ

Hình 1 – Quá trình khám phá tri thức 8

Hình 2 – Mô hình hệ thống mạng bảo mật 11

Hình 3 – Chu kỳ bảo mật 12

Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng 13

Hình 5 – Phân cấp bộ tạo 18

Trang 4

TÀI LIỆU THAM KHẢO

[1] Hoàng Kiếm (chủ biên), Bài giảng cao học môn học Cơ sở tri thức và ứng dụng,

Đại học Khoa học tự nhiên TP.HCM

[2] Marcus A.Maloof, Machine Learning and Data Mining for Computer Security,

Nhà xuất bản Springer, 2006

[3] Anoop Singhal, Data warehousing and Data mining techniques for cyber

security, Nhà xuất bản Springer, 2007

[4] S.Prabhu, Data mining and Warehousing, Nhà xuất bản New Age International

Limited, 2007

[5] Thông tin từ Internet

Trang 5

THUẬT NGỮ VIẾT TẮT

CLARA Clustering Alarms for Root cause

Analysis

Gom nhóm cảnh báo cho việc phân tích nguyên nhân ban đầu CRM Customer Relationship Management Quản lý quan hệ khách hàng

DNS Domain Name System Hệ thống phân giải tên miền DoS Denial of Service Từ chối dịch vụ

FTP File Transfer Protocol Giao thức truyền tập tin

HR Human Resources Nguồn nhân lực

HTTP HyperText Transfer Protocol Giao thức truyền siêu văn bản IDS Intrusion Detection System Hệ thống phát hiện xâm nhập LAN Local Area Network Mạng cục bộ

MIB Management Information Base Phần chứa thông tin quản lý

NAT Network Address Translation Biên dịch địa chỉ mạng

NFR Network Flight Recorder Bộ ghi sự đào tẩu khỏi mạng OLAP On-Line Analytical Processing Quá trình phân tích trực tuyến

Trang 6

A ĐẶT VẤN ĐỀ

Ngày nay, cùng với sự phát triển mạnh mẽ của Internet, nhân loại chìm ngập,

sở hữu nguồn tri thức, thông tin dữ liệu khổng lồ được lưu trữ ở khắp nơi trên thế giới Việc tận dụng, khai thác tối đa nguồn dữ liệu đó để phục vụ hoạt động kinh doanh, cuộc sống con người trở thành bài toán, thách thức cho ngành công nghệ thông tin Các ứng dụng thành công bậc điển hình như kết quả tìm kiếm của Google khi đăng nhập và không đăng nhập, tính năng suggestion friends và news stream của Facebook, website bán sách trực tuyến amazon.com, …

Công nghệ thông tin phát triển với những thành tựu vượt bậc Thế giới xuất hiện các trào lưu mạng xã hội, mạng không biên giới, ảo hóa, điện toán đám mây, truyền thông hợp nhất, thương mại điện tử, … Đây là môi trường hoạt động

thuận lợi của các tin tặc (hacker) Chúng tấn công mạng, cài mã độc, liên tục

thích ứng với các biện pháp bảo vệ và đưa ra chiến thuật mới để phá vỡ các quy định về quyền riêng tư và an ninh mạng Nhu cầu bảo mật hệ thống được đặt ra Dựa vào việc phân tích hành vi, số giao dịch bất thường để nhận diện, dự đoán, phòng thủ hữu hiệu

Bài thu hoạch này ngoài việc tìm hiểu chung về Khai mỏ dữ liệu, Bảo mật hệ

thống, còn đi sâu vào tìm hiểu, khám phá và Phân tích ứng dụng của khai mỏ dữ liệu trong bảo mật hệ thống Qua đó thấy được tầm quan trọng, hiệu quả của

công nghệ khai mỏ dữ liệu và ứng dụng chúng trong việc phát hiện xâm nhập, bất thường, lạm dụng, khai thác tính năng trong lĩnh vực bảo mật hệ thống Xin gửi lời cảm ơn chân thành đến GS.TSKH Hoàng Kiếm đã hướng dẫn tận tình các phương pháp nghiên cứu, tiếp cận công nghệ tri thức nói chung và khai

mỏ dữ liệu nói riêng Đồng thời, Thầy cũng chia sẻ những kinh nghiệm, gợi mở, tiếp cận vấn đề đang được quan tâm trong lĩnh vực công nghệ tri thức và ứng dụng của nó trong thực tế

Do bài thu hoạch làm với tư cách cá nhân nên chỉ dừng ở mức nghiên cứu công nghệ và ứng dụng Nghiên cứu chuyên sâu, làm rõ vấn đề, sản phẩm ứng

dụng sẽ được thực hiện tiếp trong chuyên đề “Khai mỏ dữ liệu” Trong quá trình

nghiên cứu đề tài này không tránh khỏi thiếu sót, mong Thầy và các bạn góp ý

để bài thu hoạch hoàn thiện hơn Chân thành cảm ơn Thầy và các bạn !

Trang 7

B NỘI DUNG

I Khai mỏ dữ liệu (Data mining)

1 Giới thiệu

Khai mỏ dữ liệu (data mining) là quá trình tìm kiếm, khai thác, phát hiện các

mối tương quan, quy tắc, mô hình, các mẫu có giá trị tiềm ẩn bên trong khối dữ liệu lớn, kho cơ sở dữ liệu (CSDL) của các đơn vị, doanh nghiệp, tổ chức ở những lĩnh vực quan hệ Ngoài thuật ngữ khai mỏ dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL

(knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu hay mẫu (data/pattern analysis), khảo cổ dữ liệu (data

archaeology), nạo vét dữ liệu (data dredging) Khai mỏ dữ liệu liên quan đến

xác suất thống kê, máy học, trí tuệ nhân tạo, CSDL, thuật toán, tính toán song song, thu nhận tri thức từ hệ chuyên gia và dữ liệu trừu tượng Hiện nay, các hệ quản trị CSDL như SQL server, Oracle đã tích hợp tiện ích khai mỏ dữ liệu chạy

trên hệ thống hiệu năng cao (high performance), sẵn sàng cao (high available), máy khách/máy chủ (client/server), xử lý song song (parallel programming)

Khai mỏ dữ liệu bắt đầu từ các tập hợp dữ liệu để xây dựng một giả thuyết Khai mỏ dữ liệu thực hiện phân tích dữ liệu từ nhiều kích thước, góc độ, phân

loại, thăm dò (exploratory), quan điểm khác nhau; định vị lại việc truyền tải; rồi

đưa ra những thông tin hữu ích hỗ trợ người tìm kiếm, truy xuất dữ liệu theo thời gian thực, đưa ra quyết định đầu tư, dự báo xu hướng phát triển, hành vi tương lai, phân tích thử nghiệm Khai mỏ dữ liệu được ứng dụng nhiều trong tài chính, bán hàng, công nghiệp sản xuất, marketing, y học, viễn thông, thông tin khoa học (thời tiết, bão lụt, động đất), … Các vấn đề quan tâm nổi bật như giá thành, mẫu, cách thức quảng cáo, kỹ năng nhân viên, chính sách kinh tế, nhu cầu thị trường, khuyến mãi, giảm giá, độ hài lòng của khách hàng, lợi nhuận, …

Ngành công nghiệp / Lĩnh vực ứng dụng Phân tích / Khai mỏ dữ liệu năm 2011

(Nguồn http://www.kdnuggets.com/polls/)

[228 người bình bầu] (%) 2011 (trên) (%) 2010 (dưới) CRM/ Phân tích người tiêu dùng (57) 25.0% 26.8%

Trang 8

Đầu tư/ Chứng khoán (10) 4.4% 5.6%

Giải trí/ Ca nhạc/ Tivi/ Điện ảnh (8) 3.3% 3.5%

Trang 9

Khai mỏ dữ liệu là một phần của khám phá tri thức trong CSDL (knowledge

discovery in database) Quá trình khám phá tri thức được cụ thể bằng mô hình

sau:

Hình 1 – Quá trình khám phá tri thức

ü (1): Trích chọn dữ liệu cần khai mỏ từ tập dữ liệu lớn theo quy tắc định trước

do người dùng chỉ ra hoặc truy vấn nhận được

ü (2): Bước đầu xử lý dữ liệu: Nhất quán, lọc nhiễu, rút gọn, rời rạc hóa dữ liệu

ü (3): Biến đổi dữ liệu bằng cách chuẩn hóa, làm mịn dữ liệu

ü (4): Khai mỏ dữ liệu bằng kỹ thuật phân tích nhằm tìm kiếm, phát hiện, trích chọn các mẫu thông tin, mối quan hệ tìm ẩn trong tập dữ liệu

ü (5): Biến đổi, biển diễn dữ liệu trên dạng đồ thị, cây, bảng, … và đánh giá tri thức vừa khai mỏ được theo quan điểm người dùng

2 Các bài toán điển hình

Khai mỏ dữ liệu được ứng dụng rộng rãi vì có thể làm việc với nhiều kiểu dữ liệu khác nhau như dữ liệu quan hệ, dữ liệu đa chiều, dữ liệu chuỗi thời gian, dữ

liệu văn bản, … OLAP (On-Line Analytical Processing) là phương pháp phân

tích dữ liệu đa chiều phổ biến Một số bài toán điển hình về khai mỏ dữ liệu:

- Phát hiện luật kết hợp (Association rules): Việc tìm ra các mối liên hệ giữa các thuộc tính, trường mô tả đối tượng trong tập dữ liệu nhờ tần suất xuất hiện cùng nhau của chúng và xây dựng thành các luật cụ thể Nếu thuật toán xét qua tất cả các liên kết giá trị thuộc tính và thời gian càng dài thì thông tin có độ tương quan càng nhiều và chính xác trong tập các mẫu Đây là dạng biểu diễn tri thức đơn

Trang 10

giản Luật kết hợp bao gồm những giá trị thuộc tính, mức hỗ trợ (%), sự tin cậy (%) theo thuật toán Apriori

Luật kết hợp có dạng: A => B

Cặp thuộc tính giá trị: (Xi,Yj) với i, j = 0, 1, 2, …, n

Luật này thường ứng dụng trong lĩnh vực kinh doanh, y sinh học, tài chính, chứng khoán, bảo mật

Ví dụ, khi kẻ đột nhập có hành vi tấn công phần vật lý (physical) hệ thống thì cũng tấn công phần mạng (network); hoặc người phụ nữ đi siêu thị thì thường mua nước hoa, son phấn

- Mô tả và phân lớp (classification) dữ liệu: Đánh dấu những đối tượng dữ liệu có

đặc trưng, mô hình, chức năng riêng; rồi xếp vào một trong những lớp đã biết trước nhằm đặc trưng hóa và phân biệt dữ liệu Hướng tiếp cận này gọi là học có giám sát, thường sử dụng các kỹ thuật của máy học như cây quyết định, mạng nơron nhân tạo, … Mô tả tập trung vào tìm kiếm các mẫu mà con người có thể hiểu được để mô tả dữ liệu Biểu diễn, ngôn ngữ giả thuyết, ngôn ngữ mô tả khái niệm dùng để xây dựng các mô hình Ví dụ, khi phát hiện sự kiện hoặc quan sát bất thường khi khai mỏ dữ liệu trong bảo mật hệ thống thì phân chúng vào một trong các lớp của mô hình; trong dữ liệu loại tin tặc tấn công, các lớp bị tấn công

bao gồm lớp vật lý (physical), lớp liên kết dữ liệu (data link), lớp mạng (network), lớp vận chuyển (transport), lớp phiên (session), lớp trình bày (presentation), và lớp ứng dụng (application); hoặc trong siêu thị có nhiều mặt

hàng hóa như thực phẩm thức ăn, đồ uống, mỹ phẩm, quần áo, thiết bị, …

Mô hình dựa trên sự phân tích một tập các dữ liệu như nguyên tắc suy diễn (if-then) từ các tập dữ liệu thống kê; cây quyết định: một tập các quyết định biểu diễn dưới dạng cây; phương pháp hàng xóm gần nhất (nearest neighbor): phân loại từng bản ghi, thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có

độ giống nhau nhất trong tập dữ liệu quá khứ, Phương pháp trung bình thông tin lẫn nhau:

Tính hữu ích của thông tin (j) = ∑ ∈{ , }∑ ∈{ } ( , ) ( ( ) ( ), )

Trong đó:

C: Lớp

Trang 11

vj: Giá trị của thuộc tính thứ j

P(vj,C): Tỷ lệ mà thuộc tính thứ j có giá trị vj trong lớp Ci

P(vj): Tỷ lệ mà n-gram thứ j nhận giá trị vj trong dữ liệu mẫu

P(C): Tỷ lệ dữ liệu mẫu thuộc lớp C

- Gom nhóm (Clustering): Gom các đối tượng dữ liệu vào một nhóm Các đối

tượng này có thể tương tự với một đối tượng khác trong cùng nhóm, hoặc không tương tự với các đối tượng trong các nhóm khác

Gom nhóm được xem như một công cụ độc lập để xem xét phân bố dữ liệu,

và bước xử lý tiền đề cho các thuật toán khác Ví dụ: Trong quy hoạch đô thị, nhận dạng các nhóm nhà cửa theo hướng (Bắc, Nam, Đông, Tây, Đông Nam,

…), vị trí, giá, loại nhà (cấp 4, 1 tầng, 2 tầng, biệt thự, …) Trong tiếp thị thì khái phá nhóm khách hàng từ cơ sở dữ liệu mua hàng trước đó (hóa đơn)

- Dự báo: Dùng một số biến hoặc trường trong CSDL để dự đoán ra các giá trị chưa biết hoặc sẽ có của các biến quan trọng khác Hệ thống có thể tự học thông qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kết quả từ tập dữ liệu mà nó khai khác Đó là mục tiêu chính trong mạng nơron, ứng dụng máy học, nhận dạng mẫu Khi dự đoán các giá trị dữ liệu kiểu số, người ta thường dự đoán các giá trị khuyết

- Phân cụm: Khám phá cấu trúc của mẫu dữ liệu, phân tích các đối tượng dữ liệu khi chưa biết nhãn của lớp, nhóm các đối tượng dữ liệu sao cho các đối tượng trong cùng một nhóm thì giống nhau hơn các đối tượng khác nhóm Cụm có cấu trúc phân cấp của các lớp, mỗi lớp là một nhóm các sự kiện tương tự nhau Độ tương tự được xác định dựa vào giá trị thuộc tính mô tả đối tượng hay khoảng cách Số cụm dữ liệu có thể xác định theo kinh nghiệm hoặc tự động theo phương pháp phân cụm

II Bảo mật hệ thống

Nỗ lực bảo vệ kết nối máy tính, người dùng, đối tác, máy chủ web, mail, … với hệ thống mạng ngày càng trở nên quan trọng hơn Bảo mật hệ thống là một lĩnh vực rộng bao gồm nhiều khía cạnh cả về lý thuyết và thực tiễn Nó đóng vai trò quan trọng trong lĩnh vực tài chính, ngân hàng, tình báo, … Phạm vi bảo vệ

Trang 12

gồm mạng, hệ điều hành, ứng dụng, điểm nhạy cảm Bảo mật hệ thống thường kết các yếu tố như bảo mật, tính toàn vẹn và xác thực

Hình 2 – Mô hình hệ thống mạng bảo mật

Kẻ xâm nhập, thăm dò thường hướng đến hệ thống kết nối Internet Các tổ chức đang triển khai hàng loạt các biện pháp để ngăn chăn các cuộc tấn công này Các vấn đề quan tâm của bảo mật hệ thống bao gồm việc phát hiện, đáp ứng, ngăn chặn truy cập trái phép hoặc các cuộc tấn công vào hệ thống mạng của tổ chức, doanh nghiệp từ mạng nội hoặc bên ngoài Hệ thống không bao giờ hoàn hảo, hướng đến sự tự tin cao đối với hệ thống đã xây dựng Thiết kế hệ thống không chỉ sử dụng cơ chế bảo vệ nội dung, di chuyển người dùng (bằng khóa) khi có hành vi vi phạm chính sách an ninh mà còn phải phát hiện khi vi phạm xảy ra (IDS dựa trên các chữ ký tĩnh của các cuộc tấn công để tách ra khỏi lưu lượng mạng) và đáp ứng (giảm nhẹ, phân tích, phục hồi, cải thiện) hành vi vi phạm này Phản ứng này thường bao gồm phân tích lý do tại sao các cơ chế bảo

vệ không thành công và cải thiện chúng để ngăn chặn lỗi trong tương lai

Trang 13

Hình 3 – Chu kỳ bảo mật

Mô hình hệ thống thông thường được xây dựng trên cơ sở phân tán, cho phép lưu trữ và tính toán song song, khả năng chịu lỗi cao Chính sách an ninh không tốt thường để lộ những lỗ hổng bảo mật phổ biến từ mạng nội bộ, mạng không dây, CSDL, thỏa hiệp xác thực (giả mạo) Để đảm bảo thông tin, các thuộc tính bảo mật như thông tin giữ bí mật (nhận thực, mã hóa), toàn vẹn (so sánh với dữ liệu trước), sẵn sàng (chống từ chối dịch vụ DoS, tải hệ thống, bổ sung dung lượng) ở những thời điểm di chuyển (bảo vệ, khóa vật lý), lưu trữ (mã hóa, phân

bố riêng), xử lý (không gian bộ nhớ); đào tạo người dùng đầu cuối (gửi, nhận, đính kèm với mail; mạng xã hội)

Kẻ tấn công tìm mọi cách thỏa hiệp với hệ thống để thực hiện những hành vi gây tổn hại đến hệ thống, lợi ích doanh nghiệp, tổ chức Để xâm nhập vào hệ thống, kẻ tấn công có thể lợi dụng công nhân xây dựng nơi đặt hệ thống (vật lý), chủ quan của người dùng (không dùng chính sách bảo mật), tác nhân trung gian (virus, trojan, worm), … Họ có thể có quyền truy cập tài liệu mã hóa hay đặt mật khẩu, lưu lượng mạng Trường hợp này có thể “đánh hơi” những mật khẩu không được mã hóa và rời khỏi mạng Một dạng tấn công khác, xâm nhập vật lý

để đặt thiết bị để đoạt khóa mã hóa

III Khai mỏ dữ liệu trong bảo mật hệ thống

Nhiều vấn đề khai mỏ dữ liệu cổ điển áp dụng trong lĩnh vực bảo mật hệ thống

ở giai đoạn phát hiện của chu kỳ bảo mật hệ thống như lựa chọn, xây dựng, học tập gia tăng hoặc học qua mạng, nhiễu trong tập dữ liệu, phân phối dữ liệu sai lệch, khai thác phân phối Kỹ thuật khai mỏ dữ liệu hữu ích trong việc xác định

mô hình hoạt động, hành vi đề nghị bạn hay thù Phiên phát hiện sử dụng sai

Ngày đăng: 10/04/2015, 15:20

HÌNH ẢNH LIÊN QUAN

Hình 1 – Quá trình khám phá tri thức - Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security
Hình 1 – Quá trình khám phá tri thức (Trang 9)
Hình 2 – Mô hình hệ thống mạng bảo mật - Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security
Hình 2 – Mô hình hệ thống mạng bảo mật (Trang 12)
Hình 3 – Chu kỳ bảo mật - Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security
Hình 3 – Chu kỳ bảo mật (Trang 13)
Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng - Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security
Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng (Trang 14)
Hình 5 – Phân cấp bộ tạo - Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security
Hình 5 – Phân cấp bộ tạo (Trang 19)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w