Fault analysis and search on cloud and inter cloud systems

Tóm tắt nội dungQuản lý lỗi cho hệ thống thông tin và truyền thông là vấn đề thách thứcdo sự gia tăng độ phức tạp, đa dạng và qui mô của các hệ thống ngày nay.Đặc biệt, các hệ thống tính

Trang 1

Tóm tắt nội dungQuản lý lỗi cho hệ thống thông tin và truyền thông là vấn đề thách thức

do sự gia tăng độ phức tạp, đa dạng và qui mô của các hệ thống ngày nay.Đặc biệt, các hệ thống tính toán đám mây sử dụng công nghệ ảo hóa và phântán để xây dựng các cụm máy ảo kết nối số lượng lớn máy ảo nhằm giảiquyết các bài toán tính toán và lưu trữ trên cơ sở dữ liệu cực lớn Còn nữa,các hệ thống liên kết tính toán đám mây hỗ trợ các ứng dụng và dịch vụ vậnhành trên các hệ thống tính toán đám mây khác nhau Báo cáo này tập trungnghiên cứu, đề xuất và thử nghiệm giải pháp giám sát và kiểm tra sự kiện chocác hệ thống này Giải pháp giám sát cải tiến và áp dụng phương pháp lọc sựkiện theo ngữ nghĩa thích nghi dữ liệu (ASF-BDT) để lọc sự kiện cảnh báo

từ hệ thống giám sát Giải pháp kiểm tra áp dụng phương pháp cây phân loại

và truy hồi (CART) để đánh giá các sự kiện sau khi lọc Báo cáo cũng baogồm thiết kế kiến trúc hệ thống cho phép vận hành với hệ thống liên kết tínhtoán đám mây và các thử nghiệm giải pháp trên tập dữ liệu sự kiện và lỗi thuthập từ thực tế Kết quả thử nghiệm cho thấy tính khả thi của hệ thống và cácgiải pháp có hiệu quả tốt

Từ khóa: giám sát sự kiện, giám sát lỗi, lọc ngữ nghĩa, cây dự đoán, phântích lỗi, tính toán đám mây

Trang 2

Mục lục

1.1 Trình tự báo cáo 8

2 Mô hình tính toán đám mây 9 2.1 Nền tảng tính toán đám mây 11

2.1.1 Eucalyptus 11

2.1.2 OpenNebula 11

2.1.3 Nimbus 11

2.1.4 Xen Cloud Platform 11

2.1.5 OpenStack 11

2.2 Quản lý lỗi và công cụ 12

2.2.1 Swatch 12

2.2.2 LogSurfer 12

2.2.3 Sec 13

2.2.4 Ossec 13

2.2.5 Ganglia 13

2.2.6 Nagios 13

2.2.7 Collectd 14

2.2.8 Splunk 14

2.2.9 Savanna 14

3 Phương pháp phân tích lỗi 15 3.1 Giám sát và thu thập sự kiện 15

3.2 Phương pháp phân tích sự kiện 16

4 Đề xuất giải pháp 17 4.1 Kiến trúc hệ thống 17

4.2 Lọc sự kiện 18

4.2.1 Lọc theo thuộc tính 19

Trang 3

4.2.2 Lọc theo ngữ nghĩa 20

4.2.3 Ngưỡng giới hạn động 21

4.3 Phát hiện lỗi 21

4.3.1 Luật chia theo entropy 22

4.3.2 Tiến trình phát triển cây 22

Trang 4

Danh sách hình vẽ

1 Kiến trúc chung của mô hình tính toán đám mây 9

2 Kiến trúc hệ thống liên kết tính toán đám mây tích hợp giải phápgiám sát và phát hiện lỗi 18

3 Giao tiếp các thành phần của hệ thống giám sát và phát hiện lỗi 19

4 Giải pháp lọc ngữ nghĩa thích nghi cho các sự kiện liên quan 20

5 Tiến trình phát triển cây quyết định CART 23

6 Cây phân loại và truy hồi CART mẫu 24

7 Thu thập dữ liệu sự kiện khác nhau trong khoảng thời gian 6 ngày 25

8 Số lượng sự kiện thu được tương ứng các khoảng giá trị Φ khácnhau của giải pháp ASF và ASF-BDT đối với các giá trị ngưỡngkhác nhau (bên trái) Thời gian thực thi của giải pháp ASF-BDTvới khoảng giá trị 0.6< Φ <0.8 đối với các giá trị ngưỡng khácnhau (bên phải) 26

9 So sánh giá trị cross-validation cho tập dữ liệu All (bên trái) vàWin (bên phải) với 2 trường hợp bổ sung và không bổ sung dữliệu thiếu 27

10 So sánh độ chính xác của thử nghiệm trên tập dữ liệu All và Win(bên trái) và toàn bộ tập dữ liệu (bên phải) 29

Trang 5

Danh sách bảng

1 Bảng so sánh các nền tảng tính toán đám mây 12

2 Bảng quan hệ của vector nhị phân X và Y 21

Trang 6

Danh sách từ viết tắt

ASF Lọc ngữ nghĩa thích nghi

BTS Hệ thống lưu trữ lỗi

CART Cây truy hồi và phân loại

FC Thành phần kiểm tra lỗi

FD Thành phần cơ sở dữ liệu lỗi

FM Hệ thống quản lý lỗi

FR Thành phần giám sát lỗi

P2P Mạng chia xẻ ngang hàng

Trang 7

1 Giới thiệu

Sự cải tiến về tốc độ đường truyền Internet trong những năm vừa qua không chỉtạo điều kiện thuận lợi cho sự phát triển các ứng dụng đòi hỏi băng thông cao nhưtruyền hình, điện thoại qua Internet, v.v, mà còn là nền tảng các mô hình tính toánphân bố như mô hình tính toán lưới, nhóm, v.v Mô hình tính toán đám mây là sựkết hợp của tính toán phân bố và công nghệ ảo nhằm cung cấp dịch vụ cho ngườidùng, như là cơ sở hạ tầng công nghệ thông tin, cụm máy tính ảo, và hệ thốngphần mềm, trên nền tảng Internet Các hệ thống tính toán đám mây bao gồm một

số lượng lớn máy chủ thường được quản lí tập trung nhằm giảm chi phí quản lí vàvận hành Các hệ thống này cần một đội ngũ quản trị hệ thống có trình độ cao vàcác hệ thống hỗ trợ nhằm bảo đảm sự vận hành liên tục và hiệu quả của hệ thống.Phân tích và xử lí lỗi trên hệ thống tính toán đám mây và hệ thống liên kết tínhtoán đám mây là một vấn đề thách thức ngày nay do tính phức tạp, đa dạng và mởrộng ngày càng tăng của các hệ thống phân bố và mạng truyền thông này Nhómnghiên cứu của Buyya [1] giải thích rằng hệ thống liên kết tính toán đám mây hỗtrợ các dịch vụ và ứng dụng chạy xuyên suốt trên nhiều hệ thống tính toán đámmây khác nhau Nhóm nghiên cứu của Armbrust [2] cũng chỉ ra 10 trở ngại lớnnhất trong vấn đề xây dựng hệ thống tính toán đám mây Nhiều trở ngại liên quanđến quản lí lỗi hệ thống và mạng, như là xử lí lỗi trong hệ thống phân bố khổng

lồ, vấn đề hiệu suất không dự đoán trước, vấn đề dịch vụ không sẵn sàng

1.1 Trình tự báo cáo

Phần 2 giới thiệu tóm tắt về mô hình tính toán đám mây, mô hình liên kết tính toánđám mây đồng thời tập trung vào một số nền tảng phổ biến, vấn đề quản lý lỗi vàcông cụ Phần 3 mô tả các phương pháp phân tích lỗi bao gồm phương pháp giámsát, thu thập và phân tích sự kiện đã được nghiên cứu và áp dụng Phần 4 đề xuấtkiến trúc hệ thống phân tích và tìm kiếm lỗi cho hệ thống tính toán đám mây vàliên kết tính toán đám mây Hệ thống này cũng bao gồm 2 giải pháp lọc sự kiện

và phát hiện lỗi được cải tiến từ giải pháp ASF và CART sẵn có Phần 5 trình bàykết quả thử nghiệm các thành phần chính của hệ thống đề xuất ở trên với các phântích và đánh giá chi tiết trước khi báo cáo kết thúc trong Phần 6

Trang 8

2 Mô hình tính toán đám mây

Mô hình tính toán đám mây xuất hiện trong cộng đồng công nghệ thông tin(CNTT) vào cuối năm 2007 khi IBM và Google công bố việc hợp tác trong lĩnhvực này Cùng với sự phát triển mạnh mẽ của mô hình này hiện nay, các nhànghiên cứu trong cùng lĩnh vực đưa ra nhiều định nghĩa cho mô hình tính toánđám mây [1, 2, 3, 4] Các định nghĩa đều thống nhất ở một vài điểm: mô hình tínhtoán đám mây là mô hình tính toán phân bố được xây dựng trên nền tảng côngnghệ máy ảo nhằm cung cấp tài nguyên tính toán như là phần cứng máy tính, hệđiều hành, phần mềm máy tính, dưới dạng các dịch vụ vận hành trên nền tảngInternet

Primergy

Primergy Primergy

Primergy

Primergy Primergy

Primergy

Software

Storage Platform Infrastructure

Physical Resources Virtual Machines / Clusters

Services Users / Service Providers

Hình 1: Kiến trúc chung của mô hình tính toán đám mây

Hình 1 mô tả kiến trúc chung của mô hình tính toán đám mây Kiến trúc nàygồm 3 thành phần chính:

• Tài nguyên tính toán vật lý bao gồm tài nguyên bộ nhớ, máy tính được kếtnối mạng và được phân chia thành các mạng ảo cục bộ sử dụng cho các mụcđích khác nhau như là một mạng ảo cục bộ sử dụng cho tính toán sẽ cài đặt

hệ điều hành và phần mềm tính toán chuyên dụng, trong khi đó một mạng

Trang 9

ảo cục bộ khác sử dụng cho dịch vụ ứng dụng sẽ cài đặt các phần mềm ứngdụng và không quan tâm nhiều đến hệ điều hành.

• Máy ảo và cụm máy ảo xây dựng trên tài nguyên tính toán vật lý nhằm cungcấp tài nguyên tính toán ảo cho các dịch vụ với các thuộc tính đồng nhất,trong suốt, linh hoạt và co giãn cao Hệ thống quản lí máy ảo có nhiệm vụtạo ra các tài nguyên tính toán ảo với độ tin cậy và an toàn cao Hệ thống nàylàm việc hiệu quả đòi hỏi việc tối ưu hoá phân chia và sắp xếp tài nguyên

• Các dịch vụ ứng dụng được phát triển bởi các người cung cấp dịch vụ xâydựng trên các máy ảo và cụm máy ảo cho phép người sử dụng dịch vụ truycập dễ dàng Hệ thống quản lí dịch vụ có nhiệm vụ tiếp nhận các yêu cầu vềdịch vụ đồng thời giao tiếp với hệ thống quản lí máy ảo để đáp ứng các yêucầu này một cách tốt nhất Ví dụ như yêu cầu mở rộng hoặc thu hẹp việc sửdụng cụm máy ảo do nhu cầu dịch vụ tăng hoặc giảm, yêu cầu chi phí sửdụng dịch vụ,

Đặc điểm nổi bật của mô hình này là khả năng cung cấp các dịch vụ là các ứngdụng có tính thông dụng cao hay cung cấp cơ sở hạ tầng CNTT theo yêu cầu đặcthù của đơn vị ứng dụng CNTT Cụ thể, các đặc điểm nổi bật bao gồm [5]:

• Dịch vụ tự động theo yêu cầu: người sử dụng dịch vụ tự động đăng kí và sửdụng dịch vụ như là lưu trữ dữ liệu hoặc thuê máy chủ mà ít cần có sự canthiệp của người cung cấp dịch vụ

• Truy cập dịch vụ linh hoạt: việc sử dụng dịch vụ hoặc cung cấp dịch vụ trởnên dễ dàng và nhanh chóng nhờ các thiết bị đầu cuối khác nhau có khảnăng truy cập Internet như là điện thoại di động, máy tính xách tay,

• Tài nguyên tính toán đa dạng: ví dụ về tài nguyên bao gồm máy ảo, bộ nhớ,khả năng lưu trữ, khả năng tính toán và xử lí, Các tài nguyên này đượcquản lí một cách linh hoạt, cho phép người sử dụng dịch vụ mở rộng hoặcthu hẹp nhu cầu sử dụng tài nguyên

• Độ co giãn của dịch vụ cao: khả năng cung cấp nhanh chóng và tự động đápứng yêu cầu sử dụng dịch vụ tại bất kì thời điểm nào với bất kì yêu cầu tàinguyên nào

• Quản lí tài nguyên hiệu quả: việc sử dụng tài nguyên được giám sát và tối

ưu nhờ khả năng đo đạc chính xác việc sử dụng từng loại dịch vụ

Trang 10

2.1 Nền tảng tính toán đám mây

2.1.1 Eucalyptus

Eucalyptus [6] là phần mềm mã nguồn mở cho phép xây dựng hệ thống tính toánđám mây Eucalyptus cung cấp các dịch vụ cơ sở hạ tầng, nền tảng tính toán vàphần mềm ứng dụng dựa trên công nghệ ảo hóa tài nguyên phần cứng thành cáccụm máy ảo kết nối Phần mềm này cũng cung cấp giao diện lập trình cho phépkết hợp và sử dụng các dịch vụ tính toán đám mây của Amazon [7]

2.1.2 OpenNebula

OpenNebula [8] là bộ công cụ mã nguồn mở cho phép xây dựng hệ thống tính toánđám mây OpenNebula kết hợp các công nghệ về lưu trữ, mạng, ảo hóa và bảo mật

để triển khai các dịch vụ trên cơ sở hạ tầng phân tán các máy ảo Bộ công cụ này

có nhiều ưu điểm nổi bật về cung cấp tài nguyên cho trung tâm tích hợp dữ liệu vàtính toán hiệu năng cao với cấp độ cao về tiêu chuẩn và liên vận hành với các nềntảng ảo hóa như Xen [9], KVM [10], VMWare [11] và VirtualBox [12]

2.1.3 Nimbus

Nimbus [13] là bộ công cụ mã nguồn mở cung cấp cơ sở hạ tầng thông qua dịch

vụ tính toán đám mây với độ linh hoạt và hiệu quả cao cho người dùng trong cáclĩnh vực nghiên cứu khoa học Nimbus hỗ trợ nền tảng ảo hóa như là Xen, KVM,etc., đồng thời cho phép triển khai hệ thống cụm máy ảo tự cấu hình Nimbus kếthợp các dịch vụ tính toán đám mây khác như OpenStack [14] và Amazon [7]2.1.4 Xen Cloud Platform

Xen Cloud Platform [15] là giải pháp mã nguồn mở sử dụng ảo hóa để cung cấpdịch vụ ảo hóa và tính toán đám mây Giải pháp này sử dụng Xen Hypervisor hỗtrợ các dịch vụ lưu trữ, tính toán và công cụ quản lý hệ thống mạng Điểm nổi bậtcủa Xen Cloud Platform là tối ưu sử dụng tài nguyên, phân tải hợp lý trên máychủ, cho phép tiết kiệm điện năng và vì vậy giảm thiểu chi phí

2.1.5 OpenStack

OpenStack [14] là phần mềm mã nguồn mở hỗ trợ xây dựng hệ thống tính toánđám mây OpenStack bao gồm 1 nhóm các dự án liên quan đến quản lý tài nguyên

Trang 11

xử lý, lưu trữ và mạng tại các trung tâm tích hợp dữ liệu Các dự án chính bao gồm:OpenStack Compute dùng triển khai việc quản lý và chỉ định tài nguyên cho máyảo; OpenStack Object Storage dùng thực hiện việc lưu trữ; và OpenStack ImageService đảm nhận việc đăng ký và truyền tải dịch vụ cho các đĩa ảo.

Bảng 1: Bảng so sánh các nền tảng tính toán đám mây

2.2.2 LogSurfer

LogSurfer [17] là công cụ giám sát sự kiện dựa trên Swatch nhưng được phát triểnbằng ngôn ngữ lập trình C nhằm đáp ứng yêu cầu xử lý số lượng lớn thông báo.LogSurfer hoạt động tương đối giống với Swatch sử dụng so trùng biểu thức chínhqui và thực thi hành động đáp ứng, đồng thời bao gồm một số tính năng mới, như

là gom nhóm các thông báo liên quan phục vụ liên kết sự kiện

Trang 12

2.2.3 Sec

Sec [18] là một công cụ liên kết sự kiện Tương tự như Swatch và LogSurfer, SECcho phép đặc tả những luật để phù hợp với sự kiện đầu vào theo từng dòng thôngbáo và thực thi hành động tương ứng Bên cạnh việc sử dụng biểu thức chính qui,các chương trình con có thể được tùy chỉnh để phù hợp với những dòng dữ liệuđầu vào, hoặc đánh giá các điều kiện Một hành động cụ thể có thể là việc tạo rathông báo sự kiện, lưu trữ sự kiện, hay gọi một chương trình khác Thêm nữa, Seccũng cho phép việc tạo ra các sự kiện tổng hợp và ngữ cảnh linh động

2.2.4 Ossec

Ossec [19] là hệ thống mã nguồn mở dùng để phát hiện sự xâm phạm dựa trênmáy chủ, bao gồm một ứng dụng chính, một ứng dụng nền cho các hệ điều hànhWindows và một giao diện người dùng dựa trên nền tảng web Các chức năngchính của Ossec là kiểm tra toàn vẹn thông tin lưu trữ, giám sát sự kiện, phát hiệnchương trình bất hợp pháp và đáp ứng linh hoạt Ossec hỗ trợ một số lượng lớn

hệ điều hành và có thể phân tích sự kiện từ nhiều thiết bị và chương trình khácnhau, như các bộ định tuyến Cisco, máy chủ thư điện tử Microsoft, OpenSSH hayNMAP3

2.2.5 Ganglia

Ganglia [20] là phần mềm mã nguồn mở giám sát phân bố có khả năng mở rộngdành cho hệ thống tính toán hiệu năng cao, như các hệ thống tính toán cụm vàlưới Ganglia có thiết kế phân cấp hướng đến việc giám sát hệ thống tính toán cụmqui mô lớn Phần mềm này sử dụng giao thức lắng nghe/thông báo trên nền tảngtruyền thông tin đa hướng để giám sát trạng thái của các cụm, đồng thời sử dụngmột cây kết nối điềm-điểm giữa các nút đại diện cho cụm nhằm liên kết và hợp táccác cụm

2.2.6 Nagios

Nagios [21] là phần mềm giám sát mã nguồn mở Trong khi Ganglia tập trungnhiều vào giám sát và thu thập dữ liệu sự kiến, Nagios tập trung vào hoạt độnggiám sát và cảnh báo cho máy chủ, ứng dụng và thiết bị mạng

Trang 13

2.2.7 Collectd

Collectd [22] là một chương trình nền thu thập dữ liệu thống kê hiệu suất của hệthống theo định kì và cung cấp những cơ chế lưu trữ dữ liệu bằng nhiều cách khácnhau, ví dụ như dữ liệu định dạng RDD (Round Robin Database)

2.2.8 Splunk

Splunk [23] là một giải pháp thương mại phân tích dữ liệu máy để khai thác thôngtin giá trị Dữ liệu máy được tạo ra bởi các trang web, các ứng dụng, máy chủ,mạng, các thiết bị di động, v.v Splunk tiếp thu dữ liệu máy và cho phép ngườidùng tìm kiếm và trực quan hóa dữ liệu phục vụ giám sát và phân tích dữ liệutruyền thông và giao dịch trên mạng Splunkstorm là một dịch vụ dựa trên nềntảng đám mây của Splunk

2.2.9 Savanna

Savanna [24] là dự án này vừa được khởi xướng gần đây bởi Mirantis Mục đíchcủa Savanna là kết hợp với nền tảng tính toán đám mây OpenStack cho phép ngườidùng cung cấp và quản lý các cụm tính toán phân bố Hadoop trên OpenStack mộtcách dễ dàng và hiệu quả

Trang 14

3 Phương pháp phân tích lỗi

3.1 Giám sát và thu thập sự kiện

Nhóm tác giả của nghiên cứu [25] xem xét vấn đề lỗi xảy ra đối với 1 nhóm máytính nối mạng khổng lồ bao gồm trên 400 máy tính trong khoảng thời gian hơn 1năm rưỡi Trong nghiên cứu này, nhóm tác giả sử dụng ngưỡng thời gian để lọcnhững sự kiện cảnh báo thừa

Nghiên cứu của nhóm tác giả Liang [26] đề xuất phương pháp lọc theo ngữnghĩa thích nghi dữ liệu để xử lý sự kiện lỗi Phương pháp này trình bày 1 giảipháp hữu hiệu để loại bỏ sự kiện thừa trong dữ liệu ghi nhận Đặc biệt, nghiên cứunày cũng so sánh phương pháp đề xuất với các nghiên cứu trước về việc lọc theothời gian và không gian (phương pháp STF) [27] nhằm lọc sự kiện thu thập từ siêumáy tính Blue Gene/L với 8192 bộ xử lý STF là một trong những công cụ lọc đầutiên giải quyết vấn đề dữ liệu lỗi khổng lồ

Tác giả của nghiên cứu [28, 29] đề xuất cách tiếp cận có thể giám sát các sựkiện đồng thời ghi lại dữ liệu Nghiên cứu đã thu thập 1 số lượng lớn dữ liệu baogồm hơn 2 triệu sự kiện từ hệ thống với 193 bộ xử lý Nghiên cứu cũng đã kết luậnrằng dữ liệu với chất lượng kém làm ảnh hưởng tính chính xác của kết quả và dữliệu thiếu chi tiết cần thiết, ví dụ giám sát lỗi thất bại

Phương pháp được phát triển bởi nhóm tác giả Tsao [30] ghi nhận và sắp xếp

dữ liệu sự kiện vào 1 cấu trúc phân cấp nhằm tối ưu lưu trữ dữ liệu Thu thập vàlọc sự kiện được nghiên cứu trên những hệ thống nhỏ thay vì những hệ thống đòihỏi hàng ngàn bộ xử lý

Nhóm tác giả Lin và Siewiorek [31] phát hiện dữ liệu lỗi thường xảy ra trongnhiều tiến trình dẫn đến việc bắt buộc phải thu thập dữ liệu trong nhiều khoảngthời gian khác nhau

Nghiên cứu của Tang [32, 33] sử dụng mô hình tính toán bán Markov trên 7máy và 4 hệ thống điều khiển chỉ ra rằng sự phân bố dữ liệu lỗi có khả năng có sựtương quan hơn là độc lập Hơn nữa, trong nghiên cứu [34], nhóm tác giả chứngminh rằng những lỗi xảy ra có khuynh hướng liên quan, đồng thời họ đã nghiêncứu sự ảnh hưởng của lỗi liên quan đến hệ thống

Trong nghiên cứu [35], nhóm tác giả cũng đã chứng minh rằng lỗi của hệ thốngthường xuyên xảy ra trên các thành phần khác nhau của hệ thống phân tán với 503

bộ xử lý

Trang 15

3.2 Phương pháp phân tích sự kiện

Cây hồi qui và phân loại (CART) [36] đề xuất bởi nhóm tác giả Breiman được sửdụng rộng rãi trong lĩnh vực khai phá dữ liệu Có 2 loại cây truy hồi và cây phânloại Cây phân loại cho phép dự đoán kết quả thuộc về 1 trong các lớp phân loạicủa dữ liệu đầu vào, ví dụ như dự đoán thời tiết hôm nay là nắng, mưa hay gió.Cây hồi qui dự đoán kết quả có thể là 1 số thực, ví dụ như dự đoán nhiệt độ trungbình ngày hôm nay là 25.3, 27.5 hay 29.7 độ C Các cây hồi qui và phân loại cónhiều điểm giống nhau và cũng có những điểm khác biệt, ví dụ như phương phápđược dùng để xác định vị trí rẽ nhánh khi xây dựng cây Có nhiều biến thể của giảithuật xây dựng cây quyết định

ID3 (Iterative Dichotomiser 3) [37] được phát triển năm 1986 bởi J R lan Giải thuật này tạo ra cây đa cấp cho phép tìm kiếm thuộc tính phân loại chomỗi nút của cây sử dụng phương pháp vét cạn Các thuộc tính này mang lại lơi íchthông tin lớn nhất cho các mục tiêu phân loại Cây được phát triển đến kích thướccực đại sử dụng dữ liệu có sẵn sau đó được áp dụng để đánh giá dữ liệu mới hoàntoàn

Quin-Giải thuật C4.5 [38] là giải thuật mở rộng của giải thuật ID3 nhằm chuyển câyđược xây dựng từ giải thuật ID3 thành tập hợp các luật nếu-thì Đánh giá độ chínhxác của các luật xác định thứ tự các luật được sử dụng Thay vì tìm kiếm các thuộctính phân loại, giải thuật này sử dụng biến kiểu số để định nghĩa 1 thuộc tính rờirạc đồng thời chia các giá trị của thuộc tính liên tục thành 1 tập hợp rời rạc cácphân đoạn

CHAID (Chi-squared automatic interaction detector) [39] sử dụng rẽ nhánh đacấp để xây dựng cây phân loại Giải thuật này tập trung vào các dự đoán và mụctiêu phân loại Đầu tiên giải thuật này tính toán chi-square giữa biến mục tiêu vàmỗi dự đoán có sẵn, sau đó sử dụng dự đoán tốt nhất để chia dữ liệu mẫu thànhcác phần nhỏ hơn Quá trình này lặp lại cho các phần cho đến khi không còn rẽnhánh Có nhiều sự khác biệt giữa 2 giải thuật CHAID và CART: (1) CHAID sửdụng phép đo chi-square để nhân dạng các rẽ nhánh, trong khi CART sử dụng luậtGini và Entropy; (2) CHAID hỗ trợ rẽ nhánh đa cấp cho các dự đoán với nhiềuhơn 2 cấp, trong khi CART chỉ hỗ trợ rẽ nhánh nhị phân và nhân dạng rẽ nhánhnhị phân tốt nhất đối với dự đoán liên tục hoặc dự đoán phân loại phức tạp; (3)CHAID không loại bỏ nhánh cây, trong khi CART loại bỏ nhánh cây bằng cáchkiểm tra đối chiếu tập dữ liệu độc lập hoặc kiểm tra chéo tập dữ liệu

Trang 16

4 Đề xuất giải pháp

Hệ thống giám sát mạng trong quá trình vận hành ghi lại các thông báo lỗi, cảnhbáo, thông tin, v.v đồng thời gửi thông báo cho người quản trị hệ thống Ngườiquản trị thường xuyên kiểm tra và tìm hiểu các thông báo để chắc chắn hệ thốnghoạt động ổn định Tuy nhiên, số lượng thông báo rất lớn gây khó khăn trong việcphát hiện lỗi thực sự tiềm tàng và người quản trị dễ dàng bỏ qua Giải pháp đềxuất tập trung vào 2 bước: (i) sử dụng phương pháp lọc ngữ nghĩa thích nghi vớingưỡng động phù hợp với dữ liệu lọc thông báo nhằm giảm số lượng đáng kểthông báo không cần thiết; (ii) sử dụng cây quyết định được xây dựng từ dữ liệulỗi trong quá khứ để đánh giá thông báo lỗi tiềm năng Người quản trị căn cứ vàođánh giá này để quyết định tìm hiểu thông báo và ghi nhận lỗi nếu tồn tại

4.1 Kiến trúc hệ thống

Kiến trúc hệ thống đề xuất được mô tả trong Hình 2 dựa trên mạng chia xẻ nganghàng với các đặc điểm nổi bật về khả năng tự quản trị, khả năng mở rộng kiếntrúc và hiệu quả trong phân phối dữ liệu trong môi trường phân bố Chia xẻ vàtìm kiếm trong mạng chia xẻ ngang hàng rất hiệu quả do câu truy vấn có thể được

xử lý bởi 1 nhóm các máy ngang hàng trên cơ sở dữ liệu phân loại, vì vậy tránhchi phí tính toán cao so với sử dụng những máy chủ tập trung Trong mô hình liênkết đám mây, chúng tôi đề xuất hệ thống quản lý lỗi (fault manager hay FM) chomỗi hệ thống tính toán đám mây FM bao gồm các thành phần giám sát lỗi (faultmonitor hay FR), kiểm tra lỗi (fault checker hay FC) và cơ sở dữ liệu lỗi (faultdatabase hay FD)

FR sử dụng các công cụ giám sát, như là Ganglia [20], Nagios [21] và log [40], để giám sát nhiều thông số về dịch vụ, hệ thống, mạng, v.v, và thu thậpcác thông báo từ hệ thống tính toán đám mây, đồng thời lọc thông báo không quantrọng nhằm giảm số lượng thông báo FR gửi các thông báo quan trọng đến ngườiquản trị và thành phần kiểm tra lỗi FC hoạt động dựa trên cơ sở dữ liệu lỗi có sẵn

Rsys-để tìm kiếm dữ liệu lỗi tương tự phục vụ đánh giá và phát hiện lỗi FC bao gồm 1động cơ máy học cho phép học từ dữ liệu lỗi từ trước, xây dựng thành cây quyếtđịnh và sau đó dùng cây quyết định để đánh giá các thông báo lỗi FD là thànhphần cơ sở dữ liệu thường xuyên cập nhật dữ liệu lỗi từ hệ thống thu nhận lỗi trựctuyến, diễn đàn, kho lưu trữ trực tuyến, v.v FM có khả năng hoạt động độc lậptrên 1 hệ thống tính toán đám mây hoặc liên kết với các FM trên các hệ thống đámmây khác nhằm nâng cao số lượng dữ liệu lỗi và năng lực sử dụng dữ liệu lỗi trên

Trang 17

Hình 2: Kiến trúc hệ thống liên kết tính toán đám mây tích hợp giải pháp giám sát

và phát hiện lỗi

toàn hệ thống Các nghiên cứu trước đây của cùng nhóm tác giả [41, 42, 43, 44]

đã đề xuất giải pháp tìm kiếm và xử lý lỗi dựa trên lý luận theo trường hợp cho

hệ thống phân bố và mạng truyền thông Một số giải pháp của hệ thống này ápdụng trong hệ thống này ví dụ mạng chia xẻ ngang hàng, trong khi đó hệ thốngnày không tập trung vào lý luận theo trường hợp mà sử dụng phương pháp lọc sựkiện và đánh giá lỗi dựa trên cây quyết định Hình 3 mô tả giao tiếp giữa các thànhphần của hệ thống đánh giá và phát hiện lỗi

4.2 Lọc sự kiện

Nhóm nghiên cứu của Tran đề xuất giải pháp ASF-BDT để liên kết các sự kiện.Giải pháp ASF nguyên thủy bao gồm nhiều phương pháp lọc và tính toán hệ sốPhi, như mô tả trong Hình 4 Giải pháp này lấy dữ liệu sự kiện, xử lý với cácphương pháp lọc đơn giản và phức tạp và cuối cùng trả về tập dữ liệu các sự kiện

có liên quan Dữ liệu sự kiện thường rất lớn và bao gồm sự kiện trùng lắp Mộtgiải pháp ASF hiệu quả cần loại bỏ những sự kiên trùng lắp với thời gian xử lýthấp nhất

Định dạng
Số trang	34
Dung lượng	737,42 KB