1. Trang chủ
  2. » Công Nghệ Thông Tin

TÌM HIỂU VỀ CÂY QUYẾT ĐỊNH TRONG HỆ TRỢ GIÚP QUYẾT ĐỊNH

14 295 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 529,06 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong lý thuyết quyết định một cây quyết đinh là một đồ thị các quyết định và các hậu quả của nó. Cây quyết định là cấu trúc biểu diễn dưới dạng cây trong đó mỗi nút biểu diễn một thuộc tính, nhánh biểu diễn giá trị có thể của thuộc tính, mỗi lá biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc....

Trang 1

Mục Lục Trang

I TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH 2

1.Giới thiệu chung

2.Các kiểu cây quyết định 3 3.Ví dụ về cây quyết định

4.Ưu điểm của cây quyết định 6

II CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH 7

1 Gới thiệu chung

2 Suy diễn trên cây quyết định 9

III.Kết Luận 13

Trang 2

Nội Dung

I.TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH

1.Giới thiệu chung

Trong lý thuyết quyết định, một cây quyết định là một đồ thị  của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên)

Cây quyết định là cấu trúc biểu diển dưới dạng cây Trong đó, mỗi nút trong biểu diễn một thuộc tính, nhánh có thể biểu diễn giá trị có thể có của thuộc tính, mỗi lá biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc Cây quyết định được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá Trên cơ sở phân lớp này chúng ta có thể chuyển đổi các luật về cây

quyết định

Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Các cây quyết định được dùng để hỗ trợ đưa ra quyết định Cây quyết định là một dạng đặc biệt của cấu trúc cây

Tạo ra cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự đoán Cây quyết định được tạo thành bằng cách lần lượt chia một tập dữ liệu thành các tập dữ liệu con, mỗi tập dữ liệu con được tạo thành chủ yếu từ các phần tử của cùng một lớp Lựa chọn thuộc tính

để tạo nhánh thông qua Entropy và Gain

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu, khi đó cây quyết định mô tả cấu trúc cây, trong đó, các

lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của

thuộc tính dẫn tới phân loại đó Một cây quyết định có thể được học

Trang 3

bằng cách chia tập hợp nguồn thành các tập con dựa thó một kiểm tra giá trị thuộc tính Qúa trình này được lặp đi lặp lại một cách đệ quy cho mỗi tập con dẫn xuất, quá trình đệ quy hoàn thành khi không thể tiếp tục việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất

Cây quyết định có thể được mô tả như là sự kết hợp của các kĩ thuật tính toán và toán học nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước

Dữ liệu được cho dưới dạng các bản ghi có dạng:(x,

y)=(x1,x2,x3 xn,y), biến phụ thuộc vào y mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa x1,x2,x3 là các biến giúp ta thực hiện công việc đó

2.Các kiểu cây quyết định

- Cây hồi quy: ước lượng các hàm có giá trị thay vì được sử dụng cho các nhiệm vụ phân loại(ví dụ: ước tính giá trị của một ngôi nhà)

_Cây phân loại: nếu y là một biến phân loại như : giới tính(nam hay nữ), kết quả của một trận thi đấu

3.Ví dụ về cây quyết định

Chúng ta xét ví dụ sau:

Mr Hùng quản lý một câu lạc bộ golf Anh đang muốn biết có những ai đến chơi và những ai không đến chơi, có ngày thì mọi người đến chơi rất đông, nhưng có ngày thì lại rất ít Mr Hưng cần tối ưu hóa mục tiêu mỗi ngày của nhân viên bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta đến chơi golf và khi nào không đến chơi Trong 2 tuần Mr Hùng đã thu thập thông tin về:

Trang 4

Quang cảnh, nẳng, mưa, nhiểu mây Nhiệt độ , độ ẩm Gio mạnh hay không

Mr Hung thu được một bộ dữ liệu như sau:

DỮ LIỆU CHƠI GOLF

CÁC BIẾN ĐỘC LẬP BIẾN PHỤ THUỘC

Trang 5

Mưa Ấm áp Cao Mạnh Không

Sau đó người ta đưa ra mô hình cây để giải quyết bài toán của Mr Hưng như sau:

Trang 6

Cây quyết định là một mô hình dữ liêu phân bố của nhãn lớp theo các thuộc tính dùng để dự đoán Nút gốc đại diện cho toàn bộ dữ liệu, thuật toán cây phân loại nhằm phát hiện ra rằng cách tốt nhất để giải thích các biến phụ thuộc chơi, là sử dụng quang cảnh Phân loại theo giá trị của biến quang cảnh ta có 3 nhóm sau:Người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, nhóm chơi khi trời mưa

Kết luận: nếu trời nhiều mây tức là âm u, người ta luôn luôn chơi golf,

và có một số người đi chơi golf khi trời mưa

Tiếp theo, ta lại chia nhóm trời nắng thành 2 nhóm con, ta thấy rằng khách hàng không muốn chơi nếu nhiệt độ cao

Cuối cùng ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi vào hôm trời mưa và có gió

4.Ưu điểm của cây quyết định

-Cây quyết định dể hiểu: người ta có thể hiểu mô hình quyết định sau khi được giải thích ngắn

-Việc chuẩn bị dữ liệu cho cây quyết định là cơ bản hoặc không cần thiết, các kỹ thuật khác cũng đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ và loại bỏ các giá trị rỗng

-Cây quyết định có thể xử lý các dữ liêu có hằng số va dữ liệu có giá trị

là tên thể loại, các kỹ thuật khác thường xuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến.Chẳng hạn các quy luật quan hệ chỉ dùng cho các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có gí trị hằng số

Trang 7

-Cây quyết định là một mô hình hộp trắng, mạng nơ-ron là một ví dụ về

mô hình hộp đen do lời giải thích cho kết quả phức tạp có thể hiểu được -Có thể thẩm định mô hình bằng cách kiểm tra thống kê Điều này làm cho người ta có thể tin tưởng vào mô hình

-Cây quyết định có thể xử lý một lượng dữ liệu lớn trong thời gian ngắn,

có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn nhất trong một thời gian ngắn để đưa ra chiến lược quyết định dựa trên phân tích của cây quyết định

II CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH

1 Gới thiệu chung

Cây quyết định là một cấu trúc được sử dụng để chia liên tiếp một tập các bản ghi lớn thành các tập các bản ghi con nhỏ hơn bằng cách áp dụng một chuỗi các luật đơn giản Với mỗi phép chia liên tiếp các tập con thi được trong tập kết quả này sẽ càng giống nhau Nó có cấu trúc gồm 4 thành phần như sau:

-Nhánh: Là một biến cố hay chiến lược nối 2 Nút hay 1 Nút và Kết

quả

-Nút quyết định: là 1 điểm trên cây được biểu diễn bằng hình vuông và

từ đó sẽ phát xuất nhiều nhánh Mỗi nhánh từ nút quyết định là một chiến lược khả dĩ sẽ được người ra quyết định xem xét

-Biến cố:là một điểm trên cây quyết định được biểu diễn bằng hình tròn

và từ đó cũng sẽ phát xuất nhiều nhánh, mỗi nhánh là một biến cố có thể xảy ra

Trang 8

-Kết quả: là một chuỗi chiến lược và biến cố tạo thành một đường duy

nhất trên cây quyết định từ điểm đầu đến điểm cuối

Trang 9

Nút đầu tiên của cây sẽ bắt đầu bằng Quyết định thứ 1: Chọn Chiến lược

1 hay Chiến lược 2

Theo sau sự chọn chiến lược là một Biến cố ngẫu nhiên: Biến cố 1 hoặc Biến cố 2

Lúc này người ra quyết định sẽ đứng giữa một trong 4 nút quyết định và phải thực hiện Quyết định thứ 2: Chọn Chiến lược 3 hoặc Chiến lược 4 Sau quyết định thứ 2 này là 1 biến cố ngẫu nhiên thứ 2: Biến cố 3 và Biến cố 4

Tuỳ theo con đường đã chọn, 1 trong 16 kết quả sẽ là Kết quả cuối cùng (từ CP1 đến CP16)

Ví dụ: Như trên hình vẽ, con đường gồm: Chiến lược 1, Biến cố 2,

Chiến lược 3, Biến cố 4 sẽ dẫn đến Kết quả CP6

Quyết định tối ưu: cho loại bài toán này là chọn một bộ chiến lược duy

nhất cho giá trị kỳ vọng tốt nhất ứng với nút đầu tiên Lời giải này giả định có thể ấn định giá trị kỳ vọng ở từng nút biến cố và người ra quyết định sẽ thực hiện một quyết định phức tạp dựa trên nhiều biến cố ngẫu nhiên

2 Suy diễn trên cây quyết định

Để trình bày cách giải các bài toán quyết định dựa trên sơ đồ cây quyết định, ta khảo sát bài toán sau:

‒ Giả sử một Công ty có trụ sở đặt tại Tp Hồ Chí Minh muốn kinh

doanh máy vi tính ra miền Bắc hoặc miền Trung

Nếu kinh doanh ra miền Trung, Công ty sẽ không có đối thủ cạnh tranh

và nhu cầu cho thị trường này khoảng 100, 200, 300 bộ/tháng

Trang 10

Nếu kinh doanh ra miền Bắc thì có thể bị cạnh tranh và nhu cầu cho thị trường này chỉ có thể là 0, 100, 200 bộ/tháng

Số lượng máy vi tính dự định kinh doanh là 200 bộ/tháng

Giả định giá mua (đầu vào) của một bộ máy vi tính là 3.000.000 đ, giá bán là 5.000.000 đ

Hình 3.6 sau đây là sơ đồ cây quyết định của bài toán:

Trang 11

Qua kinh nghiệm nhiều năm kinh doanh ở thị trường này, người ra quyết định sẽ ra một số xác suất cho từng biến cố khả dĩ

Trang 12

Người ra quyết định sẽ dùng giá trị kỳ vọng (EMV) làm tiêu chuẩn

quyết định Do vậy, ta cần tính giá trị kỳ vọng của 2 chiến lược khả dĩ là kinh doanh máy tính ra miền Bắc hay ra miền Trung

Lưu ý:

Trong lý thuyết xác suất, giá trị kỳ vọng hay giá trị mong đợi, hoặc trung bình (mean) của một biến ngẫu nhiên là trung bình có trọng số của tất cả

Trang 13

các giá trị có thể của biến đó, hay là được tính bằng tổng các tích giữa xác suất xảy ra của mỗi giá trị có thể của biến với giá trị đó

Nếu X là một biến ngẫu nhiên rời rạc với các giá trị x1 , x2 , và các xác suất tương ứng là p1 , p2 với tổng bằng 1, thì giá trị kỳ vọng E[X] có thể được tính bằng tổng của chuỗi: E[X] = pixi

Ta có:

EMV(S1: Kinh doanh ra miền Trung)=

0,5(-100.000.000)+0,4(400.000.000) + 0,1(600.000.000) = 170.000.000 đ Đối với kinh doanh ra miền Bắc, đầu tiên ta tính EMV của 2 biến cố “có đối thủ” và “không có đối thủ” như sau:

EMV(E1: Có đối thủ) = 0,1(-600.000.000) + 0,5(-100.000.000) +

0,4(400.000.000) = 50.000.000 đ

EMV(E2: không có đối thủ) = 0,4(100.000.000) + 0,5(400.000.000) + 0,1(600.000.000) = 300.000.000 đ

Do vậy:

EMV(S2: Kinh doanh ra miền Bắc) = = 0,3(50.000.000) +

0,7(300.000.000) = 225.000.000 đ

Quyết định tối ưu sẽ theo hướng S2 vì mang lại kết quả cao hơn S1 – Phương pháp phân tích sử dụng trong bài toán cây quyết định là phương pháp “suy diễn lùi” Theo đó, để thẩm định một chiến lược nhất thiết phải khảo sát tất cả chiến lược và biến cố đi sau và cùng xuất phát từ chiến lược đó

Do vậy, các biến cố khả dĩ và nút quyết định sau cùng nhất sẽ được phân tích trước nhất Sau đó sẽ lần ngược lên các nút trước để hướng về nút đầu tiên Dùng kỹ thuật này, ta sẽ thiết lập các lựa chọn tối ưu cho từng kết quả bằng cách duyệt trên sơ đồ cây

Trang 14

III.Kết Luận

Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Các cây quyết định được dùng để hỗ trợ đưa ra quyết định Cây quyết định là một dạng đặc biệt của cấu trúc cây

Qua phần tìm hiểu về cây quyết định các thành viên trong nhóm đã nắm bắt và hiểu về tổng quan của cây quyết định, các định nghĩa, các kiểu cây quyết định và các ưu nhược điểm của cây quyết định, các

thành phần cấu trúc của cây quyết định gồm 4 thành phần:

- Nhánh

-Nút quyết định

-Biến cố

-Kết quả

Trong quá trình làm bài Phần bài làm của nhóm chúng em vẫn còn nhiều thiếu sót kính mong thầy đưa ra nhận xét để cho bài tập được hoàn thiện hơn, e xin chân thành cảm ơn

Ngày đăng: 08/10/2018, 14:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w