Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ỨNG DỤNG XÂY DỰNG MÔ HÌNH DỰ BÁO SỐ LƯỢNG THÍ SINH TRÚNG TUYỂN NHẬP HỌC TRONG KỲ THI TUYỂN SINH ĐẠI HỌC CAO ĐẲNG

Một ưuđiểm của lý thuyết tập thô đối với hướng tiếp cận xác suất Bayes là không cần giả định về sự độc lập của các thuộc tính cũng như không cần bất kỳ kiến thức nền nào về dữ liệu.. Gần

Trang 1

ĐỒ ÁN MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ

Trang 2

MỤC LỤC i

DANH MỤC HÌNH iii

PHẦN 1: MỞ ĐẦU 1

PHẦN 2: MÔ TẢ BÀI TOÁN 2

PHẦN 3: KHAI PHÁ DỮ LIỆU 3

3.1 TẬP THÔ 3

3.1.1 Giới thiệu 3

3.1.2 Hệ thông tin 4

3.1.3 Bảng quyết định 5

3.1.4 Quan hệ bất khả phân biệt 5

3.1.5 Tập xấp xỉ 6

3.1.6 Rút gọn (Reduction) và lõi (Core) 7

3.1.7 Ma trận phân biệt 8

3.2.CÂY QUYẾT ĐỊNH 9

3.2.1 Giới thiệu 9

3.2.2 Ưu điểm 10

3.2.2 Entropy 11

3.2.3 Information Gain 11

3.2.4 Thuật toán ID3 12

3.2.5 Minh họa thuật toán ID3 12

3.3 MẠNG NEURAL 16

3.3.1 Mạng neural sinh học 16

3.3.2 Mạng neural nhân tạo 17

3.3.3 Mô hình và kiến trúc mạng neural 18

3.3.4 Cấu tạo và phương thức làm việc của mạng Neural 21

3.3.5 Các luật học (Learning rules) 26

PHẦN 4: XÂY DỰNG MÔ HÌNH DỰ BÁO 29

4.1 DỮ LIỆU 29

4.2 GIẢI PHÁP 29

4.2.1 Xếp hạng dữ liệu 30

Trang 3

4.2.4 Xây dựng mô hình dự báo dựa trên lý thuyết tập thô 32 TÀI LIỆU THAM KHẢO 34

Trang 4

Hình 1: Cấu trúc cây quyết định 9

Hình 2 Cây quyết định được tạo ra bởi thuật toán ID3 16

Hình 3 Cấu tạo của neural sinh học 17

Hình 4 Mô hình mạng neural nhân tạo 18

Hình 5 Mạng neural có đầu vào đơn 19

Hình 6 Đồ thị các dạng hàm truyền 20

Hình 7 Mô hình mạng Neural nhiều tín hiệu vào 21

Hình 8 Mô hình mạng ba tầng truyền tới 23

Hình 9 Mạng hồi quy 24

Hình 10 Cấu trúc mạng Hopfield 24

Hình 11 Cấu trúc mạng BAM 25

Hình 12 Mô hình học có giám sát 27

Hình 13 Học không giám sát 27

Hình 14 Cấu trúc chung của quá trình học 28

Hình 15 Quy trình xây dựng mô hình dự báo 32

Trang 5

PHẦN 1: MỞ ĐẦU

Khai phá dữ liệu là một lĩnh vực khoa học liên ngành đang phát triển và dần hoànthiện cơ sở lý thuyết trong nhiều lĩnh vực nhằm khám phá các tri thức trong các cơ sở dữliệu lớn, trích xuất những thông tin ẩn dưới dạng các quy luật, ràng buộc, quy tắc hữu íchcho các tổ chức, doanh nghiệp,… Các kỹ thuật được sử dụng trong khai phá dữ liệu baogồm: phân lớp và dự đoán, phân cụm, luật kết hợp, phân tích hồi quy và phân tích cácmẫu theo thời gian Hiện nay, các kỹ thuật khai phá dữ liệu được ứng dụng rộng rãi trongcác lĩnh vực phân tích dữ liệu hỗ trợ ra quyết định trong điều trị y học, giáo dục, thươngmại, tài chính,… Trong số đó, lý thuyết tập thô đang được nghiên cứu và phát triển vớicác khả năng ứng dụng trong nhiều lĩnh vực đặc biệt trong phân tích dữ liệu, tri thứckhông đầy đủ

Nước ta đang thực hiện công cuộc công nghiệp hóa hiện đại hóa nhằm thúc đẩynền kinh tế phát triển mạnh mẽ Trong quá trình này, vai trò nền tảng của giáo dục, đặcbiệt là giáo dục Đại học đã được xã hội ghi nhận và phát huy Vì vai trò quan trọng củagiáo dục Đại học đối với xã hội, các cơ quan quản lý đã quy định các tiêu chuẩn đảm bảochất lượng giáo dục trong luật giáo dục Đại học và nhiều văn bản ngang luật Trong số

đó, quy mô đào tạo và chỉ tiêu tuyển sinh ở từng trường được quy định chặt chẽ

Tuy nhiên, như chúng ta đã biết, hằng năm, trong kỳ thi tuyển sinh Đại học và Caođẳng các trường phải đối mặt với vấn đề số lượng thí sinh ảo và trúng tuyển ảo Vấn đềđặt ra cho các trường là xác định giá trị ảo Từ đó, xác định số lượng thí sinh trúng tuyểnnhập học tương xứng với chỉ tiêu tuyển sinh đã được quy định trước đó là vấn đề nan giải

ở đại bộ phận các trường Đại học và Cao đẳng trong cả nước Vì lý do đó, tác giả thựchiện chuyên đề này nhằm đề ra giải pháp dự báo số lượng thí sinh trúng tuyển nhập họctrong kỳ thi tuyển sinh Đại học, Cao đẳng

Chuyên đề này sẽ tìm hiểu về tập thô, cây quyết định và mạng neural và đề xuấtgiải pháp xây dựng mô hình dự báo số lượng thí sinh trúng tuyển nhập học trong kỳ thituyển sinh Đại học, Cao đẳng

Trang 6

PHẦN 2: MÔ TẢ BÀI TOÁN

Ở nước ta, kỳ thi tuyển sinh Đại học, Cao đẳng hằng năm là cơ hội cho các trườngĐại học, Cao đẳng tuyển chọn những thí sinh có trình độ tốt nhất phù hợp với ngành nghềđào tạo và đây còn là yếu tố quan trọng ảnh hưởng đến chất lượng đào tạo, cũng nhưdanh tiếng của trường trong sự nghiệp giáo dục Tuy nhiên, do quy mô đào tạo củatrường khác nhau dẫn đến số lượng và chất lượng thí sinh dự thi cũng rất khác nhau Khi

đó, đối với các trường có quy mô đào tạo vừa và nhỏ sẽ rất cần thiết trong việc dự báo sốlượng thí sinh dự thi ảo và có quyết định phù hợp nhằm đảm bảo chất lượng đầu vào và

số lượng thí trúng tuyển nhập học Có như vậy, các trường này mới có thể đảm bảo quy

mô cũng như chất lượng đào tạo nhưng vẫn đảm bảo đúng chỉ tiêu quy định Đây là vấn

đề chung của ngành giáo dục nhưng chưa được sự quan tâm đúng mức

Tuy nhiên, vấn đề này có thể xem xét như vấn đề nhà kinh doanh nghiên cứu hành

vi lựa chọn một sản phẩm của khách hàng trong công tác nghiên cứu thị trường, đánh giátiềm năng khách hàng Khi đó, chúng ta có thể nghiên cứu những hành vi của nhữngkhách hàng trước đó và dự báo cho người tiếp theo Tương tự, chúng ta có thể xem xétnhững lựa chọn của những thí sinh trước đó và dự báo cho tương lai

Như vậy, bài toán đặt ra yêu cầu tìm giải pháp trả lời câu hỏi “một thí sinh sẽ chọntheo học ngành nào ở trường nào khi thí sinh này đã đủ điểm trúng tuyển ít nhất haingành của ít nhất một trường Đại học, Cao đẳng trong kỳ thi tuyển sinh?" Với yêu cầunày sẽ xem như bất khả thi nếu không có công cụ phân tích dữ liệu

Trang 7

PHẦN 3: KHAI PHÁ DỮ LIỆU3.1 TẬP THÔ

3.1.1 Giới thiệu

Lý thuyết tập thô (Rough set) được đề xuất vào năm 1980 bởi Z.Pawlak Lý thuyếtnày xây dựng phương pháp luận liên quan đến sự phân loại và phân tích không chắc chắnthông tin và tri thức không đầy đủ Khái niệm cơ bản của lý thuyết tập thô là xấp xỉ dưới

và trên của một tập, sự xấp xỉ của không gian là hình thức phân loại tri thức liên quan đếnmiền dữ liệu quan tâm Tập con được tạo ra bởi xấp xỉ dưới mô tả bởi các đối tượng lànhững thành phần chắc chắn của một tập, trong khi xấp xỉ trên được đặc trưng bởi các đốitượng có khả năng thuộc tập quan tâm

Trong nhiều trường hợp trong khai phá dữ liệu, dữ liệu được sử dụng thườngkhông hoàn thiện, các giá trị không xác định hoặc lỗi trong quá trình thu thập, tổng hợp

dữ liệu Lý thuyết tập thô phát huy tác dụng cho các trường hợp này vì nó là công cụnhằm giải quyết sự gần đúng và các trường hợp quyết định không chắc chắn Một ưuđiểm của lý thuyết tập thô đối với hướng tiếp cận xác suất Bayes là không cần giả định về

sự độc lập của các thuộc tính cũng như không cần bất kỳ kiến thức nền nào về dữ liệu

Gần đây, lý thuyết tập thô trở thành một công cụ đánh giá trong xử lý các vấn đềkhác nhau như trình bày tri thức không chắc chắn hoặc không chính xác, phân tích trithức, đánh giá chất lượng và tính khả dụng của thông tin đối với tính nhất quán và sự cómặt các mẫu không theo thời gian, nhận dạng và đánh giá sự phụ thuộc thời gian, suyluận

Lý thuyết tập thô dựa trên giả thuyết rằng để định nghĩa một tập hợp, chúng ta cầnphải có thông tin về mọi đối tượng trong tập vũ trụ

Trong nội dụng tiếp theo sẽ trình bày các khái niệm cơ bản của tập thô như sau:

 Hệ thông tin / quyết định

 Quan hệ bất khả phân biệt

 Xấp xỉ tập hợp

 Rút gọn và lõi

 Ma trận phân biệt

Trang 8

3.1.2 Hệ thông tin

Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi dòng biểu diễnthông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được củamỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp) Bảng này được gọi làmột hệ thông tin

Hình thức hơn, hệ thông tin là một cặp S = (U, A)

 Trong đó U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay làtập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc tính

 Với mỗi u  U và a  A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính

a

 Nếu gọi Ia là tập tất cả giá trị của thuộc tính a, thì u(a)  Ia với mọi u  U Bâygiờ, nếu B = {b1 , b2 , ,bk}  A, ta ký hiệu bộ các giá trị u(bi) bởi u(B) Nhưvậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(bi) = v(bi), vớimọi i =1, 2, , k

Một hệ thông tin bao gồm 8 đối tượng U={u1,u2,u3,u4,u5,u6,u7,u8}, tập thuộctính A={Color, Size }, và miền giá trị cho từng thuộc tính là IColor = {Green, Yellow,Red}, ISize = {Small, Medium, Big }

Trang 9

Ví dụ: Bảng sau đây là một bảng quyết định Bảng này có 8 đối tượng như trongbảng 1, nhưng có thêm thuộc tính quyết định (Shape) Trong bài toán phân lớp thì thuộctính quyết định chính là lớp của đối tượng cần xếp lớp Trong ví dụ này thuộc tính quyếtđịnh Shape có 3 giá trị là Circle, Square và Triangle.

Bảng 2: Bảng quyết định

3.1.4 Quan hệ bất khả phân biệt

Một hệ thông tin thể hiện tri thức về các đối tượng trong thế giới thực Tuy nhiên,trong nhiều trường hợp bảng này có thể được tinh giảm do tồn tại ít nhất hai khả năng dưthừa thông tin sau đây:

Trang 10

 Nhiều đối tượng giống nhau hay không thể phân biệt với nhau lại được thểhiện lặp lại nhiều lần

 Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ đi các thuộc tính này thìthông tin do hệ quyết định cung cấp mà chúng tâm sẽ không bị mất mát

Một quan hệ hai ngôi R  X2 được gọi là quan hệ tương đương khi có các tínhchất sao:

 Tính phản xạ (xRx với mọi x)

 Tính đối xứng (nếu xRy thì yRx)

 Tính bắc cầu (nếu xRy và yRz thì xRz)

Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp tươngđương, trong đó, lớp tương đương của một đối tượng x là tập tất cả các đối tượng có quan

hệ R với x

Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B  A tạo ra một quan hệ haingôi trên U, ký hiệu IND(B):

IND(B) = {( u, v)  U2 | a  B, a(u) = a(v)}

IND(B) được gọi là quan hệ bất khả phân biệt theo B Dễ kiểm chứng đây là mộtquan hệ tương đương trên U Với mọi đối tượng u  U, lớp tương đương của u trongquan hệ IND(B) được kí hiệu bởi [u]B

Ví dụ: Tập thuộc tính B= {Color, Size} trong Bảng 2 phân hoạch tập 8 đối tượngthành tập các lớp tương đương như sau:

IND(B) = {(u1, u6), (u2), (u3, u5), (u4), (u6, u7)}

Nhận xét: Ta thấy, các đối tượng u1và u6 cùng một lớp tương đương nên chúng

không thể phân biệt với nhau trên tập thuộc tính {Color, Size }

3.1.5 Tập xấp xỉ

Một quan hệ tương đương dẫn đến một phân hoạch phổ quát U Có thể dùng phépphân hoạch để tạo các tập con mới của tập phổ quát Các tập con thường được quan tâm

là các tập con có cùng giá trị của thuộc tính quyết định

Cho một hệ thông tin S = (U, A), với mỗi tập con X  U và B  A,

Ký hiệu R = IND(B), ta có 2 tập con sau :

Trang 11

BX = { x | [x]B  X }

và ´B X={x|[x ] B ∩ X ≠ ∅

Trong đó BX, BX lần lượt gọi là B-xấp xỉ dưới và B- xấp xỉ trên của tập X

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X

Tập ´B X bao gồm các phần tử của U có khả năng được phân loại vào những phần

tử thuộc X ứng với quan hệ R

Từ hai tập xấp xỉ người ta định nghĩa các tập:

 BNB(X) = ´B X - BX: B- miền biên của X

 POSB(X) = BX: B-vùng dương của X

 NEGB(X) = U - ´B X: B-vùng âm của X

Trong trường hợp BNB(X)  , X được gọi là tập thô, ngược lại X được gọi là tậprõ

Ví dụ: Xét hệ thống thông tin biểu diễn các triệu chứng của cảm cúm như sau:

Trang 12

Từ đó ta có B-miền biên của V là tập B N B(V )= ´B V −B V={ u5,u6,u7,u8}.

Độ chính xác của xấp xỉ

3.1.6 Rút gọn (Reduction) và lõi (Core)

Trong bảng quyết định, các thuộc tính điều kiện được phân thành 3 loại, đó là:thuộc tính lõi (core), thuộc tính rút gọn và thuộc tính không cần thiết Thuộc tính lõi làthuộc tính không thể thiếu trong việc phân hoạch tập dữ liệu Thuộc tính không cần thiết

là những thuộc tính dư thừa (có thể loại bỏ một thuộc tính như vậy chứ không phải loại

bỏ tất cả) mà không ảnh hưởng đến việc phân hoạch dữ liệu Thuộc tính rút gọn nằm giữa

2 tập thuộc tính trên, với một tổ hợp thuộc tính nào đó, nó là thuộc tính dư thừa nhưngvới tổ hợp thuộc tính khác, nó có thể là thuộc tính lõi

Cho một bảng quyết địnhT ={U , C ∪ D } Tập thuộc tính R ⊆Cđược gọi là một rútgọn của C nếu POSR(D)= POSC(D) Lõi của tập thuộc tính C, ký hiệu CORE(C) là tất cảcác thuộc tính giao của tất cả các tập rút gọn của C

CORE (C )=∩¿(C )

Trong đó RED(C) là tập hợp tất cả các rút gọn của C

Ví dụ: Cho bảng quyết định về bệnh cúm như bảng bảng 4

ID Đau đầu Đau cơ Thân nhiệt Cảm cúm

Bảng 4: Bảng quyết định về bệnh cúm

Bảng này có 2 tập rút gọn là R1={Đau đầu, Thân nhiệt} và R2= {Đau cơ, Thânnhiệt} Tập lõi Core={Thân nhiệt} Vậy Thân nhiệt là thuộc tính cần thiết duy nhất, cácthuộc tính Đau đầu, Đau cơ đều không cần thiết Điều này có nghĩa rằng có thể loại bỏ 1

Trang 13

trong 2 thuộc tính Đau đầu hoặc Đau cơ (không thể bỏ đồng thời cả 2) mà không ảnhhưởng đến kết quả chuẩn đoán bệnh.

Mỗi dòng bao gồm tập giá trị các thuộc tính khác nhau với các đối tượng xi và xj

Ma trận phân biệt không chỉ được định nghĩa trên tập tất cả các thuộc tính của hệthông tin mà còn có thể được xây dựng trên một tập thuộc tính B  A bất kỳ Trongtrường hợp đó, phần tử mij là tập các thuộc tính trong B phân biệt hai đối tượng xi, xj

Xét ma trận phân biệt được xây dựng trên tập thuộc tính B  A Giả sử tập thuộctính B phân hoạch tập đối tượng thành các lớp tương đương X1, X2,…, Xk và do hai đốitượng thuộc một lớp tương đương thì nhận giá trị như nhau tại các thuộc tính trong B nênthay vì xây dựng ma trận phân biệt giữa từng cặp đối tượng, ta xây dựng ma trận phânbiệt giữa từng cặp lớp tương đương

Khi đó, phần tử cij, i, j  {1,2, …,k} là tập hợp thuộc tính phân biệt hai đốitượng bất kỳ thuộc hai lớp tương đương Xi và Xj hay có thể nói cij là tập các thuộc tínhphân biệt

3.2 CÂY QUYẾT ĐỊNH

3.2.1 Giới thiệu

Cây quyết định là một ứng dụng của đồ thị dạng cây trong quá trình ra quyết định.Một cây quyết định là một đồ thị của các quyết định và các hệ quả có thể của nó (baogồm rủi ro và hao phí tài nguyên) Cây quyết định được sử dụng để xây dựng một kếhoạch nhằm đạt được mục tiêu mong muốn(phân tích thị trường, đầu tư,…) trong quátrình ra quyết định của cá nhân, tổ chức,…

Trang 14

Hình 1: Cấu trúc cây quyết định

Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo, nghĩa là mộtánh xạ từ các quan sát về một sự vật/hiện tượng đến các kết luận về giá trị mục tiêu của

sự vật/hiện tượng Mỗi nút trong đồ thị tương ứng với một biến dự báo, giá trị biến dựbáo thể hiện trên mối liên kết giữa nó và nút con Mỗi nút lá đại diện cho giá trị dự đoáncủa biến mục tiêu Quá trình ra quyết định là các bước xây dựng đường đi từ nút gốc đếnnút lá

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữliệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho cácphân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó Mộtcây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theomột kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ quy cho mỗi tậpcon dẫn xuất Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia táchđược nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫnxuất Cây quyết định là một phương tiện có tính mô tả dành cho việc tính toán các xácsuất có điều kiện Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật

Trang 15

toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệucho trước Ra quyết định dựa trên cây quyết định là quá trình học trên tập dữ liệu huấnluyện theo mô hình cây quyết định và được sử dụng trong dự đoán các mẫu dữ liệu trongtương lai.

Cây quyết thông thường được xây dựng dựa trên tập dữ liệu mẫu (dữ liệu huấnluyện) có kích thước đủ lớn có khả năng bao phủ các trường hợp đã xảy ra của biến mụctiêu thông qua các thuật toán khai phá dữ liệu dựa trên bộ quy ước độ đo nhất định Trongnhiều trường hợp, cây quyết định được xây dựng dựa trên thuật toán ID3 với các độ đoEntropy và Information Gain

3.2.2 Ưu điểm

Khả năng sinh các quy tắc hiểu được: từ cây quyết có thể xây dựng các phươngpháp sinh ra các quy tắc có dạng luật dễ hiểu kể cả cho người dùng không có chuyên môntoán học

Cây quyết định có thể được hiển thị trực quan, việc xây dựng một đường đi từ nútgốc đến nút lá là một điều kiện phân lớp cho dữ liệu Do đó, sự giải thích cho bất cứ mộtphân lớp hay dự đoán nào đều minh bạch, rõ ràng

Khả năng xử lý biến đa dạng: các thuật toán xây dựng cây quyết định có khả năng

xử lý trên biến liên tục và biến rời rạc

Thể hiện rõ ràng những thuộc tính tốt nhất: thuộc tính tốt nhất sẽ được thuật toánxây dựng cây quyết định quan tâm đầu tiên và được chọn làm nút gốc

Trang 16

 Các trường hợp còn lại 0 < Entropy(S) < 1

3.2.3 Information Gain

(Viết tắt Gain) là đại lượng dùng để đo mức độ giảm entropy mong đợi của mộtthuộc tính được lựa chọn cho việc phân lớp Đại lượng này được tính thông qua hai giá trịInformation và Entropy

Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2, …, n) giá trị Information củathuộc tính Ai ký hiệu là Information (Ai) được xác định bởi công thức:

3.2.4 Thuật toán ID3

Thuật toán ID3 được phát biểu bởi Quinlan (Đại học Syney, Australia) và đượccông bố vào cuối thập niên 70 của thế kỷ 20 Sau đó, thuật toán ID3 được giới thiệu vàtrình bày trong mục Induction on decision trees, machine learning năm 1986 ID3 đượcxem như là một cải tiến của giải thuật CLS với khả năng lựa chọn thuộc tính tốt nhất đểtiếp tục triển khai cây tại mỗi bước Giải thuật ID3 tiếp cận hướng xây dựng cây quyếtđịnh từ trên xuống Giải thuật được trình bày trong đoạn mã bên dưới:

Function induce_tree(tập mẫu, tập_thuộc_tính)

begin

if mọi mẫu trong tập mẫu đều cùng một lớp then return một nút lá được gán nhãn bởi lớp đó else if tập_thuộc_tính là rỗng then

Trang 17

return nút lá được gán nhãn bởi tuyển của tất cả

các lớp trong tập_ví_dụ

else begin

Tính giá trị gain cho tất cả các thuộc tính; Chọn thuộc tính Ai có giá trị gain lớn nhất xóa Ai ra khỏi tập_thuộc_tính;

với mỗi giá trị Vj của Ai

begin

Tạo một nhánh của cây gán nhãn Vj;

Đặt vào phân_vùngVj các ví dụ trong tập_ví_dụ có giá trị Vj tại thuộc tính Ai;

Gọi induce_tree(phân_vùngV,

tập_thuộc_tính), gắn kết quả vào nhánh

V ;

end end

end

3.2.5 Minh họa thuật toán ID3

Xét bài toán phân loại xem có đi cho tennis ứng với thời tiết nào đó không Giải thuật ID3 sẽ xây dựng cây quyết định từ tập mẫu sau:

Trang 18

Tập dữ liệu gồm 14 ví dụ, mỗi ví dụ biểu diễn cho tình trạng thời tiết gồm các thuộc tính quang cảnh, nhiệt độ, độ ẩm và gió và dẫn đến được phân loại có chơi tennis hay không Giá trị phân loại chỉ có hai loại có hoặc không hay ta nói tập ví dụ của khái niệm này được phân loại thành hai lớp.

Mỗi thuộc tính đều có một tập hữu hạn giá trị Thuộc tính quang cảnh có ba giá trị: âm u, mưa, nắng; nhiệt độ có ba giá trị: nóng, mát, ấm áp; độ ẩm có hai giá trị: cao và trung bình; gió có hai giá trị: mạnh, nhẹ

Từ tập dữ liệu huấn luyện này, giải thuật ID3 sẽ xây dựng một cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương lai, nó cũng sẽ có khả năng phân loại đúng các trường hợp với dữ liệu mới Cây quyết định huấn luyện được xây dựng từ giải thuật ID3 như sau:

Định dạng
Số trang	39
Dung lượng	465,58 KB