1. Trang chủ
  2. » Mẫu Slide

Khai pha du lieu Chuong 5 ThS Nguyen Vuong Thinh

34 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Chương 5: Phân Lớp Dữ Liệu
Người hướng dẫn ThS. Nguyễn Vương Thịnh
Trường học Trường Đại Học Hàng Hải Việt Nam
Chuyên ngành Công Nghệ Thông Tin
Thể loại bài giảng
Năm xuất bản 2013
Thành phố Hải Phòng
Định dạng
Số trang 34
Dung lượng 1,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Entropy của dữ liệu ứng với một thuộc tính Là lượng thông tin cần để phân loại một phần tử trong tập dữ liệu D dựa trên thuộc tính A.. Ký hiệu là InforA D.[r]

Trang 1

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

KHOA CÔNG NGHỆ THÔNG TIN

BÀI GIẢNG MÔN HỌCKHAI PHÁ DỮ LIỆU

Giảng viên: ThS Nguyễn Vương Thịnh

Bộ môn: Hệ thống thông tin

CHƯƠNG 5: PHÂN LỚP DỮ LIỆU

Trang 2

Thông tin về giảng viên

Họ và tên Nguyễn Vương Thịnh

Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin

Chuyên ngành Hệ thống thông tin

Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012

Điện thoại 0983283791

Email thinhnv@vimaru.edu.vn

Website cá nhân http://scholar.vimaru.edu.vn/thinhnv

Trang 3

Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần)

Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần)

Bộ môn phụ trách Hệ thống thông tin

PHƯƠNG PHÁP HỌC TẬP, NGHIÊN CỨU

Nghe giảng, thảo luận, trao đổi với giảng viên trên lớp.

Tự nghiên cứu tài liệu và làm bài tập ở nhà.

PHƯƠNG PHÁP ĐÁNH GIÁ

SV phải tham dự ít nhất 75% thời gian.

Có 02 bài kiểm tra viết giữa học phần (X = X 2 = (L 1 + L 2 )/2).

Trang 4

Tài liệu tham khảo

1 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,

Elsevier Inc, 2006

2 Ian H Witten, Eibe Frank, Data Mining – Practical Machine Learning Tools

and Techniques (the second edition), Elsevier Inc, 2005 (sử dụng kèm với công

cụ Weka).

3 Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems

(the 4 th Edition), Pearson Education Inc, 2004.

4 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu

Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web, NXB Giáo dục, 2009

Trang 6

Công cụ phần mềm hỗ trợ

Phần mềm Weka được phát triển bởi nhóm nghiên cứu của trường Đại học Waikato (New Zealand) từ năm 1999 Có thể download về tại

Trang 7

CHƯƠNG 5: PHÂN LỚP DỮ LIỆU

5.1 KHÁI NIỆM VỀ PHÂN LỚP DỮ LIỆU

5.2 PHÂN LỚP DỰA TRÊN XÁC SUẤT CÓ ĐIỀU

KIỆN

(Phân lớp Bayes – Naive Bayesian Classification)

5.3 PHÂN LỚP DỰA TRÊN CÂY QUYẾT ĐỊNH

5.4 XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA

Trang 8

5.1 KHÁI NIỆM VỀ PHÂN LỚP DỮ LIỆU

Cho tập các lớp C = {C 1 , C 2 ,…, C m } và tập dữ liệu D = {X 1 , X 2 ,…, X n }

Phân lớp dữ liệu là sự phân chia các đối tượng dữ liệu vào các lớp

C 3

C 2

C m

.

f: D → C hay c = f(X) (với X D và c ∈ ∈

C)

Trang 9

 Mỗi ánh xạ được gọi là một mô hình phân lớp (Classification Model).

Làm sao để xây dựng mô hình phân lớp?

Thông qua quá trình huấn luyện dựa trên tập dữ liệu học (học có giám sát – supervised learning)

Trang 10

Xây dựng mô hình

B1: Chọn một tập ví dụ mẫu (gồm các đối tượng đã được phân lớp):

D exam = D 1 ∪ D 2 ∪ … ∪ D m trong đó D i = {X|(X D ∈ )∧(X ⟶ C i )} i=1, ,m

B2: Tách D exam thành 02 tập:

Tập dữ liệu học D train

Tập dữ liệu kiểm tra D test

Hiển nhiên D exam = D train D test và thường thì người ta tách sao cho:

mô hình phân lớp như: Bayes, cây quyết định, luật phân lớp,…

B5: Chọn mô hình có chất lượng nhất

Sử dụng mô hình

Cho X D ∈ (là tập dữ liệu chưa phân lớp) ⟹ Xác định lớp của X

2 3

Trang 11

5.2 PHÂN LỚP DỰA TRÊN XÁC SUẤT CÓ ĐIỀU KIỆN

(Naive Bayes Classifier)

5.2.1 Xác suất có điều kiện và công thức Bayes

Gọi X là một bộ dữ liệu (data tuple) Theo ngôn ngữ xác suất, X được xem

là một biến cố (evidence).

Gọi H là một giả thuyết (hypothesis): bộ X thuộc về lớp C i .

Cần xác định P(H|X): xác suất xảy ra H khi đã xuất hiện X (hay xác suất để X

thuộc về lớp C i nếu như đã biết các thuộc tính của X).

Trang 12

⟹ Xác suất để một người 35 tuổi có thu nhập $40,000 mua máy tính

P(X|H) là xác suất có điều kiện của X đối với H (xác suất xảy ra X khi biết H

xảy ra).

Ví dụ:

P(X|H) = P(age=35 years old, income=$40,000|buy_computer=yes)

⟹ Xác suất để một người mua máy tính có độ tuổi là 35 và thu nhập là

$40,000.

P(X) là xác suất tiên nghiệm của X.

Ví dụ: P(X) = P(age=35 years old,income=$40,000) ⟹ Xác suất để tìm thấy trong tập dữ liệu đang xét một người có độ tuổi là 35 và thu nhập là

$40,000.

P(H) là xác suất tiên nghiệm của H.

Ví dụ: P(H) = P(buy_computer=Yes) ⟹ Xác suất mua máy tính của khách hàng nói chung (không quan tâm đến độ tuổi hay thu nhập)

Trang 13

Thomas Bayes

(1702 – 1761)

Công thức Bayes:

( | ) ( ) ( | )

Trang 14

5.2.2 Phân lớp dữ liệu dựa trên xác suất có điều kiện (phân lớp Bayes)

Bộ phân lớp Bayes hoạt động như sau:

1 Cho D là tập dữ liệu học gồm các bộ và nhãn lớp tương ứng (đã được

phân lớp) Mỗi bộ được biểu diễn bởi một vector n chiều X = (x 1 , x 2 ,…, x n ) trong đó x i là giá trị tương ứng với thuộc tính A i (i = 1, 2,…, n) Tập D i = {X| (X D ∈ )∧(X ⟶ C i )} là tập các bộ trong D thuộc về lớp C i .

2 Giả sử có m lớp C 1 , C 2 ,…, C m Bộ X được dự đoán là thuộc về lớp C i khi và

chỉ khi: P(C i |X) > P(C j |X) với mọi j ≠ i và 1 ≤ j ≤ m (X thuộc về lớp mà xác suất có điều kiện khi biết X là lớn nhất) ⟹ Đi tìm lớp C i trong số m lớp sao cho P(C i |X) là lớn nhất.

3 P(X) là giống nhau với tất cả các lớp nên theo công thức Bayes thì P(C i |X)

lớn nhất tương ứng với tích P(X|C i )P(C i ) lớn nhất ⟹ Đi tìm C i sao cho tích P(X|C i )P(C i ) là lớn nhất (i = 1, 2,…, m)

Trang 15

Chú ý:

Nếu không tính được P(C i ) thì có thể coi P(C 1 ) = P(C 2 ) = … = P(C m ) và bài

toán quy về tìm lớp C i trong số m lớp sao cho P(X|C i ) có giá tri lớn nhất.

Nếu tồn tại P(x k |C i ) = 0 thì có thể áp dụng hiệu chỉnh Lapace và công thức

tính của P(x k |C i ) được hiệu chỉnh như sau:

q: số giá trị khác nhau của A k

Trang 17

Có 02 lớp dữ liệu tương ứng với buys_computer = yes và buys_computer = no

Suy ra:

Tương tự:

Trang 18

5.3 PHÂN LỚP DỰA TRÊN CÂY QUYẾT ĐỊNH

5.3.1 Mô hình phân lớp cây quyết định

 Cây quyết định (decision tree) là một mô hình phân lớp điển hình

 Cây quyết định bao gồm:

trên thuộc tính tương ứng

Trang 19

1 If (Married = yes) And (Salary > 20K) Then Class = poor risk

2 If (Married = yes) And (50K > Salary >= 20K) Then Class = fair risk

3 If (Married = yes) And (Salary >= 50K) Then Class = good risk

Có thể dễ dàng chuyển đổi từ mô hình cây quyết định sang mô hình

luật phân lớp bằng cách: đi từ nút gốc cho tới nút lá, mỗi đường đi

tương ứng với một luật phân lớp

Trang 21

5.3.2 Các độ đo sử dụng trong phân lớp

A Entropy của tập dữ liệu

Là lượng thông tin cần để phân loại một phần tử trong tập dữ liệu D

D p

D

2 1

Trang 22

B Entropy của dữ liệu ứng với một thuộc tính

Là lượng thông tin cần để phân loại một phần tử trong tập dữ liệu D dựa trên thuộc tính A Ký hiệu là Infor A (D).

D 1 , D 2 ,…, D v

hoạch, nghĩa là một phân hoạchchứa các phần tử từ một hay nhiều lớp khác nhau.

Mong đợi: Infor A (D) càng nhỏ càng tốt.

Trang 23

C Độ lợi thông tin (Information Gain)

Mục tiêu: Tối thiểu hóa lượng thông tin cần thiết để phân lớp các các mẫu dữ liệu (tối thiểu hóa số lượng các điều kiện kiểm tra cần thiết để phân lớp một bản ghi mới).

Độ lợi thông tin ứng với thuộc tính A (ký hiệu Gain(A)) chính là độ sai

biệt giữa Entropy ban đầu của tập dữ liệu (trước phân hoạch) và

Entropy của dữ liệu ứng với thuộc tính A (sau khi phân hoạch bởi A).

Gain AInfor D Infor D

Trang 24

5.3.3 Giải thuật ID3 xây dựng cây quyết định

Input: Tập dữ liệu học Records gồm m đối tượng (bản ghi) R1, R2,…, Rm.

Output: Mô hình cây quyết định.

procedure Build_tree(Records, Attributes)

end;

if (Attributes = ) then begin

Tìm lớp Cj mà phần lớn các bản ghi r Records thuộc về lớp đó ∈ N.Label = Cj;

Thêm một nhánh mới vào nút N ứng với Ai = vj ;

Sj = Tập con của Records có Ai = vj;

Trang 25

Phương pháp lựa chọn thuộc tính

Dùng heuristic để chọn tiêu chí rẽ nhánh tại một nút: Phân hoạch tập dữ liệu học D thành các phân hoạch con với các nhãn phù hợp:

• Xếp hạng mỗi thuộc tính.

• Thuộc tính được chọn để rẽ nhánh là thuộc tính có trị số điểm (score)

là lớn nhất

• Độ đo để chọn thuộc tính phân tách (splitting attribute) là Information

Gain (được xây dựng dựa trên lý thuyết thông tin của Claude Elwood Shannon)

Cụ thể: Thuộc tính có giá trị Information Gain lớn nhất sẽ được chọn làm thuộc tính phân nhánh cho nút N.

 Nút N là nút hiện tại cần phân hoạch các phần tử trong D

 Thuộc tính phân hoạch đảm bảo sự trùng lắp ngẫu nhiên ít nhất

giữa các phân hoạch tạo được

⟹ Giúp tối thiểu số phép thử (test) cần để phân loại một phần tử.

Trang 26

26

Trang 27

Tính toán tương tự:

⟹ Chọn age là thuộc tính phân tách

Ví dụ: Cho tập dữ liệu học:

Trang 28

28

Trang 29

Khởi động phần mềm Weka, chọn Explorer:

5.4 XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA

Trang 30

Chọn tập tin dữ liệu sử dụng

Trang 31

Tập dữ liệu mẫu

Trang 32

Cây quyết định xây dựng được

Trang 34

Q & A

34

Ngày đăng: 02/11/2021, 19:25

HÌNH ẢNH LIÊN QUAN

5.4. XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA - Khai pha du lieu Chuong 5 ThS Nguyen Vuong Thinh
5.4. XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA (Trang 7)
 Mỗi ánh xạ được gọi là một mô hình phân lớp (Classification Model). - Khai pha du lieu Chuong 5 ThS Nguyen Vuong Thinh
i ánh xạ được gọi là một mô hình phân lớp (Classification Model) (Trang 9)
 Cây quyết định (decision tree) là một mô hình phân lớp điển hình. - Khai pha du lieu Chuong 5 ThS Nguyen Vuong Thinh
y quyết định (decision tree) là một mô hình phân lớp điển hình (Trang 18)
 Có thể dễ dàng chuyển đổi từ mô hình cây quyết định sang mô hình - Khai pha du lieu Chuong 5 ThS Nguyen Vuong Thinh
th ể dễ dàng chuyển đổi từ mô hình cây quyết định sang mô hình (Trang 19)
5.4. XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA - Khai pha du lieu Chuong 5 ThS Nguyen Vuong Thinh
5.4. XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA (Trang 29)

🧩 Sản phẩm bạn có thể quan tâm