1. Trang chủ
  2. » Công Nghệ Thông Tin

Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

27 940 8
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Dựa Trên Thể Hiện - Phân Lớp Dữ Liệu
Tác giả Nguyễn Hồng Tú Anh
Trường học Trường Đại Học
Chuyên ngành Khai Thác Dữ Liệu
Thể loại Bài Giảng
Định dạng
Số trang 27
Dung lượng 617,95 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương pháp dựa trên thể hiện - Phân lớp dữ liệu

Trang 2

NỘI DUNG

Trang 3

đị nh ánh xạ f : D  C sao cho mỗi ti được

Lượng giá, hồi qui, học, huấn luyện

Phân loại, ra quyết định

GIỚI THIỆU

Trang 4

1 Phân lớp theo mô hình xác suất :

Dự đoán xác suất hay dự đoán xác suất là thành viên của lớp

Cho X, Y là các bin bt kỳ ( ri rc, s, cu trúc, …)

Lượng giá các tham số của P(X | Y) , P(Y) trực tiếp từ tập DL huấn luyện

Sử dụng định lý Bayes để tính P(Y | X=x)

Trang 5

2 Định lý Bayes

) x ( P

) y ( P ) y

| x ( P ) x

| y (

Trang 6

3 Phân loại Bayes

XD mô hình : Lượng giá P(X |Y), P(Y)

Ví d :

P(Sm sét | M a, Chp) = P(Sm sét | Chp)

GIỚI THIỆU

Trang 7

• Các thuộc tính x1, ., xn độ c lập điều kiện

đ ôi một với nhau khi cho lớp C

Khi đó : ta cần xác định xác suất P(Ci|X) lớn nhất

)

| ( )

| ( 1

)

| ( )

) ( )

| ( )

|

C P i C P i

C

Theo tính chất độc lập điều kiện :

Luật phân lớp cho Xnew = {x1, ,xn} là :

C k 1

)

| ( )

( max arg

Trang 8

Thuật tốn Nạve Bayes

B1 : Huấn luyện Nạve Bayes (trên tập DL huấn luyện)

C k 1

)

| ( )

( max arg

k

x D i

C i

C k x P

,

} { ,

# )

|

D

D i

C i

C

P ( ) ≈ ,

Trang 9

Trường hợp X – giá trị rời rạc

• Để tránh trường hợp giá trị P(Xk|Ci) = 0 do không

có mẫu nào trong DL huấn kuyện thỏa mãn tử số,

ta làm trơn bằng cách thêm một số mẫu ảo.

Khi đó :

• Làm trơn theo Laplace :

r D i C

k

x D i

C i

C k x P

# )

| (

m D

D i

C i

Cho tập dữ liệu huấn luyện :

Outlook Temperature Humidity Windy Play?

overcast cool normal strong Yes

sunny mild normal strong Yes

overcast mild high strong Yes

overcast hot normal weak Yes

Trang 11

B2 : Phân lớp

Xnew = < Outlook=sunny, Temp = cool, Humidity =

high, Windy = strong>

Ta cần tính :

P(C1)*P(X|C1)=P(C1)*P(sunny|y)*P(cool|y)*P(high|y)*

P(strong|y) = 0.005

P(C2)*P(X|C2)=P(C2)*P(sunny|n)*P(cool|n)*P(high|n)* P(strong|n) = 0.021

Xnewthuc lp C2 (“no”)

VÍ DỤ 1 :

22

Thời gian : 5’

Hãy xác định lớp cho mẫu mới sau :

Xnew = < Outlook = overcast , Temp = cool, Humidity = high, Windy = strong>

Bài tập

Trang 12

Các giá trị P(X|Y) và P(Y)

Outlook P(sunny | y) = 2/9 P(sunny | n) = 3/5 P(overcast | y) = 4/9 P(overcast | n) = 0 P(rain | y) = 3/9 P(rain | n) = 2/5 Temperature

P(hot | y) = 2/9 P(hot | n) = 2/5 P(mild | y) = 4/9 P(mild | n) = 2/5 P(cool | y) = 3/9 P(cool | n) = 1/5 Humidity

P(high | y) = 3/9 P(high | n) = 4/5 P(normal | y) = 6/9 P(normal | n) = 1/5 Windy

P(strong | y) = 3/9 P(strong | n) = 3/5 P(weak | y) = 6/9 P(weak | n) = 2/5

P(hot | y) = 4/12 P(hot | n) = 3/8 P(mild | y) = 5/12 P(mild | n) = 3/8 P(cool | y) = 4/12 P(cool | n) = 2/8 Humidity

P(high | y) = 4/11 P(high | n) = 5/7 P(normal | y) = 7/11 P(normal | n) = 2/7 Windy

P(strong | y) = 4/11 P(strong | n) = 4/7 P(weak | y) = 7/11 P(weak | n) = 3/7

Trang 13

B2 : Phân loại

Xnew = < Outlook = overcast , Temp = cool, Humidity

= high, Windy = strong>

Ta tính theo công thức làm trơn Laplace :

• Nếu thuộc tính nhận giá trị liên tục thì xác

2

1 )

, ,

µ

σ π

σ µ

g

) ,

, ( )

|

(

i

i C C

k x g Ci

Trang 15

 Thuật toán k- láng giềng gần nhất (k-NN)

 Hồi qui với trọng số cục bộ (Locally weighted regression)

 Suy luận dựa trên trường hợp (Case-based reasoning)

30

K- LÁNG GIỀNG GẦN NHẤT

Hãy cho tôi biết bạn của bạn là ai, tôi

sẽ nói bạn là người như thế nào.

• Một mẫu mới được gán vào lớp có

nhiều mẫu giống với nó nhất trong số k

mẫu gần nhất

Trang 16

K- LÁNG GIỀNG GẦN NHẤT

 Thuật toán xác định lớp cho mẫu mới E :

 Tính khoảng cách giữa E và tất cả các mẫu trong tập huấn luyện

 Chọn k mẫu gần nhất với E trong tập huấn luyện

 Gán E vào lớp có nhiều mẫu nhất trong số k mẫu láng giềng đó (hoặc E nhận giá trị trung bình của k mẫu)

• Tính khoảng cách giữa 2 mẫu/ đối tượng

• Mỗi mẫu - tập thuộc tính số

• Khoảng cách Euclide gia X=(x1,…xn) và Y=(y1,…yn) là:

• Khi thực hiện so sánh, có thể bỏ qua căn bậc

X D

1

2

) (

) , (

Trang 17

• Các thuộc tính có miền giá trị khác nhau

-> Cn chun hóa giá tr thuc tính

No of credit cards=2

i i

i

v v

v v

a

min max

min

=

Trang 18

 Cần nhiều thời gian để xác định

lớp cho một mẫu mới (cần tính và

so sánh khoảng cách đến tất cả

các mẫu)

 Ph thuc vào giá tr k do ng i

 Nu k quá nh", nhy c m vi

nhi#u

 Nu k quá ln, vùng lân c$n có th

ch%a các đim ca lp khác

Trang 19

NỘI DUNG

1 Giới thiệu

hiện

38

Đ ánh giá mô hình

của mô hình có thể phụ thuộc vào các yếu tố khác :

thử nghiệm

Trang 20

Đ ánh giá mô hình

hình hơn là tốc độ phân loại hay xây dựng

a: TP (true positive) b: FN (false negative)

c: FP (false positive) d: TN (true negative)

(FP)

d (TN)

FN FP

TN TP

TN TP d

c b a

d a

+ +

+

+

= + + +

+

= Acc(M)

Trang 21

a p

r rp

b a a

c a a

+ +

= +

(F) measure -

F

(r) Recall

(p) Precision

Trang 22

 Các mẫu có thể không đại diện cho toàn bộ

DL : thiếu lớp trong tập thử nghiệm

 Dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bố đều trong cả 2 tập DL huấn luyện và thử nghiệm

 Lấy mẫu ngẫu nhiên : thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác

44

Phương pháp đánh giá

thước

 Ti m'i vòng l(p s) dng mt t$p con là t$p th) nghim và các t$p con còn li là t$p hun luyn

 Leave-one-out : k=s mu trong DL (dành cho t$p DL nh")

pháp lấy mẫu để phân bố các lớp trong từng tập con như trên toàn bộ DL.

Trang 23

Sử dụng thuật toán k-NN với

k = 3 để xác định lớp cho “Dũng”

46

TÓM TẮT

 Phân lớp là hình thức phân tích DL để rút ra các mô hình mô tả các lớp DL quan trọng

 Nhiều thuật toán hiệu quả được phát triển

 Không thuật toán nào vượt trội nhất cho mọi tập DL

 Các vấn đề như độ chính xác, thời gian huấn luyện, tính linh hoạt, khả năng co giãn,… cần quân tâm và nghiên cứu sâu hơn

Trang 24

1 Cho tập huấn luyện như trong ví dụ 1 của bài 5-P1 (“mua”,”khơng mua máy tính”) Áp dụng thuật tốn Nạve Bayes cho ví dụ 1 và xác định lớp cho mẫu mới : X= (<=30, medium, yes, fair)

So sánh với kết quả phân lớp sử dụng cây quyết định.

2 Cho tập huấn luyện như trong ví dụ 3 của bài 5-P1

Áp dụng phương pháp Nạve Bayes để tính các xác suất P(Ci) và P(xk|Ci) với C1 =“yes”, C2 = “no” Chuẩn hĩa các xác suất bằng phương pháp làm trơn Laplace

<=30 medium yes excellent yes

31…40 medium no excellent yes

>40 medium no excellent no

Tập DL huấn luyện ví dụ 1 – bài 5-P1

Trang 25

Tập DL huấn luyện ví dụ 3 – bài 5-P1

No Size Color Shape Decision

3 Cho tập huấn luyện sau :

a) Sử dụng thuật tốn k-NN để xác định lớp cho “Tuyến” với

k = 3, hoặc 5, hoặc 7 So sánh kết quả thu được.

b) Chuẩn hĩa DL và xác định lớp cho “Dũng” So sánh kết quả với câu a).

c) Tìm phương pháp biến đổi tập DL bên về dạng cĩ thể áp dụng phương pháp cây quyết định, ILA, Nạve Bayes Áp dụng một trong 3 phương pháp đĩ lên DL đã biến đổi để xác định lớp cho “Dũng” So sánh kết quả với câu a).

4 So sánh ưu điểm, khuyết điểm của các phương pháp phân lớp dựa trên cây quyết định, dựa trên luật, xác suất và dựa trên thể hiện

Trang 26

TÀI LIỆU THAM KHẢO

1 T M Mitchell, Machine Learning McGraw Hill,

Trang 27

CÁC CÔNG VIỆC CẦN LÀM

1 Thực hiện bài tập nhóm chương 4 – Phần 2.

10/9/2008

2 Thảo luận và tự thực hiện các bài tập của chương

4 –Phần 1và Phần 2 (không nộp)

3 Chuẩn bị bài 5 : Gom nhóm dữ liệu

... thể áp dụng phương pháp định, ILA, Nạve Bayes Áp dụng phương pháp đĩ lên DL biến đổi để xác định lớp cho “Dũng” So sánh kết với câu a).

4 So sánh ưu điểm, khuyết điểm phương pháp. .. phương pháp phân lớp dựa định, dựa luật, xác suất dựa thể

Trang 26

TÀI LIỆU THAM KHẢO

1... data-page="22">

 Các mẫu khơng đại diện cho tồn bộ

DL : thiếu lớp tập thử nghiệm

 Dùng phương pháp lấy mẫu cho lớp phân

Ngày đăng: 31/08/2012, 16:13

HÌNH ẢNH LIÊN QUAN

4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
4. Đánh giá mơ hình (Trang 2)
Thời gia n: 5’ - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
h ời gia n: 5’ (Trang 2)
4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
4. Đánh giá mơ hình (Trang 4)
1. Phân lớp theo mơ hình xác suất : - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
1. Phân lớp theo mơ hình xác suất : (Trang 4)
XD mơ hình : Lượng giá P(X |Y), P(Y) Phân lớp : Dùng định lý Bayes để tính  - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
m ơ hình : Lượng giá P(X |Y), P(Y) Phân lớp : Dùng định lý Bayes để tính (Trang 6)
Th ời gian thi hành tương tự như cây quyết - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
h ời gian thi hành tương tự như cây quyết (Trang 14)
4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
4. Đánh giá mơ hình (Trang 14)
4. Đánh giá mơ hình - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
4. Đánh giá mơ hình (Trang 19)
của mơ hình cĩ thể phụ thuộc vào - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
c ủa mơ hình cĩ thể phụ thuộc vào (Trang 19)
Độ chính xác của mơ hình M, acc(M) - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
ch ính xác của mơ hình M, acc(M) (Trang 20)
39Đ ánh giá mơ hình  - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
39 Đ ánh giá mơ hình (Trang 20)
Độ lỗi của mơ hình M, error_rate(M) =1-acc(M) - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
l ỗi của mơ hình M, error_rate(M) =1-acc(M) (Trang 21)
Phân lớp là hình thức phân tích DL để rút ra - Phương pháp dựa trên thể hiện - Phân lớp dữ liệu
h ân lớp là hình thức phân tích DL để rút ra (Trang 23)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w