1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) assignment 2 dữ liệu đầu vào cân nặng của các vận động viên nam và nữ, lấy từ tập dữ liệu athletes csv trên kanggle

20 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Assignment 2 dữ liệu đầu vào cân nặng của các vận động viên nam và nữ, lấy từ tập dữ liệu athletes csv trên Kanggle
Trường học Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học Dữ liệu / Phân tích Thống kê
Thể loại Bài tập
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 20
Dung lượng 1,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Assignment 2:Dữ liệu đầu vào: Cân nặng của các vận động viên nam và nữ, lấy từ tập dữ liệu athletes.csv trên Kanggle ω1 là cân nặng của các vận động viên nữ ωω2 là cân nặng của các vận

Trang 1

Assignment 2:

Dữ liệu đầu vào: Cân nặng của các vận động viên nam và nữ, lấy từ tập dữ

liệu athletes.csv trên Kanggle

ω1 là cân nặng của các vận động viên nữ ωω2

là cân nặng của các vận động viên nam

Mô tả bài toán: Dùng bayes, tính likelihood, posterior, risk của 2 tập dữ liệu Sau

đó áp dụng luật quyết định của bayes, phân loại x (cân nặng) vào các lớp phù hợp (nam và nữ)

Thực hiện bài toán:

1. Xử lý dữ liệu: Tải dữ liệu lên, sau đó trích xuất cân nặng của vận động viên

theo giới tính, lưu vào ω1 và ω2

 Omega1, omega2 lần lượt là cân nặng của vận động viên nam và nữ

 Samples là tập không gian mẫu

 Array_x là các giá trị x xuất hiện trong samples

Trang 3

2. Xây dựng hàm:

3. Áp dụng:

Tính likelihood:

Trang 4

Biểu đồ thể hiện:

Trang 5

Tính posterior:

Từ biểu đồ trên, áp dụng luật quyết định của bayes:

Trang 6

Tính Risk: Cho 2 hành động α 1 α2:

Trang 7

Từ biểu đồ trên, áp dụng luật quyết định của bayes:

Link source code:

https://colab.research.google.com/drive/1spRZFDFZmHWVoxGXGJnA8DO wqgcqAeIY?usp=sharing

Trang 8

Assignment 3:

I Phân lớp bằng biệt hàm với hàm phân phối chuẩn 1 Biệt hàm

g i ( x)=P(ω i|x )= c ωp ( x|ω i ) P (ω i )

p (x|ω ω j )P (ω ω j )

j=1

~ g i (x )= p(x∨ω i ) P(ω i)

g i (x)=ln p(x∨ω i )+ln P(ω i )

2 Biệt hàm với dữ liệu phân phối chuẩn

g i (x )=ln p(x∨ω i )+ ln P(ω i ) (1)

p(x )= ¿¿1 (2)

(1), (2) =>

g i (x ) ¿ −1

2 ¿

3 Tường hợp 1: ∑ i =σ2I

Trang 9

 |∑ i| 2 d, ∑ i−1=(1/σ2 )

g i ( x)= −¿∨x−μ i ∨ ¿2

+ln P (ω i )

2

T ωx−2 μ i T ωx+μ i T ωμ i)

+ln P(ω )

T ωμ i

i 0

Hiện thực: với tập dữ liệu có 1 thuộc tính

Trang 10

Kết quả phân lớp:

Với tập dữ liệu tổng quát

Trang 11

Kết quả phân lớp

Trang 13

4 Tường hợp 1: ∑ i =∑

g ( x)= −1 ¿

i

2

g i ( x)= −( x T ω∑−1 x−2 μ i T ω∑−1 x+μ i T ω∑−1μ i )

+ln P (ω i ) 2

Trang 14

¿> μ T ω∑−1 x− μ i

T ω∑−1 μ i

+ ln P(ω )=w T ωx + w

i 0

i

Hiện ωthực với tập dữ liệu tổng quát

Trang 16

Sử dụng Naive Bayes để phân loại hoa

Trang 17

1 Dữ liệu: bao gồm 150 mẫu với 4 thuộc tính(sepal length,

sepal width, petal length, petal width)

Trang 18

2 Về Naive Bayes Classifier

Công thức bayes

P(ω i ∨x)= p(x ∨ω i )P(ω i ) = p (x∨ω i )P (ω i )

p(x∨ω i )P(ω

p(x )

i

Trang 19

Với các thuộc tính x sẽ tính được xác suất rơi vào các lớp, lớp được chọn sẽ là lớp có xác suất cao nhất

ω=argmax (P (ω|x ))

ω=argmax ( p (x|ω )P (ω ))

Priori được tích dựa trên xác xuất suất hiện lớp đó

Với giả thiết Naive Bayes, các thành phần x sẽ độc lập

d

p ( x|ω)=∏ p (x i|ω)

i=1

d

ω=argmax (P (ω )∏ p ( x i|ω))

i=1

Dữ liệu phân phối chuẩn => p ( x i|ω)được tính

Trang 20

p ( x

i

|ω) = ¿

p (x i | µ, σ)) = σ √ 2 π

−(x iµ)

1 2 σ2

Hiện thực bằng python

1LUqPObDbjmD6mdVEAK1YI1Ts_vpoFbow?usp=sharing

Kết quả :

Kết quả khi sử dụng thư viện sklearn:

Ngày đăng: 30/11/2022, 13:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w