Assignment 2:Dữ liệu đầu vào: Cân nặng của các vận động viên nam và nữ, lấy từ tập dữ liệu athletes.csv trên Kanggle ω1 là cân nặng của các vận động viên nữ ωω2 là cân nặng của các vận
Trang 1Assignment 2:
Dữ liệu đầu vào: Cân nặng của các vận động viên nam và nữ, lấy từ tập dữ
liệu athletes.csv trên Kanggle
ω1 là cân nặng của các vận động viên nữ ωω2
là cân nặng của các vận động viên nam
Mô tả bài toán: Dùng bayes, tính likelihood, posterior, risk của 2 tập dữ liệu Sau
đó áp dụng luật quyết định của bayes, phân loại x (cân nặng) vào các lớp phù hợp (nam và nữ)
Thực hiện bài toán:
1. Xử lý dữ liệu: Tải dữ liệu lên, sau đó trích xuất cân nặng của vận động viên
theo giới tính, lưu vào ω1 và ω2
Omega1, omega2 lần lượt là cân nặng của vận động viên nam và nữ
Samples là tập không gian mẫu
Array_x là các giá trị x xuất hiện trong samples
Trang 32. Xây dựng hàm:
3. Áp dụng:
Tính likelihood:
Trang 4Biểu đồ thể hiện:
Trang 5Tính posterior:
Từ biểu đồ trên, áp dụng luật quyết định của bayes:
Trang 6Tính Risk: Cho 2 hành động α 1 và α2:
Trang 7Từ biểu đồ trên, áp dụng luật quyết định của bayes:
Link source code:
https://colab.research.google.com/drive/1spRZFDFZmHWVoxGXGJnA8DO wqgcqAeIY?usp=sharing
Trang 8Assignment 3:
I Phân lớp bằng biệt hàm với hàm phân phối chuẩn 1 Biệt hàm
g i ( x)=P(ω i|x )= c ωp ( x|ω i ) P (ω i )
∑ p (x|ω ω j )P (ω ω j )
j=1
~ g i (x )= p(x∨ω i ) P(ω i)
g i (x)=ln p(x∨ω i )+ln P(ω i )
2 Biệt hàm với dữ liệu phân phối chuẩn
g i (x )=ln p(x∨ω i )+ ln P(ω i ) (1)
p(x )= ¿¿1 (2)
(1), (2) =>
g i (x ) ¿ −1
2 ¿
3 Tường hợp 1: ∑ i =σ2I
Trang 9 |∑ i|=σ 2 d, ∑ i−1=(1/σ2 )
g i ( x)= −¿∨x−μ i ∨ ¿2
+ln P (ω i )
2σ 2
T ωx−2 μ i T ωx+μ i T ωμ i)
+ln P(ω )
T ωμ i
i 0
Hiện thực: với tập dữ liệu có 1 thuộc tính
Trang 10Kết quả phân lớp:
Với tập dữ liệu tổng quát
Trang 11Kết quả phân lớp
Trang 134 Tường hợp 1: ∑ i =∑
g ( x)= −1 ¿
i
2
g i ( x)= −( x T ω∑−1 x−2 μ i T ω∑−1 x+μ i T ω∑−1μ i )
+ln P (ω i ) 2
Trang 14¿> μ T ω∑−1 x− μ i
T ω∑−1 μ i
+ ln P(ω )=w T ωx + w
i 0
i
Hiện ωthực với tập dữ liệu tổng quát
Trang 16Sử dụng Naive Bayes để phân loại hoa
Trang 171 Dữ liệu: bao gồm 150 mẫu với 4 thuộc tính(sepal length,
sepal width, petal length, petal width)
Trang 182 Về Naive Bayes Classifier
Công thức bayes
P(ω i ∨x)= p(x ∨ω i )P(ω i ) = p (x∨ω i )P (ω i )
∑ p(x∨ω i )P(ω
p(x )
i
Trang 19Với các thuộc tính x sẽ tính được xác suất rơi vào các lớp, lớp được chọn sẽ là lớp có xác suất cao nhất
ω=argmax (P (ω|x ))
ω=argmax ( p (x|ω )P (ω ))
Priori được tích dựa trên xác xuất suất hiện lớp đó
Với giả thiết Naive Bayes, các thành phần x sẽ độc lập
d
p ( x|ω)=∏ p (x i|ω)
i=1
d
ω=argmax (P (ω )∏ p ( x i|ω))
i=1
Dữ liệu phân phối chuẩn => p ( x i|ω)được tính
Trang 20p ( x
i
|ω) = ¿
p (x i | µ, σ)) = σ √ 2 π
−(x i− µ)
1 2 σ2
Hiện thực bằng python
1LUqPObDbjmD6mdVEAK1YI1Ts_vpoFbow?usp=sharing
Kết quả :
Kết quả khi sử dụng thư viện sklearn: