Dữ liệu phân loại: Vị trí bán hàng... MÔ TẢ DỮ LIỆU BẰNG BIỂU ĐỒ TẦN SUẤT Histogram 2... VÍ DỤ: TẦN SUẤT CỦA VỊ TRÍ BÁN HÀNGseaborn.countplot..... BIỂU ĐỒ TẦN SUẤT HISTOGRAM▰ Số lần hoặc
Trang 1Khoa học dữ liệu Bài 2 - Thống kê
Trang 2NỘI DUNG
Trang 3PHÂN LOẠI DỮ LIỆU
1
Trang 4DỮ LIỆU VÍ DỤ: QUÁN NƯỚC CHANH import pandas as pd
pd.read_csv( )
Trang 5DỮ LIỆU VÍ DỤ: QUÁN NƯỚC CHANH
Dữ liệu bán hàng trong 1 tháng
Trang 6PHÂN LOẠI DỮ LIỆU
1 Dữ liệu số:
a Dữ liệu liên tục: Nhiệt độ, giá cả
b Dữ liệu rời rạc: Số cốc nước, số tờ rơi, ngày bán
2 Dữ liệu phân loại: Vị trí bán hàng
Trang 7MÔ TẢ DỮ LIỆU BẰNG
BIỂU ĐỒ TẦN SUẤT
Histogram
2
Trang 8VÍ DỤ: TẦN SUẤT CỦA VỊ TRÍ BÁN HÀNG
seaborn.countplot( )
Trang 9VÍ DỤ: PHÂN BỐ NHIỆT ĐỘ TRONG THÁNG
seaborn.distplot( )
Trang 10BIỂU ĐỒ TẦN SUẤT (HISTOGRAM)
▰ Số lần hoặc tần suất xuất hiện
https://en.wikipedia.org/wiki/Seven_Basic_Tools_of_Quality
Trang 11BIỂU ĐỒ TẦN SUẤT (HISTOGRAM)
Lựa chọn số khoảng
lệ thuận với n 1/3
Trang 12MỘT SỐ LOẠI PHÂN BỐ THƯỜNG GẶP
Bernoulli p = 0,6 Binomial n = 20, p = 0,25 Poisson
Exponential Normal (phân bố chuẩn) Uniform (phân bố đều)
Trang 13PHÂN BỐ STUDENT-t
Độ lệch chuẩn
≽ 95%
Trang 14MÔ TẢ DỮ LIỆU BẰNG
ĐẠI LƯỢNG THỐNG KÊ
Descriptive statistics
3
Trang 15CÁC ĐẠI LƯỢNG THỐNG KÊ PHỔ BIẾN
đại diện toàn bộ dữ liệu
} Độ phân tán của dữ liệu
Trang 16KỲ VỌNG - TRUNG BÌNH CỘNG - MEAN
Ví dụ
trung bình mỗi ngày
Trang 17KỲ VỌNG - TRUNG BÌNH CỘNG - MEAN
▰ Tổng kết dữ liệu bằng 1 con số "gần" nhất
▰ Dễ bị ảnh hưởng bởi các dữ liệu "bất thường"
Trang 18TRUNG VỊ - MEDIAN
bằng số mẫu dữ liệu lớn hơn
tốt hơn kỳ vọng
Trung vị
50% trên 50% dưới
pandas.Series.median()
Trang 19TRUNG VỊ - MEDIAN
56
55,5
Trang 20(hoặc dữ liệu rời rạc)
tất cả các mẫu dữ liệu
pandas.Series.mode()
Trang 21xuất hiện nhiều lần
dữ liệu
hai mode
mode nằm ngoài
Trang 22PHƯƠNG SAI
pandas.Series.var()
Trang 23ĐỘ LỆCH CHUẨN
pandas.Series.std()
Có cùng đơn vị với dữ liệu !!!
Trang 24MÔ TẢ TƯƠNG QUAN DỮ LIỆU
Associative statistics
4
Trang 25HỆ SỐ TƯƠNG QUAN
Ví dụ:
▰ -0.27
pandas.Series.corr( )
Trang 26HỆ SỐ TƯƠNG QUAN
pandas.Series.corr( )
Trang 27HỆ SỐ TƯƠNG QUAN
pandas.Series.corr( )
Thời tiết tốt là nguyên nhân dẫn đến doanh thu
Doanh thu bán kem
Số vụ cá mập tấn công
Trang 28KIỂM TRA GIẢ THUYẾT THỐNG KÊ
Hypothesis testing
5
Trang 29GIẢ THUYẾT THỐNG KÊ
quan giữa các dữ liệu
▻ Nên loại bỏ khẳng định này (reject)
Trang 30GIẢ THUYẾT THỐNG KÊ
▰ Ví dụ:
Trang 31KIỂM TRA GIÁ TRỊ TRUNG BÌNH
▰ t-test: nếu giả thuyết đúng, T có phân bố
Trang 32KIỂM TRA GIÁ TRỊ TRUNG BÌNH
▰ t-test: nếu giả thuyết đúng, T có phân bố
Student-t(df)
▻ T gần 0 → giả thuyết chấp nhận được
▻ T xa 0 → giả thuyết nên bị loại bỏ
Trang 33KIỂM TRA GIÁ TRỊ TRUNG BÌNH
▰ t-test: nếu giả thuyết đúng, T có phân bố
Student-t(df)
▻ trị số p lớn → giả thuyết chấp nhận được
▻ trị số p nhỏ → giả thuyết nên bị loại bỏ
scipy.stats.ttest_1samp()
0 T
≽ 95%
-T
Trang 34KIỂM TRA GIÁ TRỊ TRUNG BÌNH
print("mu = 25", "T =", t25.statistic, "p =", t25.pvalue)
print("mu = 26", "T =", t26.statistic, "p =", t26.pvalue)
-mu = 25 T = 2.737795169120528 p = 0.0101535434145178
≽ 95%
Trang 35KIỂM TRA GIÁ TRỊ TRUNG BÌNH MỘT PHÍA
▰ t-test: trị số p bằng 1/2 so với giả thuyết
Trang 36KIỂM TRA GIÁ TRỊ TRUNG BÌNH MỘT PHÍA
print("mu = 25 vs mu > 25", "T =", t25.statistic, "p =", t25.pvalue / 2
print("mu = 26 vs mu > 26", "T =", t26.statistic, "p =", t26.pvalue / 2
Trang 37SO SÁNH GIÁ TRỊ TRUNG BÌNH CỦA 2 DỮ LIỆU
scipy.stats.ttest_ind() scipy.stats.ttest_rel()