1. Trang chủ
  2. » Thể loại khác

KHOA HỌC DỮ LIỆU.BÀI 2: THỐNG KÊ

37 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 1,75 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Dữ liệu phân loại: Vị trí bán hàng... MÔ TẢ DỮ LIỆU BẰNG BIỂU ĐỒ TẦN SUẤT Histogram 2... VÍ DỤ: TẦN SUẤT CỦA VỊ TRÍ BÁN HÀNGseaborn.countplot..... BIỂU ĐỒ TẦN SUẤT HISTOGRAM▰ Số lần hoặc

Trang 1

Khoa học dữ liệu Bài 2 - Thống kê

Trang 2

NỘI DUNG

Trang 3

PHÂN LOẠI DỮ LIỆU

1

Trang 4

DỮ LIỆU VÍ DỤ: QUÁN NƯỚC CHANH import pandas as pd

pd.read_csv( )

Trang 5

DỮ LIỆU VÍ DỤ: QUÁN NƯỚC CHANH

Dữ liệu bán hàng trong 1 tháng

Trang 6

PHÂN LOẠI DỮ LIỆU

1 Dữ liệu số:

a Dữ liệu liên tục: Nhiệt độ, giá cả

b Dữ liệu rời rạc: Số cốc nước, số tờ rơi, ngày bán

2 Dữ liệu phân loại: Vị trí bán hàng

Trang 7

MÔ TẢ DỮ LIỆU BẰNG

BIỂU ĐỒ TẦN SUẤT

Histogram

2

Trang 8

VÍ DỤ: TẦN SUẤT CỦA VỊ TRÍ BÁN HÀNG

seaborn.countplot( )

Trang 9

VÍ DỤ: PHÂN BỐ NHIỆT ĐỘ TRONG THÁNG

seaborn.distplot( )

Trang 10

BIỂU ĐỒ TẦN SUẤT (HISTOGRAM)

Số lần hoặc tần suất xuất hiện

https://en.wikipedia.org/wiki/Seven_Basic_Tools_of_Quality

Trang 11

BIỂU ĐỒ TẦN SUẤT (HISTOGRAM)

Lựa chọn số khoảng

lệ thuận với n 1/3

Trang 12

MỘT SỐ LOẠI PHÂN BỐ THƯỜNG GẶP

Bernoulli p = 0,6 Binomial n = 20, p = 0,25 Poisson

Exponential Normal (phân bố chuẩn) Uniform (phân bố đều)

Trang 13

PHÂN BỐ STUDENT-t

Độ lệch chuẩn

≽ 95%

Trang 14

MÔ TẢ DỮ LIỆU BẰNG

ĐẠI LƯỢNG THỐNG KÊ

Descriptive statistics

3

Trang 15

CÁC ĐẠI LƯỢNG THỐNG KÊ PHỔ BIẾN

đại diện toàn bộ dữ liệu

} Độ phân tán của dữ liệu

Trang 16

KỲ VỌNG - TRUNG BÌNH CỘNG - MEAN

Ví dụ

trung bình mỗi ngày

Trang 17

KỲ VỌNG - TRUNG BÌNH CỘNG - MEAN

Tổng kết dữ liệu bằng 1 con số "gần" nhất

Dễ bị ảnh hưởng bởi các dữ liệu "bất thường"

Trang 18

TRUNG VỊ - MEDIAN

bằng số mẫu dữ liệu lớn hơn

tốt hơn kỳ vọng

Trung vị

50% trên 50% dưới

pandas.Series.median()

Trang 19

TRUNG VỊ - MEDIAN

56

55,5

Trang 20

(hoặc dữ liệu rời rạc)

tất cả các mẫu dữ liệu

pandas.Series.mode()

Trang 21

xuất hiện nhiều lần

dữ liệu

hai mode

mode nằm ngoài

Trang 22

PHƯƠNG SAI

pandas.Series.var()

Trang 23

ĐỘ LỆCH CHUẨN

pandas.Series.std()

Có cùng đơn vị với dữ liệu !!!

Trang 24

MÔ TẢ TƯƠNG QUAN DỮ LIỆU

Associative statistics

4

Trang 25

HỆ SỐ TƯƠNG QUAN

Ví dụ:

▰ -0.27

pandas.Series.corr( )

Trang 26

HỆ SỐ TƯƠNG QUAN

pandas.Series.corr( )

Trang 27

HỆ SỐ TƯƠNG QUAN

pandas.Series.corr( )

Thời tiết tốt là nguyên nhân dẫn đến doanh thu

Doanh thu bán kem

Số vụ cá mập tấn công

Trang 28

KIỂM TRA GIẢ THUYẾT THỐNG KÊ

Hypothesis testing

5

Trang 29

GIẢ THUYẾT THỐNG KÊ

quan giữa các dữ liệu

▻ Nên loại bỏ khẳng định này (reject)

Trang 30

GIẢ THUYẾT THỐNG KÊ

Ví dụ:

Trang 31

KIỂM TRA GIÁ TRỊ TRUNG BÌNH

t-test: nếu giả thuyết đúng, T có phân bố

Trang 32

KIỂM TRA GIÁ TRỊ TRUNG BÌNH

t-test: nếu giả thuyết đúng, T có phân bố

Student-t(df)

T gần 0 → giả thuyết chấp nhận được

T xa 0 → giả thuyết nên bị loại bỏ

Trang 33

KIỂM TRA GIÁ TRỊ TRUNG BÌNH

t-test: nếu giả thuyết đúng, T có phân bố

Student-t(df)

trị số p lớn → giả thuyết chấp nhận được

trị số p nhỏ → giả thuyết nên bị loại bỏ

scipy.stats.ttest_1samp()

0 T

≽ 95%

-T

Trang 34

KIỂM TRA GIÁ TRỊ TRUNG BÌNH

print("mu = 25", "T =", t25.statistic, "p =", t25.pvalue)

print("mu = 26", "T =", t26.statistic, "p =", t26.pvalue)

-mu = 25 T = 2.737795169120528 p = 0.0101535434145178

≽ 95%

Trang 35

KIỂM TRA GIÁ TRỊ TRUNG BÌNH MỘT PHÍA

t-test: trị số p bằng 1/2 so với giả thuyết

Trang 36

KIỂM TRA GIÁ TRỊ TRUNG BÌNH MỘT PHÍA

print("mu = 25 vs mu > 25", "T =", t25.statistic, "p =", t25.pvalue / 2

print("mu = 26 vs mu > 26", "T =", t26.statistic, "p =", t26.pvalue / 2

Trang 37

SO SÁNH GIÁ TRỊ TRUNG BÌNH CỦA 2 DỮ LIỆU

scipy.stats.ttest_ind() scipy.stats.ttest_rel()

Ngày đăng: 28/08/2022, 11:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm