- Nếu dữ liệu phân bổ quá hỗn loạn, rời rạc thì phép kiểm định phải đưa ra khả năng sai số là nhiều hay ít: + Sai số ít thì chấp nhận giả thiết là có thể lấy số đo đó đại diện cho toàn b
Trang 1Lý do để kiểm định thống kê:
- Khi mà cta không thể đo được hết các số liệu đầy đủ của toàn bộ quần thể Khi
đo đạc một cái gì đó, do việc lấy dữ liệu toàn bộ của quần thể là khó khăn và tốn kém, cho nên ta thường lấy đại diện một số phần tử ở trong quần thể để đo
và phán đoán xem số đo là bao nhiêu Sau đó phải kiểm định lại xem cái số liệu
đo được có thể chấp nhận đc ko (có thể đại diện cho quần thể ko)
- Nếu dữ liệu phân bổ quá hỗn loạn, rời rạc thì phép kiểm định phải đưa ra khả năng sai số là nhiều hay ít:
+ Sai số ít thì chấp nhận giả thiết là có thể lấy số đo đó đại diện cho toàn
bộ quần thể + Sai số quá lớn thì ta ko thể khẳng định được phép đo của chúng ta có thể
áp dụng cho toàn bộ quần thể
Kiểm định thống kê là gì:
- Kiểm định thống kê cung cấp một cơ chế để đưa ra các quyết định định lượng
về một quá trình hoặc các quá trình
- Xác định xem có đủ bằng chứng để "bác bỏ" một phỏng đoán hoặc giả thuyết
về quy trình đó hay không
- Giả thuyết ban đầu được gọi là null hypothesis (giả thuyết vô hiệu)
- Bác bỏ một giả thuyết là kết luận rằng nó sai
- Tuy nhiên, chấp nhận một giả thuyết không có nghĩa là nó đúng, chỉ là chúng
ta không có bằng chứng để tin ngược lại
- Do đó, các kiểm định giả thuyết thường được phát biểu dưới dạng cả điều kiện nghi ngờ (giả thuyết vô hiệu - ) và điều kiện được tin tưởng (giả thuyết thay thế
- )
- – tạm coi kết luận của cta với tập mẫu áp dụng được cho cả quần thể, sau đó ta
đi kiểm định Nếu sai số ít thì chấp nhận , nếu sai số nhiều thì ta phải chấp nhận giả thiết còn lại
- Có 2 loại sai số:
+ Sai số loại I: Bác bỏ trong khi đúng – là xác suất của sai số loại I (mức ý nghĩa)
+ Sai số loại II: Chấp nhận trong khi sai – là xác suất của sai số loại II
Trang 2Ví dụ:
1 Để đảm bảo kích thước trung bình của táo Royal Gala bằng với kích thước trung bình của táo Jazz
−: kích thước trung bình của táo Royal Gala = kích thước trung bình của táo Jazz
−: kích thước trung bình của táo Royal Gala ≠ kích thước trung bình của táo Jazz
2 Để đảm bảo rằng nhiều bóng đèn có tuổi thọ trung bình ít nhất là 500 giờ
− : tuổi thọ trung bình trung bình lớn hơn hoặc bằng 500 giờ
− : tuổi thọ trung bình trung bình là dưới 500 giờ
3 Để đảm bảo độ chính xác trung bình của thuật toán EC 1 giống với độ chính xác trung bình của thuật toán EC 2
− : độ chính xác TB của thuật toán EC 1 = độ chính xác trung bình của thuật toán EC 2
− : độ chính xác TB của thuật toán EC 1 ≠ độ chính xác trung bình của thuật toán EC 2
Quá trình kiểm định:
B1: Đưa gia giả thiết (ban đầu và thay thế)
B2: Lấy dữ liệu
B3: Chọn phương pháp kiểm định thống kê thích hợp cùng với mức độ ý nghĩa
B4: Tính toán và quyết định
Trang 3- 2 nhóm: so sánh giá trị của 2 nhóm dữ liệu Tương tự với n nhóm
- Parametric Test (normality) – Kiểm định tuân theo phân bố chuẩn: Nếu data
tuân theo phân bố chuẩn thì mới áp dụng
- Non - parametric Test (no normality) – Kiểm định tuân không theo phân bố
chuẩn: Nếu data không tuân theo phân bố chuẩn thì áp dụng
- Phân phối chuẩn (Normal Distribution) là sự phân bố dữ liệu mà ở đó giá trị tập trung nhiều nhất ở khoảng giữa và các giá trị còn lại rải đều đối xứng về phía các điểm cực trị (hình quả chuông)
- Paired: Nhóm dữ liệu có mối quan hệ với nhau (1 nhóm nhưng tại 2 thời
điểm) (VD: Kết quả SV của học viện HK II tốt hơn HK I)
- Unpaired: Nhóm dữ liệu khác nhau, độc lập với nhau (VD: so sánh kích thước
táo Royal Gala vs táo jazz)
T – test:
− Cho biết sự khác biệt đáng kể giữa các nhóm;
− Nói cách khác, nó cho bạn biết liệu những khác biệt đó (được đo bằng means/averages) có thể tình cờ xảy ra hay không
− T - score là một tỷ số giữa sự khác biệt giữa hai nhóm và sự khác biệt trong các nhóm
− T - score lớn cho bạn biết rằng các nhóm là khác nhau
− T - score nhỏ cho bạn biết rằng các nhóm tương tự nhau
− t-score = 3 có nghĩa là các nhóm khác xa nhau ba lần khi chúng ở trong nhau
− Khi bạn chạy thử nghiệm t, giá trị t càng lớn thì kết quả càng có khả năng lặp lại
− Mọi giá trị t đều có một giá trị p đi kèm với nó Giá trị p là xác suất mà kết quả
từ tập mẫu của có khả năng thay đổi
− Giá trị P từ 0% đến 100%
− Giá trị p thấp là tốt;
− Ví dụ: giá trị p là 0,01 nghĩa là chỉ có 1% xác suất kết quả từ một thử nghiệm thay đổi
Trang 4− Trong hầu hết các trường hợp, giá trị p là 0,05 (5%) được chấp nhận có nghĩa
là dữ liệu hợp lệ
− Có ba loại t-test chính:
+Un-paired t-test so sánh giá trị trung bình cho hai nhóm.
+One sample t-test tests kiểm tra giá trị trung bình của một nhóm đơn lẻ so
với giá trị trung bình đã biết (so sánh với 1 giá trị cụ thể)
+Paired sample t-test so sánh các phương tiện từ cùng một nhóm tại các thời
điểm khác nhau (giả sử cách nhau một năm)
- Phân phối t để kiểm tra một trong hai giả thuyết ban đầu có thể có:
+ giá trị trung bình của hai quần thể bằng nhau, trong đó áp dụng phép thử hai
phía (two-tailed test);
+ một trong các giá trị trung bình của quần thể lớn hơn hoặc bằng giá trị kia,
trong đó phép thử một phía được áp dụng (one-tailed test)
UN PAIRED T-TEST:
Trang 5- Giả thiết:
o Independence: bạn cần hai nhóm phân loại, độc lập đại diện cho các
biến độc lập của bạn
o Normality: biến phụ thuộc phải được phân phối chuẩn (Kiểm tra tiêu
chuẩn)
- Student's t-test: giả định rằng hai quần thể có phương sai bằng nhau.
- Welch's t-test: được thiết kế cho các phương sai không bằng nhau.
S – độ lệch chuẩn
F – test: dùng để so sánh 2 phương sai
là bằng nhau, là khác
1 F Value = Variance of 1 st Data Set / Variance of 2 nd Data Set
2. Tìm F critical value từ F table theo bậc tự do
(df = n – 1) và mức ý nghĩa (level of significance)
F_critical (df1,df2) =
3 So sánh 2 giá trị này, nếu F critical value < F value, ta có thể bác bỏ giả thuyết
Chú ý: ( https://www.educba.com/f-test-formula/)
- Đầu tiên là chúng ta cần phải luôn đặt tử số có giá trị phương sai cao hơn trong khi tính giá trị F, để buộc thử nghiệm thành kiểm nghiệm right-tailed Các bài kiểm định right-tailed dễ tính hơn Vì vậy nếu F = V1 / V2 thì V1 phải> V2
- Nếu chúng ta muốn thực hiện kiểm định 2 đuôi (two-tailed test), chúng ta cần chia mức ý nghĩa cho 2 và đó sẽ là mức chính xác để tìm critical value
- Chỉ sử dụng phương sai là phép tính giá trị F và nếu được cung cấp với độ lệch chuẩn, thì phải được bình phương để tìm phương sai.
- Cả hai mẫu phải độc lập với nhau và cỡ mẫu phải nhỏ hơn 30
- Tập quần mà các mẫu được lấy ra phải được phân phối chuẩn
Student's t-test
- Step 1:
Trang 6mA , mB đại diện cho giá trị trung bình của nhóm A và B
- Step 2: đọc trong bảng t test giá trị critical của phân phối Student’s t tương
ứng với mức ý nghĩa mà bạn chọn (5%) Bậc tự do (df) được sử dụng trong
kiểm định này là df=nA+nB-2
- Step 3: Nếu giá trị tuyệt đối của t-test statistics (|t|) lớn hơn giá trị critical, thì
sự khác biệt là đáng kể (bác bỏ giả thiết ban đầu) Ngược lại thì không (chấp nhận)
|t| > t_critical : bác bỏ H0
Ngược lại chấp nhận H0
Welch's t-test
- Step 1:
mA , mB đại diện cho giá trị trung bình của nhóm A và B
là độ lệch chuẩn của hai nhóm A và B
- Step 2: đọc trong bảng t test giá trị critical của phân phối Student’s t tương
ứng với mức ý nghĩa mà bạn chọn (5%) Bậc tự do (df) được sử dụng trong kiểm định này là:
- Step 3: Nếu giá trị tuyệt đối của t-test statistics (|t|) lớn hơn giá trị critical, thì
sự khác biệt là đáng kể (bác bỏ giả thiết ban đầu) Ngược lại thì không (chấp nhận)
|t| > t_critical : bác bỏ H0
Ngược lại chấp nhận H0
Trang 7ONE-SAMPLE T-TEST
- Step 1:
m và s là giá trị trung bình và độ lệch chuẩn của của tập giá trị có kích thước là
n
- Step 2: đọc trong bảng t test giá trị critical của phân phối Student’s t tương
ứng với mức ý nghĩa mà bạn chọn (5%) Bậc tự do (df) được sử dụng trong kiểm định này là: df = n-1
- Step 3: Nếu giá trị tuyệt đối của t-test statistics (|t|) lớn hơn giá trị critical, thì
sự khác biệt là đáng kể (bác bỏ giả thiết ban đầu) Ngược lại thì không (chấp nhận)
|t| > t_critical : bác bỏ H0
Ngược lại chấp nhận H0
Trang 8PAIRED T-TEST
- Step 1:
m và s lần lượt là giá trị trung bình và độ lệch chuẩn của độ khác biệt (d) n là kích thước của d
- Step 2: đọc trong bảng t test giá trị critical của phân phối Student’s t tương
ứng với mức ý nghĩa mà bạn chọn (5%) Bậc tự do (df) được sử dụng trong kiểm định này là: df = n-1
- Step 3: Nếu giá trị tuyệt đối của t-test statistics (|t|) lớn hơn giá trị critical, thì
sự khác biệt là đáng kể (bác bỏ giả thiết ban đầu) Ngược lại thì không (chấp nhận)
• Example:
critical value = 2.093
Trang 9- Test phân bố chuẩn:
https://www.statskingdom.com/kolmogorov-smirnov-test-calculator.html
- F-test: https://ncalculators.com/statistics/f-test-calculator.htm
https://www.statskingdom.com/220VarF2.html (H0: σ12 = σ2 2)
- Tính t- value:
+ Student’s t-test: http://www.sthda.com/english/rsthda/unpaired-t-test.php
+ T – test khác: https://www.statskingdom.com/t_test.html
− (Tính critical (tra bảng t-table và f-table): https://calculator-online.net/critical-value-calculator/ )
hoặc điền các tham số vào https://www.omnicalculator.com/statistics/t-test
(nhớ chọn đúng dạng bài)
Các bước:
Test phân bố chuẩn -> xác định dạng bài:
+ un paired: test phương sai có bằng ko (f – test để tính val, sau đó tính f-critical)
- bằng thì chọn Student’s t-test,
- ko bằng chọn Two-sample t-test (Welch's)
để tính t-val, sau đó tính t-critical + one sample t-test: One-sample t-test để tính t-val, sau đó tính t-critical + paired t –test: Paired t-test để tính t-val, sau đó tính t-critical
Cuối cùng là so sánh |t-val| và t-critical (unpaired test ):
+ |t-val| > t-critical : Bác bỏ H0
+ Ngược lại: Chấp nhận H0
Hoặc điền các giá trị vừa tìm đc vào link t-test ( phải chọn đúng test type,
Alternative hypothesis H , alpha) -> tool này đưa ra kết luận luôn ( ₁ one sample, paired )
Trang 10Bài tập
Bài 1:
Một bài báo đăng năm 1992 trên tạp chí Journal of the American Medical Association một nghiên cứu về nhiệt độ cơ thể, giới tính và nhịp tim trên một nhóm người, nhiệt
độ cơ thể của 25 phụ nữ như sau: 97.8, 97.2, 97.4, 97.6, 97.8, 97.9, 98.0, 98.0, 98.0, 98.1, 98.2, 98.3, 98.3, 98.4, 98.4, 98.4, 98.5, 98.6, 98.6, 98.7, 98.8, 98.8, 98.9, 98.9,
và 99.0
Giả sử nhiệt độ cơ thể tuân theo phân phối chuẩn Hãy kiểm tra giả thuyết và đối thuyết
Giải:
Dạng One sample t-test:
n = 25
m = 98.264
s = 0.482 => t = -3.485
df = n – 1 = 24
t – critical = 2.0639
khi đó: |t| > t-critical => bác bỏ
Trang 11Bài 2:
Một nghiên cứu nhằm kiểm định sự khác biệt về số Km mà các nhân viên y tế đi hiện trường giữa kế hoạch làm việc 6 ngày/tuần và 5 ngày/tuần Số liệu được thu thập cho
6 nhân viên trong 1 năm như sau:
Tên nhân viên 6 ngày/tuần 5 ngày/tuần Chênh lệch
Trung bình 6637 5053 1583
Độ lệch chuẩn 1751 1302 869
Với mức ý nghĩa 5% kiểm định xem số km mà các nhân viên y tế đi hiện trường giữa
5 ngày/tuần và 6 ngày/tuần có khác nhau không?
Giải:
giả thuyết số km mà các nhân viên y tế đi hiện trường giữa 5 ngày/tuần = 6 ngày/tuần đối thuyết số km mà các nhân viên y tế đi hiện trường giữa 5 ngày/tuần 6 ngày/tuần Kiểm tra kolmogorov-smirnov của 2 tập mẫu -> là phân bố chuẩn
Dạng Paired t-test:
Tính toán trên tập chênh lệch:
m = 1583
s = 896
n = 6
⇨ t = 4.4622
df = n-1 = 5
t_ critical = 2.5705
Khi đó: |t| > t-critical => bác bỏ
Trang 13Bài 3:
Một loại đèn chiếu được nhà sản xuất quảng cáo có tuổi thọ trung bình thấp nhất là
65 giờ Kết quả kiểm tra ngẫu nhiên 21 đèn cho thấy tuổi thọ trung bình là 62,5 giờ,
độ lệch mẫu hiệu chỉnh là 3 giờ Sử dụng kiểm định t-test, với mức ý nghĩa 1% có thể kết luận gì về lời quảng cáo đó?
Giải:
− : tuổi thọ trung bình trung bình lớn hơn hoặc bằng 65 giờ
− : tuổi thọ trung bình trung bình là dưới 65 giờ
⇨ one-tailed test (left – tailed test)
Dạng One sample t-test:
n = 21
m = 62,5
s = 3 => t = -3.819
df = n – 1 = 20
t – critical = -2.528
khi đó: |t| > t-critical => bác bỏ
Trang 14Bài 4:
Dựa trên các thí nghiệm đồng ruộng, một loại cây xanh giống mới dự kiến sẽ cho năng suất 12,0 tạ / ha Giống được thử nghiệm trên 10 ruộng nông dân được chọn ngẫu nhiên Sản lượng được ghi là 14.3, 12.6, 13.7, 10.9, 13.7, 12.0, 11.4, 12.0, 12.6, 13.1 Kết quả có phù hợp với mong đợi không?
Giải:
giả thuyết và
đối thuyết
Kiểm tra kolmogorov-smirnov của tập mẫu -> là phân bố chuẩn
Dạng One sample t-test:
n = 10
m = 12.63
s = 1.085 => t = 1.836
df = n – 1 = 9
t – critical = 2.262
khi đó: |t| < t-critical => Chấp nhận
Trang 15Bài 5:
Một nhóm 5 bệnh nhân được điều trị bằng thuốc A có trọng lượng 42,39,38,60 & 41
kg Nhóm thứ hai gồm 7 bệnh nhân từ cùng một bệnh viện được điều trị bằng thuốc B
có trọng lượng 38, 42, 56, 64, 68, 69 và 62 kg Tìm xem có sự khác biệt nào giữa các loại thuốc không?
Giải:
giả thuyết và
đối thuyết chọn
Kiểm tra kolmogorov-smirnov của 2 tập mẫu -> là phân bố chuẩn
Dạng un-paired
Đầu tiên, thực hiện F-test để so sánh phương sai:
H0: σ12 = σ22
H1: σ12 σ22
82.5
154.33333
⇨ f-value = = 0.5346
⇨ f-critical = 6.2272
Khi đó: f-value < f-critical => chấp nhận => Phương sai bằng nhau
⇨Sử dụng student’s t-test:
t- value = -1.981
df = nA+nB-2 = 10 => t-critical = 2.2281
Khi đó: |t| < t-critical => chấp nhận
Trang 16Bài 6:
Dữ liệu sau đây liên quan đến tỷ lệ cao su của hai loại cây cao su, trong đó mẫu được lấy độc lập Kiểm tra sự khác biệt trung bình của chúng.
Type
I
6.21 5.70 6.04 4.47 5.22 4.45 4.84 5.88 5.84 5.88 6.09 5.59 6.06 5.59 6.74 5.55
Type
II 4.28 7.71 6.48 7.71 7.37 7.20 7.06 6.40 8.93 5.91 5.51
6.3 6
Bài 7:
Trong một thí nghiệm thực phẩm nào đó để so sánh hai loại thức ăn trẻ em A và
B, chúng tôi đã quan sát được kết quả về sự gia tăng trọng lượng (lbs) ở 8 đứa trẻ như sau.
Food A
Food B
Trang 17Bài 8:
Để so sánh năng lực học toán và vật lý của học sinh, người ta kiểm tra ngẫu nhiên 8
em bằng hai bài toán và vật lý Kết quả cho bởi bảng dưới đây (X là điểm toán, Y là điểm lý):
Có ý kiến cho rằng điểm số trung bình toán và lý bằng nhau Hãy kiểm tra ý kiến trên
ở mức
Giải:
Sử dụng Kolmogorov-Smirnov test để kiểm tra phân bố chuẩn -> dữ liệu tuân theo phân bố chuẩn
Dạng paired t-test:
Gọi , lần lượt là trung bình điểm toán và lý Khi đó:
: =
:
Gọi d là độ khác biệt của mẫu:
Ta có:
m = 0.75
s = 2.964
n = 8
=> t = 0.716
df = n-1 = 7
=> t_critical = 2.3646
Khi đó: |t| < t_ critical => chấp nhận Vậy điểm số trung bình toán và lý bằng nhau
Trang 18Bài 9:
Người ta cân ngẫu nhiên 16 trẻ em hai tuổi Kết quả được cho ở bảng sau (đv: Kg)
Giả sử trọng lượng của trẻ em tuân theo phân bố chuẩn Hãy kiểm định xem trọng lượng trung bình của trẻ có phải là 13kg hay không?
Giải:
Dạng One sample t-test:
n = 16
m = 12.825
s = 0.344
=> t = -2.038
df = n - 1 = 15
=> t_critical = 2.131
Khi đó: |t| < t_critical => Chấp nhận Vậy trọng lượng trung bình của trẻ là 13kg