BIẾN KẾT CỤC ĐỊNH LƯỢNG LẬP LẠI TRÊN CÙNG MỘT ĐỐI TƯỢNG SO SÁNH TRƯỚC SAU CAN THIỆPChạy phép kiểm t test bắt cặp... BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN LÀ BIẾN NHỊ GIÁ HAI NHÓM ĐỘC
Trang 1LÝ THUYẾT
Trang 2BIẾN KẾT CỤC ĐỊNH LƯỢNG-KHÔNG CÓ BIẾN ĐỘC LẬP (SO SÁNH TRUNG BÌNH MỘT DÂN SỐ)
Chạy phép kiểm t-test một mẫu
Ho: mean = 10 degrees of freedom = 23
Ha: mean < 10 Ha: mean != 10 Ha: mean > 10
Pr(T < t) = 0.7958 Pr(|T| > |t|) = 0.4084 Pr(T > t) = 0.2042
P= 0.4 chứng tỏ preS không khác biệt so với trung bình bằng 10
95%CI của trung bình preS cũng chứa giá trị 10
Trang 3Chạy phép kiểm signed rank test một mẫu
Phép kiển phi tham số khi so sánh trung bình của dân số là phép kiểm sign ranktest Phép kiểm so sánh trung vị của presS với 10
Giá trị p hai đuôi của phép kiểm sign rank test cũng chấp nhận giả thuyết H0 nghĩa
là không có sự khác biệt của trung bình preS và trung bình dân số 10
Trang 4BIẾN KẾT CỤC ĐỊNH LƯỢNG LẬP LẠI TRÊN CÙNG MỘT ĐỐI TƯỢNG (SO SÁNH TRƯỚC SAU CAN THIỆP)
Chạy phép kiểm t test bắt cặp
ttest paeduc == maeduc
mean(diff) = mean(paeduc - maeduc) t = -2.2192
Ho: mean(diff) = 0 degrees of freedom = 1902
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Pr(T < t) = 0.0133 Pr(|T| > |t|) = 0.0266 Pr(T > t) = 0.9867
P =0.02 chứng tỏ có sự khác biệt về trung bình giữa paeduc và maeduc
Chúng ta tin chắc 95% rằng sự khác biệt này nằm trong khoảng -0.3 đến -0.01
Trang 5Chạy phép kiểm Wilcoxon signed rank test
Trong trường hợp các biến outcome có nhiều outliers hoặc khi mẫu nhỏ thì phải sử dụng phép kiểm phi tham số Wilcoxon signed rank test
Kết quả cũng cho thấy trung vị giữa hai lần đo postS và preS khác nhau (p< 0.001)
Trang 6BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN
ĐOÁN LÀ BIẾN NHỊ GIÁ (HAI NHÓM ĐỘC LẬP)
Mô tả trung bình hai nhóm bằng bảng
table sex, contents(mean hrs1 sd hrs1 count hrs1)
Mô tả trung bình hai nhóm bằng đồ thị
graph box salary, over(male) ytitle(Academic salary) asyvars
Trang 7Chúng ta có thể so sánh trung vị của hai nhóm bằng box plot (graph box) và trung bình hai nhóm bằng bar chart (graph bar).
Kết hợp hai đồ thị vào chung một hình bằng cách dùng cùng thang đo cho cả hai
đồ thị với option ylabel(0(5)35)
Đồ thị cho thấy nhóm Greek có trung vị và trung bình đều cao hơn nhóm Greek
Trang 8non-Kiểm tra phương sai giữa hai nhóm
.robvar time, by(group)
| Summary of TIME
GROUP | Mean Std Dev Freq.
1 | 928.5 138.12106 8
2 | 764.6 213.7497 10
Total | 837.44444 197.65306 18
W0 = 1368483 df(1, 16) Pr > F = 71628551 <-W0 is Levene’s test W50 = 17792242 df(1, 16) Pr > F = 67877762 <-ignore this test W10 = 0650524 df(1, 16) Pr > F = 80193108 <-ignore this test Phép kiểm Levene’s test cho p = 0,72 > 0,05, như vậy giả thuyết Ho không bị bác bỏ tức hai phương sai của hai nhóm là đồng nhất Khi đó sử dụng phép kiểm t test phương sai đồng nhất Chúng ta cũng có thể sử dụng sdtest để kiểm tra phương sai giữa hai nhóm Chạy phép kiểm t-test hai mẫu độc lập với phương sai đồng nhất ttest weight, by(life) Two-sample t test with equal variances
Group | Obs Mean Std Err Std Dev [95% Conf Interval]
khong | 45 1.408889 .3889616 2.609234 .6249883 2.19279 co | 61 1.731148 .3617847 2.825629 1.00747 2.454825
-+ -combined | 106 1.59434 .2649478 2.727805 1.068997 2.119682
diff | -.3222587 .5376805 -1.388499 743982
-Degrees of freedom: 104
Ho: mean(khong) - mean(co) = diff = 0
Trang 9Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Chạy phép kiểm t test hai mẫu độc lập với phương sai không đồng nhất
ttest salary, by(male) unequal
Two-sample t test with unequal variances
diff = mean(Women) - mean(Men) t = -10.2500
Ho: diff = 0 Satterthwaite's degrees of freedom = 297.227
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 1.0000
Trong trường hợp phương sai không đồng nhất chúng ta dùng thêm option unequalsau câu lệnh ttest
Chạy phép kiểm tttest hai mẫu độc lập bằng cách nhập số
ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options2]
Chúng ta dùng options2 ở đây có thể là unequal hoặc Welch t-test và risk level 1-α
Trang 10Chạy phép kiểm phi tham số Mann–Whitney U test (Wilcoxon rank-sum test)
ranksum drink, by(greek)
Trang 11Chạy phép kiểm ANOVA cho hai mẫu
anova salary male
Number of obs = 514 R-squared = 0.1307
Root MSE = 11827.4 Adj R-squared = 0.1290
Source | Partial SS df MS F Prob>F
Adjusted predictions Number of obs = 514
Expression : Linear prediction, predict()
Root MSE chính là phương sai ước lượng của dân số
Kết quả của lệnh ANOVA không trình bày ước lượng trung bình của hai dân sốmale và female do đó chúng ta phải chạy lệnh margin để ước lượng hai trung bìnhdân số này
Trang 12ttest inc if wrkstat == 1, by(sex)
Two-sample t test with equal variances
Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ - male | 671 44567.81 1054.665 27319.7 42496.96 46638.66 female | 589 33081.07 895.9353 21743.74 31321.45 34840.69 -+ - combined | 1260 39198.21 718.7267 25512.27 37788.18 40608.25 -+ - diff | 11486.74 1404.217 8731.874 14241.61 - diff = mean(male) - mean(female) t = 8.1802 Ho: diff = 0 degrees of freedom = 1258 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000 esize twosample inc if wrkstat==1, by(sex)
-Effect size based on mean comparison
Obs per group:
Trang 13-BIẾN KẾT CỤC ĐỊNH LƯỢNG -01 -BIẾN TIÊN ĐOÁN CÓ TRÊN HAI GIÁ TRỊ (CÁC NHÓM ĐỘC
LẬP)
Kiểm tra phân phối của biến kết cục
qnorm weight, grid
Trang 14Mô tả trung bình giữa các nhóm bằng đô thị
Đồ thị kết hợp cho thấy trung bình (graph dot) và trung vị (graph box) của cácnhóm khác biệt giống nhau
Đồ thị graph dot cũng giống như graph bar sẽ tóm tắt trung bình của các nhóm
Trang 15Chạy phép kiểm one-way analysis of variance (one-way ANOVA)
oneway drink year, tabulate scheffe
Year in | Summary of 33-point drinking scale
college | Mean Std Dev Freq.
Freshman | 18.975 6.9226033 40
Sophomore | 21.169231 6.5444853 65
Junior | 19.453333 6.2866081 75
Senior | 16.650794 6.6409257 63
Total | 19.106996 6.7221166 243
Analysis of Variance Source SS df MS F Prob > F
-Between groups 666.200518 3 222.066839 5.17 0.0018 Within groups 10269.0176 239 42.9666008
Total 10935.2181 242 45.1868517 Bartlett's test for equal variances: chi2(3) = 0.5103 Prob>chi2 = 0.917 Comparison of 33-point drinking scale by Year in college (Scheffe) Row Mean-| Col Mean | Freshman Sophomor Junior
-+ -Sophomor | 2.19423 | 0.429 |
Junior | .478333 -1.7159 | 0.987 0.498 |
Senior | -2.32421 -4.51844 -2.80254
| 0.382 0.002 0.103
Tùy chọn tabulate dùng để lập bảng so sánh trung bình, độ lệch chuẩn giữa các nhóm
Tùy chọn scheffe sẽ kiểm định sự khác biệt giữa trung bình từng cặp nhóm với nhau trong trường hợp phép kiểm ANOVA có ý nghĩa thống kê
Phép kiểm Bartlet test cho giá trị p = 0,917 chứng tỏ phương sai của các nhóm đồng nhất nên phép kiểm ANOVA có thể áp dụng trong trường hợp này
Phép kiểm ANOVA cho ý nghĩa thống kê (p = 0,0018) tức giữa các nhóm có trung bình khác biệt
Phép kiểm Scheffe kiểm tra sự khác biệt trung bình của từng cặp nhóm thì nhận thấy chỉ có nhóm Senior và nhóm Sophmor là có trung bình khác biệt có ý nghĩa thống kê (0,002) Như vậy có thể kết luận sự khác biệt về trung bình giữa các
Trang 16nhóm chủ yếu là do sự khác biệt giữa nhóm sophmor (nhóm drink ít nhất) vàsenior (nhóm drink nhiều nhất).
Chạy phép kiểm W test khi phương sai các nhóm không đồng nhất
Phép kiểm K-W kiểm tra trung vị giữa các nhóm
Phép kiểm K-W được sử dụng khi phương sai giữa các nhóm không đồng nhất,hay khi giả định phân phối bình thường không đạt hoặc khi số liệu có nhiều giá trịoutlier
Kết quả cho thấy p=0.0023 bác bỏ giả thuyết H0
Trang 18Chạy phép kiểm one-way ANOVA bằng lệnh anova
anova weight treatment
Number of obs = 10 R-squared = 0.9147
Root MSE = 9.07002 Adj R-squared = 0.8721
Source | Partial SS df MS F Prob > F
Trang 19Tiên đoán trung bình và độ lệch chuẩn từ mô hình anova một chiều
Sau khi chạy lệnh anova chúng ta có thể tiên đoán trung bình và độ lệch chuẩncũng như 95%CI của các nhóm
Lệnh margin sẽ tính trung bình drink (outcome) cho mỗi phân loại của biến yearsau khi chạy
Lệnh marginplot sẽ tính trung bình của từng nhóm từ mô hình và khoảng tin cậy95% của trung bình.(gọi là error-bar chart)
Trang 21BIẾN KẾT CỤC ĐỊNH LƯỢNG- 02 BIẾN ĐỘC LẬP
the rats | strain of rats
were | thong minh dan don trung binh Total
Trang 22Chạy phép kiểm ANOVA hai chiều (two-way factorial ANOVA)
anova error envi strain envi* strain, partial
Number of obs = 48 R-squared = 0.4496 Root MSE = 31.97 Adj R-squared = 0.3841
Source | Partial SS df MS F Prob > F -+ - Model | 35068.4375 5 7013.6875 6.86 0.0001 |
envi | 15229.6875 1 15229.6875 14.90 0.0004 strain | 18649.625 2 9324.8125 9.12 0.0005 envi*strain | 1189.125 2 594.5625 0.58 0.5634
|
Residual | 42927.375 42 1022.08036
Total | 77995.8125 47 1659.48537
-+ -Giống chuột có ảnh hưởng đến số lầm mắc sai lầm của chuột (p=0,005).Môi trường cũng ảnh hưởng đến số lầm mắc sai lầm của chuột (p=0,004).Điều kiện môi trường không tương tác với giống chuột (p=0,52)
Như vậy chỉ cần chạy ANOV với hai biến envi và strain
Trang 23Chạy mô hình hồi quy cho ANOVA hai chiều
anova drink i.greek i.year i.greek#i.year
Sau khi chạy phép kiểm ANOVA hai chiều chúng ta có thể chạy lệnh regress để
mô tả chi tiết hơn mối liên quan giữa outcome và hai biến catergory
Tiền tố i trước biến phân loại quy định biến predictor là biến factorial hay biếnindicator trong đó mỗi phân loại sẽ như là một biến dummy gồm hai giá trị 0 và1(phân loại đó)
Trang 24Tiên đoán trung bình và 95%CI từ mô hình
Lệnh margin sẽ vẽ agress (outcome) theo từng kết hợp giữa gender và year
Đồ thị error-bar chart cho thấy ở phụ nữ thì hành vi aggressive thấp hơn và daođộng trong suốt 4 năm học đại học, trong khi ở nam giới hành vi bạo lực tăng caonhất vào năm thứ hai
Trang 25BIẾN KẾT CỤC ĐỊNH LƯỢNG- 03 BIẾN ĐỘC LẬP
ĐỊNH TÍNH
table drug, contents(freq mean bp median bp sd bp) by(diet biofeed)
Có sự khác biệt đáng kể về độ lệch chuẩn trong từng ô Điều này gợi ý cần phảichuyển đổi BPT bởi vì phép kiểm ANOVA đòi hỏi phương sai trong cùng một
ô phải đồng nhất
Trang 26anova bp drug diet biofeed diet*drug diet*biofeed drug*biofeed drug*diet*biofeed
Các tác động của drug, diet và biofeed đều có ý nghĩa thống kê cao (F2,60
=11.73, p<0.001), diet(F1,60 =33.20, p<0.001), and biofeed(F1,60=13.07,p<0.001)
Các tương tác hai chiều đều không có ý nghĩa thống kê (p> 0,05)
Tương tác ba chiều lại có ý nghĩa thống kê (F2,60 =3.43,p=0.04)
Trang 27predict predbp
twoway (line predbp biofeed if diet==0) (line predbp biofeed if diet==1) ,by(drug) xlabel(0 "no biofeed." 1 "biofeed.") ylabel(170 190 210) xtitle(" ")legend(order(1 "no diet" 2 "diet"))
prebp: tạo biến trung bình tiên đoán
Đối với thuốc Y, nếu có biofeedback thì sẽ làm tăng hiệu quả của diet (khoảngcách hai đường ngang gia tăng lên)
Đối với thuốc Z thì nếu có biofeedback thì hiệu quả của diet cũng thay đổikhông đáng kể
Đối với thuốc X thì có biofeedback sẽ làm hiệu quả diet giảm xuống
Trang 28table diet biofeed, contents(mean bp sd bp) by(drug)
Bảng tương tác này có tác dụng như đồ thị tương tác ba chiều ở trên
Trang 29xi: regress lbp i.drug i.diet i.biofeed
Thuốc 2 có tác dụng cao gấp 0,08 lần so với thuốc 1, còn thuốc 3 có tác dụngcao gấp 0,07 lần so với thuốc 1
Diet 1 có tác dụng thấp -0,09 lần so với diet 0
Biofeed 1 có tác dụng thấp -0,05 lần so với biofeed 0
Trang 30BIẾN OUTCOME ĐỊNH LƯỢNG- NHIỀU BIẾN ĐỘC LẬP LÀ BIẾN ĐỊNH LƯỢNG VÀ BIẾN ĐỊNH
TÍNH
Chạy mô hình ANCOVA (Analysis of Covariance)
Tiền tố c sẽ quy định biến predictor là biến continuous còn tiền tố i quy định biếnpredictor là biến indicator
Trang 3102 HOẶC TRÊN 02 BIẾN PHỤ THUỘC LÀ BIẾN
ĐỊNH LƯỢNG (LIÊN TỤC, BÌNH THƯỜNG)-01
3 matrix list e(eigvals_m) Tính eigenvalue cho ma trận tổng bình
phương của mô hình và ma trận tổng bìnhphương của sai số
tabstat difficulty useful importance, by(group)
Summary statistics: mean
by categories of: group
group | diffic~y useful import~e
Trang 32-Kết quả cho thấy trung bình của 3 biến difficulty, useful và importance đều
có sự khác biệt ở 3 nhóm can thiệp, tuy nhiên không biết sự khác biệt này có ýnghĩa thống kê hay không
manova difficulty useful importance = group
Number of obs = 33
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
e = exact, a = approximate, u = upper bound on F
Bảng Manova trình bày kết quả của 4 con số thống kê dành cho mỗi biến độc lập,
ở đây chỉ có 1 biến độc lập nên chỉ trình bày 4 phép kiểm cho biến group mà thôi.Kết quả phép kiểm cho thấy cả 4 số thống kê đều có p< 0,05 chứng tỏ biến group
có tác động đến cả ba biến phụ thuộc là useful, difficutly và importance
matrix list e(eigvals_m)
e(eigvals_m)[1,2]
c1 c2
r1 .8919879 00524207
Trang 33Có 3 eigenvalue cho mỗi eigen vector của mỗi sản phẩm của mô hình ma trận tổng bình phương và mô hình sai số tổng bình phương, một ma trận 3x3 Tuy nhiên trong kết quả chỉ có eigen c1 và c2 chứng tỏ eigen c3 = 0 nên không hiển thị.
Trang 34BIẾN OUTCOME ĐỊNH LƯỢNG PHÂN TÍCH LẬP LẠI >= 3 LẦN TRÊN CÙNG MỘT ĐỐI TƯỢNG-01
HOẶC NHIỀU BIẾN ĐỘC LẬP
Có thể thực hiện phép kiểm ANOVA lập lại hoặc mô hình hỗn hợp tuyếntính (Linear Mixed Model) Việc lựa chọn cách nào có thể như sau:
Đối với các nghiên cứu có thiết kế đơn giản, dữ liệu hoàn chỉnh, hệ số dư bìnhthường: Nếu thiết kế đơn giản (thiết kế pre-post lập lại chỉ hai lần hoặc thửnghiệm với chỉ một yếu tố giữa các đối tượng và một yếu tố bên trong các đốitượng) và không có dữ liệu mất, ANOVA lập lại và LMM cho kết quả tương tựnhau
Đối với hệ số dư bất bình thường: Cả hai cách đều có giả thuyết rằng biến phụthuộc là biến liên tục, và đo lường trên thang khoảng hoặc tỷ số và hệ số dư cóphân phối bình thường Tuy nhiên có các mô hình generalized linear mixedmodels dành cho các loại biến phụ thuộc khác như: biến phân loại, thứ tự, biếnđếm gián đoạn Trong trường hợp đó không sử dụng ANOVA lập lại
Đối với dữ liệu cụm: Trong nhiều thiết kế lập lại đo lường theo thời gian, nhưngcác đối tượng lại được co cụm trong một nhóm Các ví dụ dữ liệu dạng này làsinh viên trong cùng lớp, bệnh nhân trong cùng bệnh viện, cây trồng trong cùng
hồ, suối cùng nguồn Khi đó không thể sử dụng ANOVA lập lại mà chỉ sử dụngLMM
Đối với mất dữ liệu: Chỉ sử dụng LMM vì mô hình này sử lý mất dữ liệu tốthơn so với ANOVA lập lại
Đối với thời gian liên tục: ANOVA lập lại chỉ có thể coi lập lại là một biếnphân loại Nếu lập lại được thực hiện nhiều lần theo thời gian và bạn muốn coithời gian là biến liên tục thì không thể sử dụng ANOVA lập lại Ví dụ, đo mức