1. Trang chủ
  2. » Thể loại khác

Thống kê phân tích biến định lượng trong Stata

37 43 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 2,06 MB
File đính kèm 113. THONG KE PHAN TICH BIEN DINH LUONG.rar (2 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BIẾN KẾT CỤC ĐỊNH LƯỢNG LẬP LẠI TRÊN CÙNG MỘT ĐỐI TƯỢNG SO SÁNH TRƯỚC SAU CAN THIỆPChạy phép kiểm t test bắt cặp... BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN LÀ BIẾN NHỊ GIÁ HAI NHÓM ĐỘC

Trang 1

LÝ THUYẾT

Trang 2

BIẾN KẾT CỤC ĐỊNH LƯỢNG-KHÔNG CÓ BIẾN ĐỘC LẬP (SO SÁNH TRUNG BÌNH MỘT DÂN SỐ)

Chạy phép kiểm t-test một mẫu

Ho: mean = 10 degrees of freedom = 23

Ha: mean < 10 Ha: mean != 10 Ha: mean > 10

Pr(T < t) = 0.7958 Pr(|T| > |t|) = 0.4084 Pr(T > t) = 0.2042

P= 0.4 chứng tỏ preS không khác biệt so với trung bình bằng 10

95%CI của trung bình preS cũng chứa giá trị 10

Trang 3

Chạy phép kiểm signed rank test một mẫu

Phép kiển phi tham số khi so sánh trung bình của dân số là phép kiểm sign ranktest Phép kiểm so sánh trung vị của presS với 10

Giá trị p hai đuôi của phép kiểm sign rank test cũng chấp nhận giả thuyết H0 nghĩa

là không có sự khác biệt của trung bình preS và trung bình dân số 10

Trang 4

BIẾN KẾT CỤC ĐỊNH LƯỢNG LẬP LẠI TRÊN CÙNG MỘT ĐỐI TƯỢNG (SO SÁNH TRƯỚC SAU CAN THIỆP)

Chạy phép kiểm t test bắt cặp

ttest paeduc == maeduc

mean(diff) = mean(paeduc - maeduc) t = -2.2192

Ho: mean(diff) = 0 degrees of freedom = 1902

Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0

Pr(T < t) = 0.0133 Pr(|T| > |t|) = 0.0266 Pr(T > t) = 0.9867

P =0.02 chứng tỏ có sự khác biệt về trung bình giữa paeduc và maeduc

Chúng ta tin chắc 95% rằng sự khác biệt này nằm trong khoảng -0.3 đến -0.01

Trang 5

Chạy phép kiểm Wilcoxon signed rank test

Trong trường hợp các biến outcome có nhiều outliers hoặc khi mẫu nhỏ thì phải sử dụng phép kiểm phi tham số Wilcoxon signed rank test

Kết quả cũng cho thấy trung vị giữa hai lần đo postS và preS khác nhau (p< 0.001)

Trang 6

BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN

ĐOÁN LÀ BIẾN NHỊ GIÁ (HAI NHÓM ĐỘC LẬP)

Mô tả trung bình hai nhóm bằng bảng

table sex, contents(mean hrs1 sd hrs1 count hrs1)

Mô tả trung bình hai nhóm bằng đồ thị

graph box salary, over(male) ytitle(Academic salary) asyvars

Trang 7

Chúng ta có thể so sánh trung vị của hai nhóm bằng box plot (graph box) và trung bình hai nhóm bằng bar chart (graph bar).

Kết hợp hai đồ thị vào chung một hình bằng cách dùng cùng thang đo cho cả hai

đồ thị với option ylabel(0(5)35)

Đồ thị cho thấy nhóm Greek có trung vị và trung bình đều cao hơn nhóm Greek

Trang 8

non-Kiểm tra phương sai giữa hai nhóm

.robvar time, by(group)

| Summary of TIME

GROUP | Mean Std Dev Freq.

1 | 928.5 138.12106 8

2 | 764.6 213.7497 10

Total | 837.44444 197.65306 18

W0 = 1368483 df(1, 16) Pr > F = 71628551 <-W0 is Levene’s test W50 = 17792242 df(1, 16) Pr > F = 67877762 <-ignore this test W10 = 0650524 df(1, 16) Pr > F = 80193108 <-ignore this test Phép kiểm Levene’s test cho p = 0,72 > 0,05, như vậy giả thuyết Ho không bị bác bỏ tức hai phương sai của hai nhóm là đồng nhất Khi đó sử dụng phép kiểm t test phương sai đồng nhất Chúng ta cũng có thể sử dụng sdtest để kiểm tra phương sai giữa hai nhóm Chạy phép kiểm t-test hai mẫu độc lập với phương sai đồng nhất ttest weight, by(life) Two-sample t test with equal variances

Group | Obs Mean Std Err Std Dev [95% Conf Interval]

khong | 45 1.408889 .3889616 2.609234 .6249883 2.19279 co | 61 1.731148 .3617847 2.825629 1.00747 2.454825

-+ -combined | 106 1.59434 .2649478 2.727805 1.068997 2.119682

diff | -.3222587 .5376805 -1.388499 743982

-Degrees of freedom: 104

Ho: mean(khong) - mean(co) = diff = 0

Trang 9

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Chạy phép kiểm t test hai mẫu độc lập với phương sai không đồng nhất

ttest salary, by(male) unequal

Two-sample t test with unequal variances

diff = mean(Women) - mean(Men) t = -10.2500

Ho: diff = 0 Satterthwaite's degrees of freedom = 297.227

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 1.0000

Trong trường hợp phương sai không đồng nhất chúng ta dùng thêm option unequalsau câu lệnh ttest

Chạy phép kiểm tttest hai mẫu độc lập bằng cách nhập số

ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options2]

Chúng ta dùng options2 ở đây có thể là unequal hoặc Welch t-test và risk level 1-α

Trang 10

Chạy phép kiểm phi tham số Mann–Whitney U test (Wilcoxon rank-sum test)

ranksum drink, by(greek)

Trang 11

Chạy phép kiểm ANOVA cho hai mẫu

anova salary male

Number of obs = 514 R-squared = 0.1307

Root MSE = 11827.4 Adj R-squared = 0.1290

Source | Partial SS df MS F Prob>F

Adjusted predictions Number of obs = 514

Expression : Linear prediction, predict()

Root MSE chính là phương sai ước lượng của dân số

Kết quả của lệnh ANOVA không trình bày ước lượng trung bình của hai dân sốmale và female do đó chúng ta phải chạy lệnh margin để ước lượng hai trung bìnhdân số này

Trang 12

ttest inc if wrkstat == 1, by(sex)

Two-sample t test with equal variances

Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ - male | 671 44567.81 1054.665 27319.7 42496.96 46638.66 female | 589 33081.07 895.9353 21743.74 31321.45 34840.69 -+ - combined | 1260 39198.21 718.7267 25512.27 37788.18 40608.25 -+ - diff | 11486.74 1404.217 8731.874 14241.61 - diff = mean(male) - mean(female) t = 8.1802 Ho: diff = 0 degrees of freedom = 1258 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000 esize twosample inc if wrkstat==1, by(sex)

-Effect size based on mean comparison

Obs per group:

Trang 13

-BIẾN KẾT CỤC ĐỊNH LƯỢNG -01 -BIẾN TIÊN ĐOÁN CÓ TRÊN HAI GIÁ TRỊ (CÁC NHÓM ĐỘC

LẬP)

Kiểm tra phân phối của biến kết cục

qnorm weight, grid

Trang 14

Mô tả trung bình giữa các nhóm bằng đô thị

Đồ thị kết hợp cho thấy trung bình (graph dot) và trung vị (graph box) của cácnhóm khác biệt giống nhau

Đồ thị graph dot cũng giống như graph bar sẽ tóm tắt trung bình của các nhóm

Trang 15

Chạy phép kiểm one-way analysis of variance (one-way ANOVA)

oneway drink year, tabulate scheffe

Year in | Summary of 33-point drinking scale

college | Mean Std Dev Freq.

Freshman | 18.975 6.9226033 40

Sophomore | 21.169231 6.5444853 65

Junior | 19.453333 6.2866081 75

Senior | 16.650794 6.6409257 63

Total | 19.106996 6.7221166 243

Analysis of Variance Source SS df MS F Prob > F

-Between groups 666.200518 3 222.066839 5.17 0.0018 Within groups 10269.0176 239 42.9666008

Total 10935.2181 242 45.1868517 Bartlett's test for equal variances: chi2(3) = 0.5103 Prob>chi2 = 0.917 Comparison of 33-point drinking scale by Year in college (Scheffe) Row Mean-| Col Mean | Freshman Sophomor Junior

-+ -Sophomor | 2.19423 | 0.429 |

Junior | .478333 -1.7159 | 0.987 0.498 |

Senior | -2.32421 -4.51844 -2.80254

| 0.382 0.002 0.103

Tùy chọn tabulate dùng để lập bảng so sánh trung bình, độ lệch chuẩn giữa các nhóm

Tùy chọn scheffe sẽ kiểm định sự khác biệt giữa trung bình từng cặp nhóm với nhau trong trường hợp phép kiểm ANOVA có ý nghĩa thống kê

Phép kiểm Bartlet test cho giá trị p = 0,917 chứng tỏ phương sai của các nhóm đồng nhất nên phép kiểm ANOVA có thể áp dụng trong trường hợp này

Phép kiểm ANOVA cho ý nghĩa thống kê (p = 0,0018) tức giữa các nhóm có trung bình khác biệt

Phép kiểm Scheffe kiểm tra sự khác biệt trung bình của từng cặp nhóm thì nhận thấy chỉ có nhóm Senior và nhóm Sophmor là có trung bình khác biệt có ý nghĩa thống kê (0,002) Như vậy có thể kết luận sự khác biệt về trung bình giữa các

Trang 16

nhóm chủ yếu là do sự khác biệt giữa nhóm sophmor (nhóm drink ít nhất) vàsenior (nhóm drink nhiều nhất).

Chạy phép kiểm W test khi phương sai các nhóm không đồng nhất

Phép kiểm K-W kiểm tra trung vị giữa các nhóm

Phép kiểm K-W được sử dụng khi phương sai giữa các nhóm không đồng nhất,hay khi giả định phân phối bình thường không đạt hoặc khi số liệu có nhiều giá trịoutlier

Kết quả cho thấy p=0.0023 bác bỏ giả thuyết H0

Trang 18

Chạy phép kiểm one-way ANOVA bằng lệnh anova

anova weight treatment

Number of obs = 10 R-squared = 0.9147

Root MSE = 9.07002 Adj R-squared = 0.8721

Source | Partial SS df MS F Prob > F

Trang 19

Tiên đoán trung bình và độ lệch chuẩn từ mô hình anova một chiều

Sau khi chạy lệnh anova chúng ta có thể tiên đoán trung bình và độ lệch chuẩncũng như 95%CI của các nhóm

Lệnh margin sẽ tính trung bình drink (outcome) cho mỗi phân loại của biến yearsau khi chạy

Lệnh marginplot sẽ tính trung bình của từng nhóm từ mô hình và khoảng tin cậy95% của trung bình.(gọi là error-bar chart)

Trang 21

BIẾN KẾT CỤC ĐỊNH LƯỢNG- 02 BIẾN ĐỘC LẬP

the rats | strain of rats

were | thong minh dan don trung binh Total

Trang 22

Chạy phép kiểm ANOVA hai chiều (two-way factorial ANOVA)

anova error envi strain envi* strain, partial

Number of obs = 48 R-squared = 0.4496 Root MSE = 31.97 Adj R-squared = 0.3841

Source | Partial SS df MS F Prob > F -+ - Model | 35068.4375 5 7013.6875 6.86 0.0001 |

envi | 15229.6875 1 15229.6875 14.90 0.0004 strain | 18649.625 2 9324.8125 9.12 0.0005 envi*strain | 1189.125 2 594.5625 0.58 0.5634

|

Residual | 42927.375 42 1022.08036

Total | 77995.8125 47 1659.48537

-+ -Giống chuột có ảnh hưởng đến số lầm mắc sai lầm của chuột (p=0,005).Môi trường cũng ảnh hưởng đến số lầm mắc sai lầm của chuột (p=0,004).Điều kiện môi trường không tương tác với giống chuột (p=0,52)

Như vậy chỉ cần chạy ANOV với hai biến envi và strain

Trang 23

Chạy mô hình hồi quy cho ANOVA hai chiều

anova drink i.greek i.year i.greek#i.year

Sau khi chạy phép kiểm ANOVA hai chiều chúng ta có thể chạy lệnh regress để

mô tả chi tiết hơn mối liên quan giữa outcome và hai biến catergory

Tiền tố i trước biến phân loại quy định biến predictor là biến factorial hay biếnindicator trong đó mỗi phân loại sẽ như là một biến dummy gồm hai giá trị 0 và1(phân loại đó)

Trang 24

Tiên đoán trung bình và 95%CI từ mô hình

Lệnh margin sẽ vẽ agress (outcome) theo từng kết hợp giữa gender và year

Đồ thị error-bar chart cho thấy ở phụ nữ thì hành vi aggressive thấp hơn và daođộng trong suốt 4 năm học đại học, trong khi ở nam giới hành vi bạo lực tăng caonhất vào năm thứ hai

Trang 25

BIẾN KẾT CỤC ĐỊNH LƯỢNG- 03 BIẾN ĐỘC LẬP

ĐỊNH TÍNH

table drug, contents(freq mean bp median bp sd bp) by(diet biofeed)

 Có sự khác biệt đáng kể về độ lệch chuẩn trong từng ô Điều này gợi ý cần phảichuyển đổi BPT bởi vì phép kiểm ANOVA đòi hỏi phương sai trong cùng một

ô phải đồng nhất

Trang 26

anova bp drug diet biofeed diet*drug diet*biofeed drug*biofeed drug*diet*biofeed

 Các tác động của drug, diet và biofeed đều có ý nghĩa thống kê cao (F2,60

=11.73, p<0.001), diet(F1,60 =33.20, p<0.001), and biofeed(F1,60=13.07,p<0.001)

 Các tương tác hai chiều đều không có ý nghĩa thống kê (p> 0,05)

 Tương tác ba chiều lại có ý nghĩa thống kê (F2,60 =3.43,p=0.04)

Trang 27

predict predbp

twoway (line predbp biofeed if diet==0) (line predbp biofeed if diet==1) ,by(drug) xlabel(0 "no biofeed." 1 "biofeed.") ylabel(170 190 210) xtitle(" ")legend(order(1 "no diet" 2 "diet"))

 prebp: tạo biến trung bình tiên đoán

 Đối với thuốc Y, nếu có biofeedback thì sẽ làm tăng hiệu quả của diet (khoảngcách hai đường ngang gia tăng lên)

 Đối với thuốc Z thì nếu có biofeedback thì hiệu quả của diet cũng thay đổikhông đáng kể

 Đối với thuốc X thì có biofeedback sẽ làm hiệu quả diet giảm xuống

Trang 28

table diet biofeed, contents(mean bp sd bp) by(drug)

 Bảng tương tác này có tác dụng như đồ thị tương tác ba chiều ở trên

Trang 29

xi: regress lbp i.drug i.diet i.biofeed

 Thuốc 2 có tác dụng cao gấp 0,08 lần so với thuốc 1, còn thuốc 3 có tác dụngcao gấp 0,07 lần so với thuốc 1

 Diet 1 có tác dụng thấp -0,09 lần so với diet 0

 Biofeed 1 có tác dụng thấp -0,05 lần so với biofeed 0

Trang 30

BIẾN OUTCOME ĐỊNH LƯỢNG- NHIỀU BIẾN ĐỘC LẬP LÀ BIẾN ĐỊNH LƯỢNG VÀ BIẾN ĐỊNH

TÍNH

Chạy mô hình ANCOVA (Analysis of Covariance)

Tiền tố c sẽ quy định biến predictor là biến continuous còn tiền tố i quy định biếnpredictor là biến indicator

Trang 31

02 HOẶC TRÊN 02 BIẾN PHỤ THUỘC LÀ BIẾN

ĐỊNH LƯỢNG (LIÊN TỤC, BÌNH THƯỜNG)-01

3 matrix list e(eigvals_m) Tính eigenvalue cho ma trận tổng bình

phương của mô hình và ma trận tổng bìnhphương của sai số

tabstat difficulty useful importance, by(group)

Summary statistics: mean

by categories of: group

group | diffic~y useful import~e

Trang 32

-Kết quả cho thấy trung bình của 3 biến difficulty, useful và importance đều

có sự khác biệt ở 3 nhóm can thiệp, tuy nhiên không biết sự khác biệt này có ýnghĩa thống kê hay không

manova difficulty useful importance = group

Number of obs = 33

W = Wilks' lambda L = Lawley-Hotelling trace

P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F

e = exact, a = approximate, u = upper bound on F

Bảng Manova trình bày kết quả của 4 con số thống kê dành cho mỗi biến độc lập,

ở đây chỉ có 1 biến độc lập nên chỉ trình bày 4 phép kiểm cho biến group mà thôi.Kết quả phép kiểm cho thấy cả 4 số thống kê đều có p< 0,05 chứng tỏ biến group

có tác động đến cả ba biến phụ thuộc là useful, difficutly và importance

matrix list e(eigvals_m)

e(eigvals_m)[1,2]

c1 c2

r1 .8919879 00524207

Trang 33

Có 3 eigenvalue cho mỗi eigen vector của mỗi sản phẩm của mô hình ma trận tổng bình phương và mô hình sai số tổng bình phương, một ma trận 3x3 Tuy nhiên trong kết quả chỉ có eigen c1 và c2 chứng tỏ eigen c3 = 0 nên không hiển thị.

Trang 34

BIẾN OUTCOME ĐỊNH LƯỢNG PHÂN TÍCH LẬP LẠI >= 3 LẦN TRÊN CÙNG MỘT ĐỐI TƯỢNG-01

HOẶC NHIỀU BIẾN ĐỘC LẬP

Có thể thực hiện phép kiểm ANOVA lập lại hoặc mô hình hỗn hợp tuyếntính (Linear Mixed Model) Việc lựa chọn cách nào có thể như sau:

 Đối với các nghiên cứu có thiết kế đơn giản, dữ liệu hoàn chỉnh, hệ số dư bìnhthường: Nếu thiết kế đơn giản (thiết kế pre-post lập lại chỉ hai lần hoặc thửnghiệm với chỉ một yếu tố giữa các đối tượng và một yếu tố bên trong các đốitượng) và không có dữ liệu mất, ANOVA lập lại và LMM cho kết quả tương tựnhau

 Đối với hệ số dư bất bình thường: Cả hai cách đều có giả thuyết rằng biến phụthuộc là biến liên tục, và đo lường trên thang khoảng hoặc tỷ số và hệ số dư cóphân phối bình thường Tuy nhiên có các mô hình generalized linear mixedmodels dành cho các loại biến phụ thuộc khác như: biến phân loại, thứ tự, biếnđếm gián đoạn Trong trường hợp đó không sử dụng ANOVA lập lại

 Đối với dữ liệu cụm: Trong nhiều thiết kế lập lại đo lường theo thời gian, nhưngcác đối tượng lại được co cụm trong một nhóm Các ví dụ dữ liệu dạng này làsinh viên trong cùng lớp, bệnh nhân trong cùng bệnh viện, cây trồng trong cùng

hồ, suối cùng nguồn Khi đó không thể sử dụng ANOVA lập lại mà chỉ sử dụngLMM

 Đối với mất dữ liệu: Chỉ sử dụng LMM vì mô hình này sử lý mất dữ liệu tốthơn so với ANOVA lập lại

 Đối với thời gian liên tục: ANOVA lập lại chỉ có thể coi lập lại là một biếnphân loại Nếu lập lại được thực hiện nhiều lần theo thời gian và bạn muốn coithời gian là biến liên tục thì không thể sử dụng ANOVA lập lại Ví dụ, đo mức

Ngày đăng: 02/09/2021, 19:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w