Lưu ý là số đối tượng tham gia nghiên cứu giảm theo thời gian và điểm depress của cả hai nhóm đều giảm dần theo thời gian... Một số điểm liên kết với nhau tại lần tái khám 1 là do các đố
Trang 1MÔ TẢ LONGITUDINAL DATA 2 PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP POOLED ORDINARY LEAST-SQUARES ESTIMATION 14
PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP SUMMARY STATISTIC (SỐ THỐNG KÊ TÓM TẮT) 16
PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP RANDOM EFFECT 18
PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP GENERALIZED ESTIMATING EQUATION (GEE)
27
PHÂN TÍCH LOGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ BIẾN ĐẾM
- PHƯƠNG PHÁP GENERALIZED ESTIMATION EQUATIONS (GEE) 32
Phân tích logitudinal studies với biến outcome là biến định lượng - phương pháp repeated measure anova (MANOVA for repeated measures) 34
PHÂN TÍCH REPEATED MEASURES DATA VỚI BIẾN OUTCOME LÀ BIẾN ĐỊNH LƯỢNG- PHƯƠNG PHÁP MIXED MODEL 44
PHÂN TÍCH REPEATED MEASURE DATA (HAI LẦN ĐO) VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG – KHÔNG CÓ COVARIATES 53
Trang 2MÔ TẢ LONGITUDINAL DATA
Dữ liệu có dạng wide form: mỗi đối tượng từng hàng và biến outcome được ghi nhận theo thời gian.
Tóm tắt số liệu theo nhóm điều trị và số lần tái khám Lưu ý là số đối tượng tham gia nghiên cứu giảm theo thời gian và điểm depress của cả hai nhóm đều giảm dần theo thời gian.
Trang 3Mô tả mối liên quan giữa các lần đo
graph matrix pre-dep6, mlabel(group) msymbol(none) mlabposition(0)
0 0
0 0 0 0
00
0 00
0
0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 11 1
1 1 1 1 1
1 1
1 1 1 1 1 1
0 0
0 00 0 0
0 0 0
0 0 0 0 0 0 0
0 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1
1 1 1 1 1
1 1
0 0
0 0 0 0
0 0 0
0 0 0 0 0
0 1 1 1 1 1 1 1 1
1 1 1
1 1 1
1 11 1
1 1
1 1 1 1 1
1 1 1
0 0
0 0 0 0
0 0 0
0 0 0 0
00 0
0 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1
0 0
0 0 0 0
0 0 0
0 0 0 0 0
0 1 1 1 1 1 1 1 1
1 1 1
1 1 1 1
1 1 1 1 1 1 1
1 1
0 0
0 0 0 0
0 0 0
0 0 0 0 0 0
0 1 1 1 1 1 1 1 1
1 1 1
1
11 1
1 1 111 1 1 1 1 1 1
0 0 0 0 0 1 1 1
1 1 1
1
1 11 1
1 1 1 1
1 11 1
1 1 1 1
0 0 0 0 0 0 0 0
0 0
0 0 0 0 0 1 1 1 1
1 1
1 1
1 1 1 1 1 1 1 1 1
1 11 1
1 1 1 1 1
0 0 0 0 0 0 0 0 0 0
0
0 0 0 0
1 1 1
1 1
1 1 1
1 1 1 1 1 1 1 1
1 1 1
0 0 0 0 0 0 0 0
0 0
0 0 0 0 0 1 11 1 1
1 1
1 1 1
1
1 1 1 1 1 1 1 1 1
1 1 1 1
0 0 0 0 0 0 0 0
0 0
0 0 0 0 0
0 1 1 1
1 1
1 11
1
1 11 1 1 1 1 1 1 1
1 1 1
00 0 0
0 0 0
0 0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1
1
1 1 1 1
0
0000
0 0 0 0 0 0 0 1 1
1 11
1 11
1 11
1 1
1 1 1
11 11 1 1 1 1 1 1
1 1
0 0
0 0 0
0 0 0 0 0 0
00 00
11 11
1 11
1 1 1
1 1 1 1 11 1 1 1
1 1 1 1
0
0 000
0 0 0 0 0 0 0 0 1 1 1 1
1 11
1 1 1
1 1 1 1 1 1 1
1 1 1 1
0
0 0 00 0 0
0 0 0 0 0 0 0 0
11 1
1 11
1 1
1
1 11 1 1 11 1 1 1
1 1 1 1
1 11
1 1
1 11 1 1 1 1 1 1 1
1 1 11 1
000
0 00 0 0 0 0
0 00 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1
0 0
0 0 0 0 0 0
0 0 0 0
1 1
1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 11 1 1
0 00
0 00
0
0 0 0 0 0 0 00 0 1 1
1 1 11
1 1 1
1 1 1
1 11 1 1 1 1 1
1 1 1 1
0
0 0
00 0
0 0 0 0 0 0 0 0 0 0 1 1
1 1 11 1 1 1
1 1
1 1 1 1 1 1 1 1 1 1
1 1 1 1
0 0 0 0 0 0 1 1 1 1 1
1 1 1
1
1 1
1 11 1 1 1 1 1
1
1 1 1 1
0 0
0 00
0 0 0 0 0
0 0 0 0 0 0 1 1 1 1 1
1 1 1
1 1
1 11 1 1 1
1 1
1 1
0 0 0
0 00
0 0 0 0 0
0 0 0 0 0 0 1 1 1 1 1
1 1 1
1 1
1 11 1 1 1 1 1
1 1
1 1
0
0 00 0 0 0 0
0 0 0 0 0 0 1 1 1 1 1 1
1 1 1
1 1
1 11 1 1
1
1 1
1 1
0 0 0
0 0 0 0 0 0 0
0 0 0 0 0
0 11 1 1 1 11 1
1 1
1 1
1 11 11 1 1
1
1 1 1
00 00
0 00
0 0 0 0 1 11
1 1 1 1 1 1 1
1 1 1
1 11
1 11 1 1
1 1 1 1
0 00
0000 0 0 0
0 0
0 0 0 0 1 1 1
1 1 1 1
1 11 1 1 1
1 1 1
1 1
1 1 1 1 1 1
0 0 0 0 0 0
0 0 00 0 0 1 1 1
1 1 1 1 1 1
1 1 1 1 1
1 11
1 1
1 1 1 1 1 1
0 0
0 00 0 0 0
0 0
0 0 0 0 1 1
1 1 1 1 1
1 1
1 1 1 1 1 1 1 1 1
0
0 0 0
0 0
0 00 0
0 0 0 0 0 1 1
1 1 1 1 1 1
1
1 11 1
1 1 1 1 1 1 1 0
00 0 0 0 0 0 0 0 0 0
0 11 1
1 1 1
1 1 11 1 1 1 1 1 1 1 1
1 1 1 1 1
1 1 1 1
0 0
0000 0 0 0 0 0 0 0
0 11 1 1 1 1
1 1 1 1 1 1
1 1
1 1 1 1
1 1
0 0
0000 0
0 00 0 0 0 0
0 11 1 1 1 1 1
1 1 1
1 1 1 1 1 1 1
1 1
1 1 1 1
1 1
0 0 0
0 0 0 0 0 0 0 0 0
0 00
0 1
1 1 1 1 11
1 11 1 1 1 1 11 1 1 1 1 1
1 1
0 0
0 00
0 0 0 0 0 0 0
0 11 1
1 1 1 1
1 1
1 1
1 1 1 1 1 1
1 1 1 1 1 1
Vẽ đồ thị ma trận tương quan của điểm depress giữa các lần tái khám Nhóm điều trị được đánh dấu 0 và 1.
Đồ thị cho thấy tất cả các tương quan đều dương tính
Có mối tương quan mạnh ngày càng tăng giữa các điểm depress khi thời gian giữa các lần đo depress này giảm dần (nghĩa là các lần đo gần nhau thì càng tương quan mạnh) Kiểu tương quan này (correlation structure) rất quan trọng trong việc chọn mô hình phù hợp cho dữ liệu theo thời gian
Trang 4Mô tả số lần đo của từng đối tượng
dep1 dep2 dep6 -> dep
Lệnh preserve sẽ lưu trữ dữ liệu dạng wide trong bộ nhớ, sau đó nếu muốn phục hồi dạng wide chỉ cần dùng lệnh restore.
Chuyển dữ liệu từ dạng wide sang dạng long gồm biến dep là điểm depress,
và visit là biến đợt tái khám Việc chuyển dữ liệu để có thể vẽ được các dạng đồ thị
mô tả số liệu khác.
Lệnh drop sẽ loại bỏ những missing data
Lệnh xtdes sẽ mô tả bộ số liệu theo subj và visit Kết quả cho thấy có 45 bệnh nhân hoàn thành tất cả 6 đợt visit, 8 bệnh nhân hoàn thành 1 đợt, 7 bệnh nhân hoàn thành 2 đợt, 1 bệnh nhân hoàn thành 3 đợt Đây là dạng “monotonic” vì bệnh nhân sẽ không bao giờ quay lại tái khám.
Trang 5Mô tả xu hướng biến outcome của từng đối tượng
sort group subj visit
twoway connected dep visit, connect(ascending) by(group) ytitle(Depression)xlabel(1/6)
Trước khi vẽ cần xếp số liệu theo biến group và biến visit
Option (ascending) sẽ liên kết các điểm khi số lần tái khám tăng dần lên Đối với đối tượng đầu tiên (subj= 1) thì điều này là đúng, tuy nhiên đối với đối tượng thứ hai, visit sẽ bắt đầu từ 1 lần nữa, vì vậy điểm cuối cùng của đối tượng 1 sẽ không liên kết với điểm đầu tiên của đối tượng 2 Tuy nhiên các điểm còn lại của đối tượng 2 sẽ lại liên kết với nhau và cứ thế tiếp tục
Option xlabel() được sử dụng để tạo trục hoành bắt đầu từ 1 thay vì 0
Một số điểm liên kết với nhau tại lần tái khám 1 là do các đối tượng kế tiếp nhau có dữ liệu mất trong các lần tái khám tiếp theo đến nỗi lần tái khám đó không giảm dần khi số đối tượng tăng lên.
Đồ thị depress cá nhân cho thấy có sự suy giảm chung về điểm depress theo thời gian (điều này được chứng minh qua việc giảm trung bình theo thời gian khi tóm tắt bằng lệnh summarize), tuy nhiên sự sụt giảm này rất khác biệt lớn Điều này đặc biệt thấy rõ ở những cá nhân có điểm depress cao hơn hẳn so với số còn lại Hiện tượng này sẽ dẫn đến tương quan bên trong đối tượng Lưu ý rằng một số đối tượng không hoàn thành toàn bộ đường theo dõi do mất dữ liệu.
Trang 6Có thể vẽ đồ thị diễn tiến depress score theo thời gian từ baseline cho đến thời điểm cuối cùng cho tất cả các đối tượng không phân nhóm Đồ thị cũng cho thấy sự biến thiên đáng kể của các cá nhân về điểm depress Tựu chung điểm depress của tất cả các cá nhân đều giảm theo thời gian.
Trang 7format lwage* %9.0g
sort nr year
set seed 132144
generate r = runiform() if year==1980
(3,815 missing values generated)
egen num = rank(r) if r<
(3815 missing values generated)
egen number = mean(num), by(nr)
twoway line lwage year if number<=12, by(nr, compact)
twoway line lwage year if number<=12, by(nr, compact) ytitle(Log hourly wage)xtitle(Year) xlabel(,angle(45))
Trong trường hợp có quá nhiều đối tượng thì việc vẽ đồ thị diễn tiến của nhiều đối tượng cùng lúc sẽ rất khó nhìn Do đó ta có thể vẽ chỉ một mẫu nhỏ của quần thể đối tượng để có thể nhìn rõ hơn xu hướng phát triển của response variable theo thời gian.
Chúng ta tạo một số ngẫu nhiên, r, cho từng đối tượng đối với năm 1980, với giá trị
r cho các năm khác mất.
Một mẫu 12 đối tượng được chọn bằng cách chọn đối tượng từ 12 số ngẫu nhiên r lớn nhất và tương tự cho bất kỳ số đối tượng nào muốn Vì vậy chúng ta cần sắp xếp thứ tự cho số ngẫu nhiên r bằng cách sử dụng lệnh egen với hàm rank().
Tiếp theo chúng ta tạo ra biến number chứa các giá trị mất của biến thứ tự, num, cho từng đối tượng.
Hàm mean() sẽ tìm trung bình của tất cả các giá trị không mất, ở đây chỉ có 1 cho mỗi đối tượng, do đó số được đặt ở tất cả các hàng của đối tượng đó)
Ở hàng thứ nhất đồ thị chúng ta có thể thấy rằng một số cá nhân rõ ràng có wage cao hơn hoặc thấp hơn những cá nhân khác Kiểu này thì rõ ràng là điểm chặn ngẫu nhiên đặc hiệu theo đối tượng hoặc là fixed intercept, là đường cong của cá nhân dịch chuyển ngang theo hằng số mặc định của cá nhân
Cột 2 của hình cho thấy rằng slope của năm thay đổi giữa các đối tượng và cột 3 cho thấy rằng wafe bất thường cho một số đối tượng.
Trang 8egen mn_lwage = mean(lwage), by(year)
sort nr year
twoway (scatter lwage year, jitter(2) msym(o) msize(tiny))(line lwage year ifnumber<=12, connect(ascending) lwidth(vthin) lpatt(solid))(line mn_lwage year, sortlpatt(longdash)) if lwage>-2, ytitle(Log hourly wage) xtitle(Year) legend(order(2
"Individual trajectories" 3 "Mean trajectory"))
Chúng ta có thể kết hợp xu hướng của 12 đối tượng với cả toàn bộ mẫu và trung bình của cả các đối tượng theo thời gian.
Đầu tiên cần sắp xếp dữ liệu theo năm trong cùng nr và sau đó sử dụng connect(ascending) option để đảm bảo rằng các quan sát kế tiếp nhau cho một đối tượng được nối lại, nhưng quan sát cuối đối với một đối tượng không connect với quan sát đầu cho đối tượng tiếp theo Quan sát ngoại lai của đối tượng 813 bị loại
bỏ bằng cách vẽ chỉ những quan sát với lwage> -2 để nhìn cho rõ hơn Một lượng nhỏ jitter được sử dụng để ngăn sự trùng lắp của các dữ liệu điểm.
Đường trung bình wage dường như tuyến tính.
Trang 9Ngoài boxplot có thể vẽ đường trung bình của cả hai nhóm theo thời gian.
Ta thấy theo thời gian điểm depress trung bình giảm dần theo thời gian ở cả hai nhóm.
Trang 10Mô tả xu hướng outcome của toàn bộ các đối tượng
graph box lwage, over(year) intensity(0) medtype(line) marker(1,mlabel(nr)mlabsize(vsmall) msym(i) mlabpos(0) mlabcol(black)) ytitle(Log hourly wage)
12221 31273581908
10120 4365 5274
9066
1057035893239 1496
10043360710120
1201369877297784
9859 9791 6025
7784 1576
813
9710 2721
8090 7784
8520
80897112264 9683 6056
8203 7784
8587 13 8524 11973 925
1763 569
2147 12122
3017 2868
6025 569
8903 711
218 7784 5274
Trang 11graph box dep, over(visit) over(group, relabel(1 "Placebo group" 2 "Estrogengroup"))
Ở đây có thể thấy xu hướng giảm điểm depress chung của cả hai nhóm điều trị và trong nhóm điều trị bằng estrogen thì có một số giá trị ngoại lai cần phải kiểm tra Có 4 giá trị ngoại lai là thuộc về cùng 1 đối tượng có điểm depress cao hơn các đối tượng còn lại.
Trang 12collapse (mean) dep (sd) sddep=dep (count) n=dep, by(visit group)
sort group
gen high = dep + 2*sddep/sqrt(n)
gen low = dep - 2*sddep/sqrt(n)
twoway (rarea low high visit, bfcolor(gs12) sort) (connected dep visit,mcolor(black) clcolor(black) sort), by(group) legend(order(1 " 95% CI" 2 "meandepression"))
Vẽ biểu đồ trung bình depress của từng nhóm bao gồm thêm thông tin về sai
số chuẩn của từng trung bình
Lệnh colapse sẽ tạo ra trung bình của mỗi nhóm qua mỗi lần tái khám, độ lệch chuẩn tương ứng và số lượng quan sát mà hai số thông kê này dựa trên đó Giá trị trung bình được lưu trữ trong bộ nhớ, tuy nhiên các số thống kê khác được cho tên mới trong lệnh collapse.
Lệnh twoway rarea sẽ tạo ra khu vực bóng mờ giữa đường low theo visit và đường high theo visit, chính là giới hạn 95%CI của trung bình Điều quan trọng
Trang 13trong lệnh này chính là đường trung bình được sẽ sau bóng mờ bởi vì nếu không
nó sẽ bị che đi bởi bóng mờ.
Mô tả sự biến thiên số liệu của các predictor
quietly xtset nr
xtsum lwage union educ year
Variable | Mean Std Dev Min Max | Observations
xttab union
Overall Between Within
union | Freq Percent Freq Percent Percent
Trang 14Đối với những biến time-varying như biến union (vì sd within và between đều thay đổi) thì việc mô tả nó cũng cung cấp thông tin quan trọng
Chúng ta thấy cột Overall rằng union có giá trị 1 chiến 24.4% số thời gian giữa các
cá thể và số thời điểm Ở cột between thì có 93.8% đối tượng không là thành viên công đoàn cho ít nhất 1 lần đo, và 51.4% là thành viên công đoàn cho ít nhất 1 lần
đo Cuối cùng cột within cho thấy giữa những người không là thành viên thì phần trăm trung bình lần đo mà họ không phải là thành viên là 80.6% Những người là thành viên thì trung bình lần đo là thành viên là 47.5% Khi tổng phần trăm của cột between > 100% có nghĩa là biến này đã thay đổi theo thời gian cho một số đối tượng.
Trang 15PHƯƠNG PHÁP SUMMARY MEASURES (RESPONSE FEATURE ANALYSIS)
Sử dụng trung bình các lần quan sát
egen avg=rmean(dep1 dep2 dep3 dep4 dep5 dep6)
ttest avg, by(group)
Two-sample t test with equal variances
Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ -
0 | 27 14.75605 .8782852 4.563704 12.95071 16.56139
1 | 34 10.55206 .9187872 5.357404 8.682772 12.42135 -+ -combined | 61 12.41284 .6923949 5.407777 11.02785 13.79784 -+ - diff | 4.20399 1.294842 1.613017 6.794964 - diff = mean(0) - mean(1) t = 3.2467Ho: diff = 0 degrees of freedom = 59 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.9990 Pr(|T| > |t|) = 0.0019 Pr(T > t) = 0.0010
ttest avg, by(group) unequal
Two-sample t test with unequal variances
Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ -
0 | 27 14.75605 .8782852 4.563704 12.95071 16.56139
1 | 34 10.55206 .9187872 5.357404 8.682772 12.42135 -+ -combined | 61 12.41284 .6923949 5.407777 11.02785 13.79784 -+ - diff | 4.20399 1.271045 1.660343 6.747637 - diff = mean(0) - mean(1) t = 3.3075Ho: diff = 0 Satterthwaite's degrees of freedom = 58.6777
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.9992 Pr(|T| > |t|) = 0.0016 Pr(T > t) = 0.0008
Trang 16Sử dụng phương pháp tóm tắt trung bình để so sánh trung bình trầm cảm giữa hai nhóm điều trị.
Trong trường hợp điểm depress, sử dụng số tóm tắt là trung bình điểm depress của các đợt tái khám.
Khi đó sử dụng phép kiểm t-test hai mẫu để kiểm tra sự khác biệt về điểm trung bình giữa hai nhóm.
Kết quả cho thấy cho dù chạy phép kiểm t-test với equal hay unequal variances thì sự khác biệt giữa hai nhóm là 4,3 với 95%CI từ 1,61-6,7 với p< 0,001 Hay nói cách khác nhóm estrogen có điểm depress giảm nhiều hơn so với nhóm không sử dụng estrogen.
Sử dụng điểm hiệu số
Sử dụng phương pháp dùng số tóm tắt với số tóm tắt là sự khác biệt giữa lần tái khám đầu và lần tái khám cuối Phép kiểm cho thấy nhóm estrogen có sự giảm nhiều hơn so với nhóm placebo.
Trang 17Lập mô hình hồi quy tuyến tính giữa hiệu số khác biệt trước và sau với biến predictor là cinitage Chú ý biến cinitage đã được trung tâm hóa.
Trang 18PHƯƠNG PHÁP POOLED ORDINARY
LEAST-SQUARES ESTIMATION
generate educt = educ - 12
generate yeart = year - 1980
regress lwage black hisp union married exper yeart educt, vce(cluster nr)
Linear regression Number of obs = 4,360
cả biến factor theo thời gian và không theo thời gian.
Phương pháp này cho ước lượng phù hợp với các hệ số hồi quy dưới giả định rằng cấu trúc trung bình được chỉ định chính xác (về cơ bản là các đồng biến được thêm vào chính xác và các dạng hàm số được xác định chính xác) và rằng hệ số dư không tương quan với các đồng biến Ngoài ra công cụ ước lượng sai số chuẩn
Trang 19sandwich (được gọi ra bằng option vce(cluster nr)) tạo ra ước lượng thích hợp cho sai số chuẩn thậm chí ngay khi hệ số dư tương quan bên trong đối tượng và có phương sai không hằng định.
Tuy nhiên một hạn chế quan trọng của phương pháp này chính là giả định ngầm rằng không có dữ liệu mất hoặc xác suất quan sát bị mất không phụ thuộc vào các quan sát quan sát được hoặc không quan sát được sau khi hiệu chỉnh cho các đồng biến
Trang 20PHƯƠNG PHÁP REPEATED MEASURE ANOVA (MANOVA FOR REPEATED MEASURES)
tabstat y1-y4, by(trt) stat(n mean sd var)
Summary statistics: N, mean, sd, variance
Trang 21profileplot y1-y4, by(trt)
Vẽ đồ thị trung bình outcome tại các thời điểm giữa hai nhóm.
Trang 22reshape long y, i(id) j(time)
Trang 23anova y trt / id|trt time trt#time, repeated(time)
Number of obs = 32 R-squared = 0.9624
Root MSE = .712 Adj R-squared = 0.9352
Source | Partial SS df MS F Prob>F
Lowest b.s.e variable: id
Covariance pooled over: trt (for repeated variable)
Repeated variable: time
-Chạy mô hình ANOVA lập lại Tương tác treatment-by-time có ý nghĩa như
là 2 hiệu ứng chính đối với treatment và time Kết quả gồm 3 giá trị p value của 3 phép kiểm F-test: 1) Huynh-Feldt, 2) Greenhouse-Geisser và 3) Box’s conservative
F
Trang 24Các giá trị này là chỉ tố của p-value thậm chí nếu dữ liệu không đáp ứng giả định đối xứng kết hợp.
matrix list e(Srep)
contrast time@trt, effect
Contrasts of marginal linear predictions
Trang 25(4 vs base) 2 | 8.25 .5034602 16.39 0.000 7.192269 9.307731
-Vì giữa trt và time có tương tác nên chúng ta sẽ tìm hiểu hiệu ứng của time lên từng nhóm trt bằng lệnh contrast
margins time, at(trt=1) pwcompare(effects) noestimcheck
Pairwise comparisons of predictive margins
Expression : Linear prediction, predict()
at : trt = 1
| Delta-method Unadjusted Unadjusted
| Contrast Std Err z P>|z| [95% Conf Interval]
-margins time, at(trt=2) pwcompare(effects) noestimcheck
Pairwise comparisons of predictive margins
Expression : Linear prediction, predict()
at : trt = 2
| Delta-method Unadjusted Unadjusted
| Contrast Std Err z P>|z| [95% Conf Interval]
Trang 264 vs 3 | 4.5 .5034602 8.94 0.000 3.513236 5.486764
Bởi vì mỗi phép kiểm hiệu ứng đơn giản liên quan đến 4 điểm thời gian sẽ dẫn đến so sánh cặp với lệnh margin và pwcompare.
anova y trt##time
Number of obs = 32 R-squared = 0.9237
Root MSE = 877971 Adj R-squared = 0.9015
Source | Partial SS df MS F Prob > F
Trang 27contrast trt@time, effect
Contrasts of marginal linear predictions
Trang 28margins trt#time
Adjusted predictions Number of obs = 32 Expression : Linear prediction, predict()
| Delta-method
| Margin Std Err z P>|z| [95% Conf Interval] -+ - trt#time |
Adjusted Predictions of trt#time with 95% CIs
Vẽ đồ thị giá trị tiên đoán trt#time theo thời gian.
Trang 29MÔ HÌNH RANDOM INTERCEPT KHÔNG CÓ
COVARIATE
Tạo biến trung bình hai lần đo
Biến wm1 và wm2 là hai lần đo của biến wm Tạo biến mean_wm chính là trung bình cộng của hai biến wm1 và wm2.
Kiểm tra tương quan giữa các lần quan sát (within-subject) bằng đồ thị
Đồ thị phân tán đồ wm1 và wm2 và trung bình (đường nằm ngang) theo số subject (trục hoành) Đồ thị cho thấy giữa hai lần đo của cùng một subject có tương quan chặt chẽ với nhau Cả hai lần đo đều cùng nằm về một hướng so với trung bình, nghĩa là chúng có tương quan dương tính với nhau Hay nói cách khác chúng có hiệp phương sai dương (positive covariance)
Chuyển đổi dạng dữ liệu từ wide thành long
reshape long wp wm, i(id) j(occasion)
Trang 30Chuyển dữ liệu từ dạng wide thành dạng long
Chạy mô hình mixed effect với lệnh xtreg
xtset id
panel variable: id (balanced)
Thiết lập biến id là biến cluster Đây cũng là random intercept của mô hình Ở đây dữ liệu
có balanced nghĩa là số lần đo của các cluster giống nhau (các đối tượng đều trải qua hai lần đo).
xtreg wm, mle
Iteration 0: log likelihood = -187.89003
Iteration 1: log likelihood = -184.95979
Iteration 2: log likelihood = -184.76189
Iteration 3: log likelihood = -184.5855
Iteration 4: log likelihood = -184.5784
Iteration 5: log likelihood = -184.57839
Random-effects ML regression Number of obs = 34
Group variable: id Number of groups = 17
Random effects u_i ~ Gaussian Obs per group:
Trang 31Trong câu lệnh xtreg này thì chỉ xác định biến response là wm Random intercept đã được xác định trong lệnh xtset trước đó Hệ số dư level-1 đã được xác định mặc định trong mô hình do đó không cần đưa vào câu lệnh.
Có tổng cộng 34 quan sát thuộc vào 17 nhóm (số cluster ở đây là đối tượng tham gia nghiên cứu) và có 2 quan sát cho mỗi nhóm (vì vậy giá trị tối thiểu, tối đa và trung bình đều bằng 2).
Ước lượng trung bình dân số chung (β) bằng 453.91 ) bằng 453.91
Ước lượng độ lệch chuẩn giữa các đối tượng (√ψ) của điểm chặn ngẫu nhiên của đốiψ) của điểm chặn ngẫu nhiên của đối) của điểm chặn ngẫu nhiên của đối tượng dược ghi là /sigma_u bằng 107.05,
Ước lượng độ lệch chuẩn trong cùng đối tượng (√ψ) của điểm chặn ngẫu nhiên của đốiθ) được ghi là /sigma_e, bằng 19.91 ) được ghi là /sigma_e, bằng 19.91 Rho chính là tương quan cùng lớp (intraclass correlation-ICC) hay còn gọi là tương quan giữa hai lần đo trên cùng đối tượng Rho = 0.97 chứng tỏ phép đo Mini Wright peak-fow meter có độ tin cậy rất cao (giữa các lần đo không sai lệch nhiều)
Chạy mô hình mixed effect với lệnh xtmixed
xtmixed wm || id:, mle
Performing EM optimization:
Performing gradient-based optimization:
Iteration 0: log likelihood = -184.57839
Iteration 1: log likelihood = -184.57839
Computing standard errors:
Mixed-effects ML regression Number of obs = 34
Group variable: id Number of groups = 17
Obs per group:
Trang 32sd(_cons) | 107.0464 18.67858 76.04062 150.695
sd(Residual) | 19.91083 3.414678 14.22687 27.86564
-LR test vs linear model: chibar2(01) = 46.27 Prob >= chibar2 = 0.0000
Vì mô hình variance-component model là dạng đơn giản nhất của mixed model nên chúng ta có thể sử dụng lệnh xtmixed để chạy mô hình.
Trong xtmixed chúng ta xác định luôn random intercept là id mà không cần dùng lệnh xtset như trong xtreg Điều này giúp làm rõ luôn mô hình có random effect là biến nào Phần random part sẽ được xác định sau ||.
Option mle dùng để yêu cầu chạy maximum likelihood estimator.
Bảng ước lượng dành cho phần fixed part của mô hình tương tự như lệnh xtreg và tất cả các lệnh ước lượng khác trong Stata Phép kiểm dành cho fixed part là phép kiểm z chứ không phải phép kiểm t như trong lệnh xtreg Khoảng 95% CI trong fixed part gọi là 95% Wald CI
SE của beta có thể ước lượng từ mẫu hoặc từ pp ước lượng sandwich (gọi là robust SE)
sd(cons) chính là ước lượng độ lệch chuẩn của điểm chặn ngẫu nhiên (√ψ) của điểm chặn ngẫu nhiên của đốiψ) của điểm chặn ngẫu nhiên của đối) Phương sai
random intercept giữa các đối tượng, khi đó chúng ta có thể sử dụng mô hình hồi quy tuyến tính bình thường thay vì mô hình phương sai thành phần (variance-component
model) Phép kiểm để kiểm tra giả thuyết này gọi là likelihood-ratio test Phép kiểm này
so sánh giữa mô hình có random intercept và mô hình không có random intercept Dòng cuối cùng của bảng random chính là giá trị p của phép kiểm likelihood-ratio test (LR test).
Khoảng tin cậy của sd random intercept được ước lượng từ log sd chứ không phải chính
sd Khoảng tin cậy này gọi là Wald confidence interval Sd không được dùng để tính CI bởi vì trong trường hợp số cluster ít phân phối của sd có thể không còn bình thường sd(Residual) chính là ước lượng độ lệch chuẩn (√ψ) của điểm chặn ngẫu nhiên của đốiθ) được ghi là /sigma_e, bằng 19.91 ) của hệ số dư level-1 Không có phép kiểm phương sai cho hệ số dư bởi vì phép kiểm này sẽ buộc tất cả các giá trị của y trong cùng đối tượng là giống nhau.
Trang 33Tất cả các ước lượng đều giống với ước lượng dùng lệnh xtreg
Chúng ta cũng có thể tính được phương sai ước lượng (thay vì độ lệch chuẩn) với các sai
số chuẩn của chúng bằng option variance.
Trang 34quietly xtmixed wm || id:, mle
estimates store ri
quietly xtmixed wm, mle
lrtest ri
Likelihood-ratio test LR chi2(1) = 46.27
(Assumption: nested in ri) Prob > chi2 = 0.0000
Note: The reported degrees of freedom assumes the null hypothesis is not on theboundary of the parameter space If this is
not true, then the reported test is conservative
Chúng ta cũng có thể chạy thẳng phép kiểm LR test bằng lệnh lrtest.
Trong câu lệnh lrtest thì ri chính là mô hình có random intercept còn chính là mô hình hiện hành (không có random intercept)
Bởi vì chỉ có 17 đối tượng quá ít so với giả định phân bố của phép kiểm LR test do đó phép kiểm có dòng Note phía dưới.
Kết quả cho thấy giá trị p rất nhỏ chứng tỏ mô hình có random intercept tốt hơn so với
mô hình không có random intercept.
Chạy mô hình fixed effect (one-way ANOVA) bằng lệnh xtreg
Thay vì cho các subject thay đổi thành random effect, thì fixed effect model sẽ cho từng subject thành các dummy variable với coeff riêng
Option fe (fixed effect) bảo Stata chạy mô hình fixed effect
Trang 35Giả định của phép kiểm này là tất cả hệ số của các subject = 0 hay nói cách khác các subject có cùng trung bình Dòng cuối cùng của phép kiểm F test cho thấy bác bỏ giả
Tính random intercept bằng ước lượng qua phương pháp maximum
“likelihood” estimation
Chạy mô hình sau đó tiên đoán pred chính là giá trị tiên đoán β) bằng 453.91 (β) bằng 453.91 hat).
Trang 36Chúng ta có thể sử dụng mô hình hồi quy tuyến tính truyền thống để ước tính hệ số dư cho cluster.
Chúng ta sử dụng phương pháp maximum “likelihood” estimation để ước lượng hệ số dư cho từng cluster Ở đây có 17 cluster do đó sẽ có 17 hệ số dư cho cluster.
Chúng ta tạo ra biến dummy cho từng cluster bằng cách thêm tiếp đầu ngữ ibn (nghĩa là tạo dummy không có tầng nền no base catergory).
Option noconstant sẽ loại bỏ hằng số chung.
Thay vì tạo biến pre (giá trị tiên đoán), rồi tạo biến res (hệ số dư) như câu lệnh trên, chúng ta có thể tạo thẳng random intercept bằng lệnh predict với option reffects.
Sau khi tạo biến radint0 chúng ta có thể vẽ ngay đồ thị randaom intercept cho từng cluster.
Đồ thị cho thấy tại bất kỳ mức độ logdens, minority và colled (là các predictor trong mô hình) thì % bầu cho bush (biến outcome) trung bình giảm 15 điểm tại các hạt New
Trang 37England, trên 8 điểm tại W South Central và ở mức trung bình tại các bang W North Central
chúng ta cũng có thể tính được hệ số dư cho cluster từ mô hình variance-component model bằng cách sau khi chạy mô hình với lệnh xtreg, chúng ta dùng lệnh predict ml2 (maximum likelihood 2, là ước lượng maximum lần 2 dành cho hệ số dư cluster), với option u để chỉ đến hệ số dư cho cluster.
Chúng ta cũng có thể tính bằng tay bằng cách tạo biến ml là trung bình cộng của res sau
đó tính cho từng cluster bằng bệnh display.
Trang 38Tính random intercept bằng tiên đoán qua phương pháp Empirical Bayes prediction
Tính giá trị hệ số dư của cluster bằng phương pháp Bayes prediction.
Trang 40MÔ HÌNH RANDOM INTERCEPT VỚI
COVRIATES (KHÔNG TƯƠNG QUAN VỚI
RANDOM INTERCEPT ζ))
Kiểm tra level của các biến
Thiết lập data là dữ liệu multilevel data bằng lệnh xtset id với biến id là biến identifier.
Tổng số quan sát trong nghiên cứu là 8604 (N) và có 3978 cluster (n).
Trung bình có 2.2 con được các bà mẹ sinh ra
Biến black (chủng tộc) có độ lệch chuẩn within-cluster = 0 nghĩa là biến này
là biến level-2 (cluster) Trung bình biến black có thể giải thích là tỷ lệ trẻ có
mẹ là người da đen (cấp độ level 1) hoặc tỷ lệ bà mẹ là người da đen (cấp độ level-2).
Biến smoke và birwt thay đổi between-subject nhiều hơn so với subject là biến level 1 (units) Mức độ thay đổi within-subject quan trọng vì một số estimator phụ thuộc vào thay đổi within-subject.