LONGITUDINAL DATA CHO BIEN DINH LUONG

Lưu ý là số đối tượng tham gia nghiên cứu giảm theo thời gian và điểm depress của cả hai nhóm đều giảm dần theo thời gian... Một số điểm liên kết với nhau tại lần tái khám 1 là do các đố

Trang 1

MÔ TẢ LONGITUDINAL DATA 2 PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP POOLED ORDINARY LEAST-SQUARES ESTIMATION 14

PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP SUMMARY STATISTIC (SỐ THỐNG KÊ TÓM TẮT) 16

PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP RANDOM EFFECT 18

PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP GENERALIZED ESTIMATING EQUATION (GEE)

27

PHÂN TÍCH LOGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ BIẾN ĐẾM

- PHƯƠNG PHÁP GENERALIZED ESTIMATION EQUATIONS (GEE) 32

Phân tích logitudinal studies với biến outcome là biến định lượng - phương pháp repeated measure anova (MANOVA for repeated measures) 34

PHÂN TÍCH REPEATED MEASURES DATA VỚI BIẾN OUTCOME LÀ BIẾN ĐỊNH LƯỢNG- PHƯƠNG PHÁP MIXED MODEL 44

PHÂN TÍCH REPEATED MEASURE DATA (HAI LẦN ĐO) VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG – KHÔNG CÓ COVARIATES 53

Trang 2

MÔ TẢ LONGITUDINAL DATA

Dữ liệu có dạng wide form: mỗi đối tượng từng hàng và biến outcome được ghi nhận theo thời gian.

Tóm tắt số liệu theo nhóm điều trị và số lần tái khám Lưu ý là số đối tượng tham gia nghiên cứu giảm theo thời gian và điểm depress của cả hai nhóm đều giảm dần theo thời gian.

Trang 3

Mô tả mối liên quan giữa các lần đo

graph matrix pre-dep6, mlabel(group) msymbol(none) mlabposition(0)

0 0

0 0 0 0

00

0 00

0

0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 11 1

1 1 1 1 1

1 1

1 1 1 1 1 1

0 0

0 00 0 0

0 0 0

0 0 0 0 0 0 0

0 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1

1 1

1 1 1 1 1

1 1

0 0

0 0 0 0

0 0 0

0 0 0 0 0

0 1 1 1 1 1 1 1 1

1 1 1

1 11 1

1 1

1 1 1 1 1

1 1 1

0 0

0 0 0 0

0 0 0

0 0 0 0

00 0

0 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1

0 0

0 0 0 0

0 0 0

0 0 0 0 0

0 1 1 1 1 1 1 1 1

1 1 1

1 1 1 1

1 1 1 1 1 1 1

1 1

0 0

0 0 0 0

0 0 0

0 0 0 0 0 0

0 1 1 1 1 1 1 1 1

1 1 1

1

11 1

1 1 111 1 1 1 1 1 1

0 0 0 0 0 1 1 1

1 1 1

1

1 11 1

1 1 1 1

1 11 1

1 1 1 1

0 0 0 0 0 0 0 0

0 0

0 0 0 0 0 1 1 1 1

1 1

1 1 1 1 1 1 1 1 1

1 11 1

1 1 1 1 1

0 0 0 0 0 0 0 0 0 0

0

0 0 0 0

1 1 1

1 1

1 1 1

1 1 1 1 1 1 1 1

1 1 1

0 0 0 0 0 0 0 0

0 0

0 0 0 0 0 1 11 1 1

1 1

1 1 1

1

1 1 1 1 1 1 1 1 1

1 1 1 1

0 0 0 0 0 0 0 0

0 0

0 0 0 0 0

0 1 1 1

1 1

1 11

1

1 11 1 1 1 1 1 1 1

1 1 1

00 0 0

0 0 0

0 0 0 0 0 0 0 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1

1

1 1 1 1

0

0000

0 0 0 0 0 0 0 1 1

1 11

1 1

1 1 1

11 11 1 1 1 1 1 1

1 1

0 0

0 0 0

0 0 0 0 0 0

00 00

11 11

1 11

1 1 1

1 1 1 1 11 1 1 1

1 1 1 1

0

0 000

0 0 0 0 0 0 0 0 1 1 1 1

1 11

1 1 1

1 1 1 1 1 1 1

1 1 1 1

0

0 0 00 0 0

0 0 0 0 0 0 0 0

11 1

1 11

1 1

1

1 11 1 1 11 1 1 1

1 1 1 1

1 11

1 1

1 11 1 1 1 1 1 1 1

1 1 11 1

000

0 00 0 0 0 0

0 00 0 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1

0 0

0 0 0 0 0 0

0 0 0 0

1 1

1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 11 1 1

0 00

0

0 0 0 0 0 0 00 0 1 1

1 1 11

1 1 1

1 11 1 1 1 1 1

1 1 1 1

0

0 0

00 0

0 0 0 0 0 0 0 0 0 0 1 1

1 1 11 1 1 1

1 1

1 1 1 1 1 1 1 1 1 1

1 1 1 1

0 0 0 0 0 0 1 1 1 1 1

1 1 1

1

1 1

1 11 1 1 1 1 1

1

1 1 1 1

0 0

0 00

0 0 0 0 0

0 0 0 0 0 0 1 1 1 1 1

1 1 1

1 1

1 11 1 1 1

1 1

0 0 0

0 00

0 0 0 0 0

0 0 0 0 0 0 1 1 1 1 1

1 1 1

1 1

1 11 1 1 1 1 1

1 1

0

0 00 0 0 0 0

0 0 0 0 0 0 1 1 1 1 1 1

1 1 1

1 1

1 11 1 1

1

1 1

0 0 0

0 0 0 0 0 0 0

0 0 0 0 0

0 11 1 1 1 11 1

1 1

1 11 11 1 1

1

1 1 1

00 00

0 00

0 0 0 0 1 11

1 1 1 1 1 1 1

1 1 1

1 11

1 11 1 1

1 1 1 1

0 00

0000 0 0 0

0 0

0 0 0 0 1 1 1

1 1 1 1

1 11 1 1 1

1 1 1

1 1

1 1 1 1 1 1

0 0 0 0 0 0

0 0 00 0 0 1 1 1

1 1 1 1 1 1

1 1 1 1 1

1 11

1 1

1 1 1 1 1 1

0 0

0 00 0 0 0

0 0

0 0 0 0 1 1

1 1 1 1 1

1 1

1 1 1 1 1 1 1 1 1

0

0 0 0

0 0

0 00 0

0 0 0 0 0 1 1

1 1 1 1 1 1

1

1 11 1

1 1 1 1 1 1 1 0

00 0 0 0 0 0 0 0 0 0

0 11 1

1 1 1

1 1 11 1 1 1 1 1 1 1 1

1 1 1 1 1

1 1 1 1

0 0

0000 0 0 0 0 0 0 0

0 11 1 1 1 1

1 1 1 1 1 1

1 1

1 1 1 1

1 1

0 0

0000 0

0 00 0 0 0 0

0 11 1 1 1 1 1

1 1 1

1 1 1 1 1 1 1

1 1

1 1 1 1

1 1

0 0 0

0 0 0 0 0 0 0 0 0

0 00

0 1

1 1 1 1 11

1 11 1 1 1 1 11 1 1 1 1 1

1 1

0 0

0 00

0 0 0 0 0 0 0

0 11 1

1 1 1 1

1 1

1 1 1 1 1 1

Vẽ đồ thị ma trận tương quan của điểm depress giữa các lần tái khám Nhóm điều trị được đánh dấu 0 và 1.

Đồ thị cho thấy tất cả các tương quan đều dương tính

Có mối tương quan mạnh ngày càng tăng giữa các điểm depress khi thời gian giữa các lần đo depress này giảm dần (nghĩa là các lần đo gần nhau thì càng tương quan mạnh) Kiểu tương quan này (correlation structure) rất quan trọng trong việc chọn mô hình phù hợp cho dữ liệu theo thời gian

Trang 4

Mô tả số lần đo của từng đối tượng

dep1 dep2 dep6 -> dep

Lệnh preserve sẽ lưu trữ dữ liệu dạng wide trong bộ nhớ, sau đó nếu muốn phục hồi dạng wide chỉ cần dùng lệnh restore.

Chuyển dữ liệu từ dạng wide sang dạng long gồm biến dep là điểm depress,

và visit là biến đợt tái khám Việc chuyển dữ liệu để có thể vẽ được các dạng đồ thị

mô tả số liệu khác.

Lệnh drop sẽ loại bỏ những missing data

Lệnh xtdes sẽ mô tả bộ số liệu theo subj và visit Kết quả cho thấy có 45 bệnh nhân hoàn thành tất cả 6 đợt visit, 8 bệnh nhân hoàn thành 1 đợt, 7 bệnh nhân hoàn thành 2 đợt, 1 bệnh nhân hoàn thành 3 đợt Đây là dạng “monotonic” vì bệnh nhân sẽ không bao giờ quay lại tái khám.

Trang 5

Mô tả xu hướng biến outcome của từng đối tượng

sort group subj visit

twoway connected dep visit, connect(ascending) by(group) ytitle(Depression)xlabel(1/6)

Trước khi vẽ cần xếp số liệu theo biến group và biến visit

Option (ascending) sẽ liên kết các điểm khi số lần tái khám tăng dần lên Đối với đối tượng đầu tiên (subj= 1) thì điều này là đúng, tuy nhiên đối với đối tượng thứ hai, visit sẽ bắt đầu từ 1 lần nữa, vì vậy điểm cuối cùng của đối tượng 1 sẽ không liên kết với điểm đầu tiên của đối tượng 2 Tuy nhiên các điểm còn lại của đối tượng 2 sẽ lại liên kết với nhau và cứ thế tiếp tục

Option xlabel() được sử dụng để tạo trục hoành bắt đầu từ 1 thay vì 0

Một số điểm liên kết với nhau tại lần tái khám 1 là do các đối tượng kế tiếp nhau có dữ liệu mất trong các lần tái khám tiếp theo đến nỗi lần tái khám đó không giảm dần khi số đối tượng tăng lên.

Đồ thị depress cá nhân cho thấy có sự suy giảm chung về điểm depress theo thời gian (điều này được chứng minh qua việc giảm trung bình theo thời gian khi tóm tắt bằng lệnh summarize), tuy nhiên sự sụt giảm này rất khác biệt lớn Điều này đặc biệt thấy rõ ở những cá nhân có điểm depress cao hơn hẳn so với số còn lại Hiện tượng này sẽ dẫn đến tương quan bên trong đối tượng Lưu ý rằng một số đối tượng không hoàn thành toàn bộ đường theo dõi do mất dữ liệu.

Trang 6

Có thể vẽ đồ thị diễn tiến depress score theo thời gian từ baseline cho đến thời điểm cuối cùng cho tất cả các đối tượng không phân nhóm Đồ thị cũng cho thấy sự biến thiên đáng kể của các cá nhân về điểm depress Tựu chung điểm depress của tất cả các cá nhân đều giảm theo thời gian.

Trang 7

format lwage* %9.0g

sort nr year

set seed 132144

generate r = runiform() if year==1980

(3,815 missing values generated)

egen num = rank(r) if r<

(3815 missing values generated)

egen number = mean(num), by(nr)

twoway line lwage year if number<=12, by(nr, compact)

twoway line lwage year if number<=12, by(nr, compact) ytitle(Log hourly wage)xtitle(Year) xlabel(,angle(45))

Trong trường hợp có quá nhiều đối tượng thì việc vẽ đồ thị diễn tiến của nhiều đối tượng cùng lúc sẽ rất khó nhìn Do đó ta có thể vẽ chỉ một mẫu nhỏ của quần thể đối tượng để có thể nhìn rõ hơn xu hướng phát triển của response variable theo thời gian.

Chúng ta tạo một số ngẫu nhiên, r, cho từng đối tượng đối với năm 1980, với giá trị

r cho các năm khác mất.

Một mẫu 12 đối tượng được chọn bằng cách chọn đối tượng từ 12 số ngẫu nhiên r lớn nhất và tương tự cho bất kỳ số đối tượng nào muốn Vì vậy chúng ta cần sắp xếp thứ tự cho số ngẫu nhiên r bằng cách sử dụng lệnh egen với hàm rank().

Tiếp theo chúng ta tạo ra biến number chứa các giá trị mất của biến thứ tự, num, cho từng đối tượng.

Hàm mean() sẽ tìm trung bình của tất cả các giá trị không mất, ở đây chỉ có 1 cho mỗi đối tượng, do đó số được đặt ở tất cả các hàng của đối tượng đó)

Ở hàng thứ nhất đồ thị chúng ta có thể thấy rằng một số cá nhân rõ ràng có wage cao hơn hoặc thấp hơn những cá nhân khác Kiểu này thì rõ ràng là điểm chặn ngẫu nhiên đặc hiệu theo đối tượng hoặc là fixed intercept, là đường cong của cá nhân dịch chuyển ngang theo hằng số mặc định của cá nhân

Cột 2 của hình cho thấy rằng slope của năm thay đổi giữa các đối tượng và cột 3 cho thấy rằng wafe bất thường cho một số đối tượng.

Trang 8

egen mn_lwage = mean(lwage), by(year)

sort nr year

twoway (scatter lwage year, jitter(2) msym(o) msize(tiny))(line lwage year ifnumber<=12, connect(ascending) lwidth(vthin) lpatt(solid))(line mn_lwage year, sortlpatt(longdash)) if lwage>-2, ytitle(Log hourly wage) xtitle(Year) legend(order(2

"Individual trajectories" 3 "Mean trajectory"))

Chúng ta có thể kết hợp xu hướng của 12 đối tượng với cả toàn bộ mẫu và trung bình của cả các đối tượng theo thời gian.

Đầu tiên cần sắp xếp dữ liệu theo năm trong cùng nr và sau đó sử dụng connect(ascending) option để đảm bảo rằng các quan sát kế tiếp nhau cho một đối tượng được nối lại, nhưng quan sát cuối đối với một đối tượng không connect với quan sát đầu cho đối tượng tiếp theo Quan sát ngoại lai của đối tượng 813 bị loại

bỏ bằng cách vẽ chỉ những quan sát với lwage> -2 để nhìn cho rõ hơn Một lượng nhỏ jitter được sử dụng để ngăn sự trùng lắp của các dữ liệu điểm.

Đường trung bình wage dường như tuyến tính.

Trang 9

Ngoài boxplot có thể vẽ đường trung bình của cả hai nhóm theo thời gian.

Ta thấy theo thời gian điểm depress trung bình giảm dần theo thời gian ở cả hai nhóm.

Trang 10

Mô tả xu hướng outcome của toàn bộ các đối tượng

graph box lwage, over(year) intensity(0) medtype(line) marker(1,mlabel(nr)mlabsize(vsmall) msym(i) mlabpos(0) mlabcol(black)) ytitle(Log hourly wage)

12221 31273581908

10120 4365 5274

9066

1057035893239 1496

10043360710120

1201369877297784

9859 9791 6025

7784 1576

813

9710 2721

8090 7784

8520

80897112264 9683 6056

8203 7784

8587 13 8524 11973 925

1763 569

2147 12122

3017 2868

6025 569

8903 711

218 7784 5274

Trang 11

graph box dep, over(visit) over(group, relabel(1 "Placebo group" 2 "Estrogengroup"))

Ở đây có thể thấy xu hướng giảm điểm depress chung của cả hai nhóm điều trị và trong nhóm điều trị bằng estrogen thì có một số giá trị ngoại lai cần phải kiểm tra Có 4 giá trị ngoại lai là thuộc về cùng 1 đối tượng có điểm depress cao hơn các đối tượng còn lại.

Trang 12

collapse (mean) dep (sd) sddep=dep (count) n=dep, by(visit group)

sort group

gen high = dep + 2*sddep/sqrt(n)

gen low = dep - 2*sddep/sqrt(n)

twoway (rarea low high visit, bfcolor(gs12) sort) (connected dep visit,mcolor(black) clcolor(black) sort), by(group) legend(order(1 " 95% CI" 2 "meandepression"))

Vẽ biểu đồ trung bình depress của từng nhóm bao gồm thêm thông tin về sai

số chuẩn của từng trung bình

Lệnh colapse sẽ tạo ra trung bình của mỗi nhóm qua mỗi lần tái khám, độ lệch chuẩn tương ứng và số lượng quan sát mà hai số thông kê này dựa trên đó Giá trị trung bình được lưu trữ trong bộ nhớ, tuy nhiên các số thống kê khác được cho tên mới trong lệnh collapse.

Lệnh twoway rarea sẽ tạo ra khu vực bóng mờ giữa đường low theo visit và đường high theo visit, chính là giới hạn 95%CI của trung bình Điều quan trọng

Trang 13

trong lệnh này chính là đường trung bình được sẽ sau bóng mờ bởi vì nếu không

nó sẽ bị che đi bởi bóng mờ.

Mô tả sự biến thiên số liệu của các predictor

quietly xtset nr

xtsum lwage union educ year

Variable | Mean Std Dev Min Max | Observations

xttab union

Overall Between Within

union | Freq Percent Freq Percent Percent

Trang 14

Đối với những biến time-varying như biến union (vì sd within và between đều thay đổi) thì việc mô tả nó cũng cung cấp thông tin quan trọng

Chúng ta thấy cột Overall rằng union có giá trị 1 chiến 24.4% số thời gian giữa các

cá thể và số thời điểm Ở cột between thì có 93.8% đối tượng không là thành viên công đoàn cho ít nhất 1 lần đo, và 51.4% là thành viên công đoàn cho ít nhất 1 lần

đo Cuối cùng cột within cho thấy giữa những người không là thành viên thì phần trăm trung bình lần đo mà họ không phải là thành viên là 80.6% Những người là thành viên thì trung bình lần đo là thành viên là 47.5% Khi tổng phần trăm của cột between > 100% có nghĩa là biến này đã thay đổi theo thời gian cho một số đối tượng.

Trang 15

PHƯƠNG PHÁP SUMMARY MEASURES (RESPONSE FEATURE ANALYSIS)

Sử dụng trung bình các lần quan sát

egen avg=rmean(dep1 dep2 dep3 dep4 dep5 dep6)

ttest avg, by(group)

Two-sample t test with equal variances

Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ -

0 | 27 14.75605 .8782852 4.563704 12.95071 16.56139

1 | 34 10.55206 .9187872 5.357404 8.682772 12.42135 -+ -combined | 61 12.41284 .6923949 5.407777 11.02785 13.79784 -+ - diff | 4.20399 1.294842 1.613017 6.794964 - diff = mean(0) - mean(1) t = 3.2467Ho: diff = 0 degrees of freedom = 59 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.9990 Pr(|T| > |t|) = 0.0019 Pr(T > t) = 0.0010

ttest avg, by(group) unequal

Two-sample t test with unequal variances

Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ -

0 | 27 14.75605 .8782852 4.563704 12.95071 16.56139

1 | 34 10.55206 .9187872 5.357404 8.682772 12.42135 -+ -combined | 61 12.41284 .6923949 5.407777 11.02785 13.79784 -+ - diff | 4.20399 1.271045 1.660343 6.747637 - diff = mean(0) - mean(1) t = 3.3075Ho: diff = 0 Satterthwaite's degrees of freedom = 58.6777

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.9992 Pr(|T| > |t|) = 0.0016 Pr(T > t) = 0.0008

Trang 16

Sử dụng phương pháp tóm tắt trung bình để so sánh trung bình trầm cảm giữa hai nhóm điều trị.

Trong trường hợp điểm depress, sử dụng số tóm tắt là trung bình điểm depress của các đợt tái khám.

Khi đó sử dụng phép kiểm t-test hai mẫu để kiểm tra sự khác biệt về điểm trung bình giữa hai nhóm.

Kết quả cho thấy cho dù chạy phép kiểm t-test với equal hay unequal variances thì sự khác biệt giữa hai nhóm là 4,3 với 95%CI từ 1,61-6,7 với p< 0,001 Hay nói cách khác nhóm estrogen có điểm depress giảm nhiều hơn so với nhóm không sử dụng estrogen.

Sử dụng điểm hiệu số

Sử dụng phương pháp dùng số tóm tắt với số tóm tắt là sự khác biệt giữa lần tái khám đầu và lần tái khám cuối Phép kiểm cho thấy nhóm estrogen có sự giảm nhiều hơn so với nhóm placebo.

Trang 17

Lập mô hình hồi quy tuyến tính giữa hiệu số khác biệt trước và sau với biến predictor là cinitage Chú ý biến cinitage đã được trung tâm hóa.

Trang 18

PHƯƠNG PHÁP POOLED ORDINARY

LEAST-SQUARES ESTIMATION

generate educt = educ - 12

generate yeart = year - 1980

regress lwage black hisp union married exper yeart educt, vce(cluster nr)

Linear regression Number of obs = 4,360

cả biến factor theo thời gian và không theo thời gian.

Phương pháp này cho ước lượng phù hợp với các hệ số hồi quy dưới giả định rằng cấu trúc trung bình được chỉ định chính xác (về cơ bản là các đồng biến được thêm vào chính xác và các dạng hàm số được xác định chính xác) và rằng hệ số dư không tương quan với các đồng biến Ngoài ra công cụ ước lượng sai số chuẩn

Trang 19

sandwich (được gọi ra bằng option vce(cluster nr)) tạo ra ước lượng thích hợp cho sai số chuẩn thậm chí ngay khi hệ số dư tương quan bên trong đối tượng và có phương sai không hằng định.

Tuy nhiên một hạn chế quan trọng của phương pháp này chính là giả định ngầm rằng không có dữ liệu mất hoặc xác suất quan sát bị mất không phụ thuộc vào các quan sát quan sát được hoặc không quan sát được sau khi hiệu chỉnh cho các đồng biến

Trang 20

PHƯƠNG PHÁP REPEATED MEASURE ANOVA (MANOVA FOR REPEATED MEASURES)

tabstat y1-y4, by(trt) stat(n mean sd var)

Summary statistics: N, mean, sd, variance

Trang 21

profileplot y1-y4, by(trt)

Vẽ đồ thị trung bình outcome tại các thời điểm giữa hai nhóm.

Trang 22

reshape long y, i(id) j(time)

Trang 23

anova y trt / id|trt time trt#time, repeated(time)

Number of obs = 32 R-squared = 0.9624

Root MSE = .712 Adj R-squared = 0.9352

Source | Partial SS df MS F Prob>F

Lowest b.s.e variable: id

Covariance pooled over: trt (for repeated variable)

Repeated variable: time

-Chạy mô hình ANOVA lập lại Tương tác treatment-by-time có ý nghĩa như

là 2 hiệu ứng chính đối với treatment và time Kết quả gồm 3 giá trị p value của 3 phép kiểm F-test: 1) Huynh-Feldt, 2) Greenhouse-Geisser và 3) Box’s conservative

F

Trang 24

Các giá trị này là chỉ tố của p-value thậm chí nếu dữ liệu không đáp ứng giả định đối xứng kết hợp.

matrix list e(Srep)

contrast time@trt, effect

Contrasts of marginal linear predictions

Trang 25

(4 vs base) 2 | 8.25 .5034602 16.39 0.000 7.192269 9.307731

-Vì giữa trt và time có tương tác nên chúng ta sẽ tìm hiểu hiệu ứng của time lên từng nhóm trt bằng lệnh contrast

margins time, at(trt=1) pwcompare(effects) noestimcheck

Pairwise comparisons of predictive margins

Expression : Linear prediction, predict()

at : trt = 1

| Delta-method Unadjusted Unadjusted

| Contrast Std Err z P>|z| [95% Conf Interval]

-margins time, at(trt=2) pwcompare(effects) noestimcheck

Pairwise comparisons of predictive margins

Expression : Linear prediction, predict()

at : trt = 2

| Delta-method Unadjusted Unadjusted

| Contrast Std Err z P>|z| [95% Conf Interval]

Trang 26

4 vs 3 | 4.5 .5034602 8.94 0.000 3.513236 5.486764

Bởi vì mỗi phép kiểm hiệu ứng đơn giản liên quan đến 4 điểm thời gian sẽ dẫn đến so sánh cặp với lệnh margin và pwcompare.

anova y trt##time

Number of obs = 32 R-squared = 0.9237

Root MSE = 877971 Adj R-squared = 0.9015

Source | Partial SS df MS F Prob > F

Trang 27

contrast trt@time, effect

Contrasts of marginal linear predictions

Trang 28

margins trt#time

Adjusted predictions Number of obs = 32 Expression : Linear prediction, predict()

| Delta-method

| Margin Std Err z P>|z| [95% Conf Interval] -+ - trt#time |

Adjusted Predictions of trt#time with 95% CIs

Vẽ đồ thị giá trị tiên đoán trt#time theo thời gian.

Trang 29

MÔ HÌNH RANDOM INTERCEPT KHÔNG CÓ

COVARIATE

Tạo biến trung bình hai lần đo

Biến wm1 và wm2 là hai lần đo của biến wm Tạo biến mean_wm chính là trung bình cộng của hai biến wm1 và wm2.

Kiểm tra tương quan giữa các lần quan sát (within-subject) bằng đồ thị

Đồ thị phân tán đồ wm1 và wm2 và trung bình (đường nằm ngang) theo số subject (trục hoành) Đồ thị cho thấy giữa hai lần đo của cùng một subject có tương quan chặt chẽ với nhau Cả hai lần đo đều cùng nằm về một hướng so với trung bình, nghĩa là chúng có tương quan dương tính với nhau Hay nói cách khác chúng có hiệp phương sai dương (positive covariance)

Chuyển đổi dạng dữ liệu từ wide thành long

reshape long wp wm, i(id) j(occasion)

Trang 30

Chuyển dữ liệu từ dạng wide thành dạng long

Chạy mô hình mixed effect với lệnh xtreg

xtset id

panel variable: id (balanced)

Thiết lập biến id là biến cluster Đây cũng là random intercept của mô hình Ở đây dữ liệu

có balanced nghĩa là số lần đo của các cluster giống nhau (các đối tượng đều trải qua hai lần đo).

xtreg wm, mle

Iteration 0: log likelihood = -187.89003

Random-effects ML regression Number of obs = 34

Group variable: id Number of groups = 17

Random effects u_i ~ Gaussian Obs per group:

Trang 31

Trong câu lệnh xtreg này thì chỉ xác định biến response là wm Random intercept đã được xác định trong lệnh xtset trước đó Hệ số dư level-1 đã được xác định mặc định trong mô hình do đó không cần đưa vào câu lệnh.

Có tổng cộng 34 quan sát thuộc vào 17 nhóm (số cluster ở đây là đối tượng tham gia nghiên cứu) và có 2 quan sát cho mỗi nhóm (vì vậy giá trị tối thiểu, tối đa và trung bình đều bằng 2).

Ước lượng trung bình dân số chung (β) bằng 453.91 ) bằng 453.91

Ước lượng độ lệch chuẩn giữa các đối tượng (√ψ) của điểm chặn ngẫu nhiên của đốiψ) của điểm chặn ngẫu nhiên của đối) của điểm chặn ngẫu nhiên của đối tượng dược ghi là /sigma_u bằng 107.05,

Ước lượng độ lệch chuẩn trong cùng đối tượng (√ψ) của điểm chặn ngẫu nhiên của đốiθ) được ghi là /sigma_e, bằng 19.91 ) được ghi là /sigma_e, bằng 19.91 Rho chính là tương quan cùng lớp (intraclass correlation-ICC) hay còn gọi là tương quan giữa hai lần đo trên cùng đối tượng Rho = 0.97 chứng tỏ phép đo Mini Wright peak-fow meter có độ tin cậy rất cao (giữa các lần đo không sai lệch nhiều)

Chạy mô hình mixed effect với lệnh xtmixed

xtmixed wm || id:, mle

Performing EM optimization:

Performing gradient-based optimization:

Computing standard errors:

Mixed-effects ML regression Number of obs = 34

Group variable: id Number of groups = 17

Obs per group:

Trang 32

sd(_cons) | 107.0464 18.67858 76.04062 150.695

sd(Residual) | 19.91083 3.414678 14.22687 27.86564

-LR test vs linear model: chibar2(01) = 46.27 Prob >= chibar2 = 0.0000

Vì mô hình variance-component model là dạng đơn giản nhất của mixed model nên chúng ta có thể sử dụng lệnh xtmixed để chạy mô hình.

Trong xtmixed chúng ta xác định luôn random intercept là id mà không cần dùng lệnh xtset như trong xtreg Điều này giúp làm rõ luôn mô hình có random effect là biến nào Phần random part sẽ được xác định sau ||.

Option mle dùng để yêu cầu chạy maximum likelihood estimator.

Bảng ước lượng dành cho phần fixed part của mô hình tương tự như lệnh xtreg và tất cả các lệnh ước lượng khác trong Stata Phép kiểm dành cho fixed part là phép kiểm z chứ không phải phép kiểm t như trong lệnh xtreg Khoảng 95% CI trong fixed part gọi là 95% Wald CI

SE của beta có thể ước lượng từ mẫu hoặc từ pp ước lượng sandwich (gọi là robust SE)

sd(cons) chính là ước lượng độ lệch chuẩn của điểm chặn ngẫu nhiên (√ψ) của điểm chặn ngẫu nhiên của đốiψ) của điểm chặn ngẫu nhiên của đối) Phương sai

random intercept giữa các đối tượng, khi đó chúng ta có thể sử dụng mô hình hồi quy tuyến tính bình thường thay vì mô hình phương sai thành phần (variance-component

model) Phép kiểm để kiểm tra giả thuyết này gọi là likelihood-ratio test Phép kiểm này

so sánh giữa mô hình có random intercept và mô hình không có random intercept Dòng cuối cùng của bảng random chính là giá trị p của phép kiểm likelihood-ratio test (LR test).

Khoảng tin cậy của sd random intercept được ước lượng từ log sd chứ không phải chính

sd Khoảng tin cậy này gọi là Wald confidence interval Sd không được dùng để tính CI bởi vì trong trường hợp số cluster ít phân phối của sd có thể không còn bình thường sd(Residual) chính là ước lượng độ lệch chuẩn (√ψ) của điểm chặn ngẫu nhiên của đốiθ) được ghi là /sigma_e, bằng 19.91 ) của hệ số dư level-1 Không có phép kiểm phương sai cho hệ số dư bởi vì phép kiểm này sẽ buộc tất cả các giá trị của y trong cùng đối tượng là giống nhau.

Trang 33

Tất cả các ước lượng đều giống với ước lượng dùng lệnh xtreg

Chúng ta cũng có thể tính được phương sai ước lượng (thay vì độ lệch chuẩn) với các sai

số chuẩn của chúng bằng option variance.

Trang 34

quietly xtmixed wm || id:, mle

estimates store ri

quietly xtmixed wm, mle

lrtest ri

Likelihood-ratio test LR chi2(1) = 46.27

(Assumption: nested in ri) Prob > chi2 = 0.0000

Note: The reported degrees of freedom assumes the null hypothesis is not on theboundary of the parameter space If this is

not true, then the reported test is conservative

Chúng ta cũng có thể chạy thẳng phép kiểm LR test bằng lệnh lrtest.

Trong câu lệnh lrtest thì ri chính là mô hình có random intercept còn chính là mô hình hiện hành (không có random intercept)

Bởi vì chỉ có 17 đối tượng quá ít so với giả định phân bố của phép kiểm LR test do đó phép kiểm có dòng Note phía dưới.

Kết quả cho thấy giá trị p rất nhỏ chứng tỏ mô hình có random intercept tốt hơn so với

mô hình không có random intercept.

Chạy mô hình fixed effect (one-way ANOVA) bằng lệnh xtreg

Thay vì cho các subject thay đổi thành random effect, thì fixed effect model sẽ cho từng subject thành các dummy variable với coeff riêng

Option fe (fixed effect) bảo Stata chạy mô hình fixed effect

Trang 35

Giả định của phép kiểm này là tất cả hệ số của các subject = 0 hay nói cách khác các subject có cùng trung bình Dòng cuối cùng của phép kiểm F test cho thấy bác bỏ giả

Tính random intercept bằng ước lượng qua phương pháp maximum

“likelihood” estimation

Chạy mô hình sau đó tiên đoán pred chính là giá trị tiên đoán β) bằng 453.91 (β) bằng 453.91 hat).

Trang 36

Chúng ta có thể sử dụng mô hình hồi quy tuyến tính truyền thống để ước tính hệ số dư cho cluster.

Chúng ta sử dụng phương pháp maximum “likelihood” estimation để ước lượng hệ số dư cho từng cluster Ở đây có 17 cluster do đó sẽ có 17 hệ số dư cho cluster.

Chúng ta tạo ra biến dummy cho từng cluster bằng cách thêm tiếp đầu ngữ ibn (nghĩa là tạo dummy không có tầng nền no base catergory).

Option noconstant sẽ loại bỏ hằng số chung.

Thay vì tạo biến pre (giá trị tiên đoán), rồi tạo biến res (hệ số dư) như câu lệnh trên, chúng ta có thể tạo thẳng random intercept bằng lệnh predict với option reffects.

Sau khi tạo biến radint0 chúng ta có thể vẽ ngay đồ thị randaom intercept cho từng cluster.

Đồ thị cho thấy tại bất kỳ mức độ logdens, minority và colled (là các predictor trong mô hình) thì % bầu cho bush (biến outcome) trung bình giảm 15 điểm tại các hạt New

Trang 37

England, trên 8 điểm tại W South Central và ở mức trung bình tại các bang W North Central

chúng ta cũng có thể tính được hệ số dư cho cluster từ mô hình variance-component model bằng cách sau khi chạy mô hình với lệnh xtreg, chúng ta dùng lệnh predict ml2 (maximum likelihood 2, là ước lượng maximum lần 2 dành cho hệ số dư cluster), với option u để chỉ đến hệ số dư cho cluster.

Chúng ta cũng có thể tính bằng tay bằng cách tạo biến ml là trung bình cộng của res sau

đó tính cho từng cluster bằng bệnh display.

Trang 38

Tính random intercept bằng tiên đoán qua phương pháp Empirical Bayes prediction

Tính giá trị hệ số dư của cluster bằng phương pháp Bayes prediction.

Trang 40

MÔ HÌNH RANDOM INTERCEPT VỚI

COVRIATES (KHÔNG TƯƠNG QUAN VỚI

RANDOM INTERCEPT ζ))

Kiểm tra level của các biến

Thiết lập data là dữ liệu multilevel data bằng lệnh xtset id với biến id là biến identifier.

Tổng số quan sát trong nghiên cứu là 8604 (N) và có 3978 cluster (n).

Trung bình có 2.2 con được các bà mẹ sinh ra

Biến black (chủng tộc) có độ lệch chuẩn within-cluster = 0 nghĩa là biến này

là biến level-2 (cluster) Trung bình biến black có thể giải thích là tỷ lệ trẻ có

mẹ là người da đen (cấp độ level 1) hoặc tỷ lệ bà mẹ là người da đen (cấp độ level-2).

Biến smoke và birwt thay đổi between-subject nhiều hơn so với subject là biến level 1 (units) Mức độ thay đổi within-subject quan trọng vì một số estimator phụ thuộc vào thay đổi within-subject.

Định dạng
Số trang	90
Dung lượng	10,84 MB
File đính kèm	65. LONGITUDINAL DATA CHO BIEN DINH LUONG.rar (10 MB)

LONGITUDINAL DATA CHO BIEN DINH LUONG

COVRIATES (KHÔNG TƯƠNG QUAN VỚI

LƯỢNG LIÊN TỤC VÀ COVARIATE