• Biến số Biến số phụ thuộc: trọng lượng thai Biến số độc lập: tuổi thai và cao huyết áp Biến số gây nhiễu: tuổi mẹ, giới tính • Thống kê: kiểm định t và hồi quy... Các bước phân tích số
Trang 2NỘI DUNG BÀI HỌC
1 Kiểm định so sánh 2 trung bình với phương
sai đồng nhất.
2 Kiểm định so sánh 2 trung bình với phương
sai không đồng nhất.
3 Phân tích phương sai - Kiểm định ANOVA.
4 Hồi quy tuyến tính.
Trang 3Các bước phân tích số liệu
• Mở tập tin
– File :: Open
• Lưu ý: sử dụng log để lưu kết quả phân tích.
• Liệt kê các biến số và xác định số bản ghi (số đối tượng) bằng F3
• Xác định
– Mục tiêu nghiên cứu,
– Các biến số và phân loại biến số,
– Kế hoạch phân tích
Trang 4Các bước phân tích số liệu
• Mục tiêu:
Đánh giá tác động của cao huyết áp trong thai kì
và tuổi thai lên trọng lượng thai.
• Biến số
Biến số phụ thuộc: trọng lượng thai
Biến số độc lập: tuổi thai và cao huyết áp
Biến số gây nhiễu: tuổi mẹ, giới tính
• Thống kê: kiểm định t và hồi quy
Trang 5Các bước phân tích số liệu
• Phân tích số liệu: thống kê mô tả
– Bảng tần suất của biến số định tính
– Trung bình, ĐLC của biến số định lượng – Vẽ biểu đồ, đồ thị (nếu cần).
• Phân tích số liệu: kiểm định, thống kê phân tích
– Theo các mục tiêu nghiên cứu
Trang 7Không đồng nhất
Trang 8thai ở nhóm giới tính nam và giới tính nữ
– So sánh phương sai 2 nhóm
– So sánh trung bình 2 nhóm
Trang 9CÁC BƯỚC TRONG KIỂM ĐỊNH GT
• Bước 1: Xây dựng giả thuyết Ho
• Bước 2: Chọn kiểm định phù hợp
• Bước 3: Tính thông kê t
• Bước 4: Tính xác suất của giá trị thống kê t
• Bước 5: Kết luận
Trang 10Phép kiểm t (giả định phương sai bằng nhau)
• Bước 1: Xây dựng giả thuyết Ho:
– Ho: Trọng lượng TB ở trẻ trai = Trọng lượng TB ở trẻ gái
• Bước 2: Chọn kiểm định phù hợp (độ lệch chuẩn 2 nhóm bằng nhau)
648 )
1 (
) 1 (
) 1 (
) 1 (
2 1
2 2 2
2 1
s n
s
n
sp
265 ,
19 , 51 /
1 /
1 1 2
Trang 11Statistics :: Summaries, tables, & tests :: Classical tests
of hypothesis :: Two-group variance comparison test
Trang 12Biến định lượng cần được kiểm định
Biến định tính chỉ định 2 nhóm cần được so sánh
Trang 13sdtest bweight, by(sex)
Variance ratio test
Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ - trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843 gai | 315 3044.127 35.421 628.6603 2974.434 3113.819 -+ - combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 - Ho: sd(trai) = sd(gai)
F(325,314) observed = F_obs = 1.122
F(325,314) lower tail = F_L = 1/F_obs = 0.891
F(325,314) upper tail = F_U = F_obs = 1.122
Ha: sd(trai) < sd(gai) Ha: sd(trai) ~= sd(gai) Ha: sd(trai) > sd(gai)
P < F_obs = 0.8482 P < F_L + P > F_U = 0.3032 P > F_obs = 0.1518
KẾT LUẬN:
p = 0,3032 CHẤP NHẬN giả thuyết Ho: độ lệch chuẩn của nhóm trẻ trai bằng độ lệch chuẩn của nhóm trẻ gái.
Sử dụng kiểm định t phương sai đồng nhất
Trang 14Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Two-group mean comparison test
Trang 15Biến định lượng cần được kiểm định
Biến định tính chỉ định 2 nhóm cần được so sánh
Trang 16ttest bweight, by(sex)
Two-sample t test with equal variances
Ho: mean(nam) - mean(nu) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = 3.2654 t = 3.2654 t = 3.2654
P < t = 0.9994 P > |t| = 0.0012 P > t = 0.0006
KẾT LUẬN:
• Trẻ trai có trọng lượng sơ sinh trung bình là
3211.28 gram, của trẻ gái là 3044.13 gram.
• Với giá trị t = 3,2654 và mức ý nghĩa
(p-value) là 0.0012 có sự khác biệt về trọng lượng sơ sinh giữa trẻ trai và trẻ gái
(p=0.0012).
Trang 18Statistics :: Summaries, tables, & tests :: Classical tests
of hypothesis :: Two-group variance comparison test
Trang 19Biến định lượng cần được kiểm định
Biến định tính chỉ định 2 nhóm cần được so sánh
Trang 20sdtest bweight, by( ht )
Variance ratio test
F(88,551) lower tail = F_L = 1/F_obs = 0.547
F(88,551) upper tail = F_U = F_obs = 1.829
Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2)
P < F_obs = 1.0000 P < F_L + P > F_U = 0.0003 P > F_obs = 0.0000
KẾT LUẬN:
• p = 0,0003 phương sai của trọng lượng lúc
sinh của 2 nhóm không đồng nhất.
Sử dụng t-test phương sai không đồng nhất
hay kiểm định phi tham số.
Trang 21• Bước 1: Xây dựng giả thuyết Ho:
– Ho: Trọng lượng TB ở trẻ có mẹ CHA = Trọng lượng TB ở trẻ với mẹ không CHA
• Bước 2: Chọn kiểm định phù hợp (độ lệch chuẩn 2 nhóm không bằng nhau)
– Kiểm định t (PS không bằng nhau) với 104,07 độ tự do
• Bước 3:
• Bước 4: p<0,001
• Bước 5: Kết luận: Bác bỏ Ho
999 ,
89 ,
89 552
1 ,
601 89
95 ,
2
221
s se
Phép kiểm t (giả định phương sai không bằng nhau)
Trang 22Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Two-group mean comparison test
Trang 23Biến định lượng cần được kiểm định
Biến định tính chỉ định 2 nhóm cần được so sánh
Trang 24ttest bweight, by(ht) unequal
Two-sample t test with unequal variances
-Satterthwaite's degrees of freedom: 104.069
Ho: mean(cao huye) - mean(khong CH) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = -4.9991 t = -4.9991 t = -4.9991
P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000
KẾT LUẬN:
• Con bà mẹ bị cao huyết áp có trọng lượng sơ
sinh trung bình là 2742 gram, ở con của bà mẹ không cao huyết áp là 3192 gram Sự khác biệt này có ý nghĩa thống kê với p<0,0001.
Trang 25Statistics :: Summaries, tables, & tests ::
Non-parametric test of hypotheses :: Wilcoxon ranksum test
Trang 26Biến định lượng cần được kiểm định
Biến định tính chỉ định 2 nhóm cần được so sánh
Trang 27ranksum bweight, by( ht )
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
ht | obs rank sum expected
Trang 28• So sánh phương sai trọng lượng trẻ nam
và trẻ nữ
• So sánh trung bình trọng lượng trẻ nam và trẻ nữ
• So sánh phương sai trọng lượng trẻ có
mẹ cao huyết áp và trẻ có mẹ không cao huyết áp
• So sánh trung bình trọng lượng trẻ có mẹ cao huyết áp và trẻ có mẹ không cao
huyết áp
Trang 29Phép kiểm t bắt cặp – các bước
• Bước 1: Xây dựng giả thuyết Ho:
– Trung bình hiệu số (huyết áp 1 – huyết áp 2) = 0
• Bước 2: Chọn kiểm định phù hợp
– Kiểm định t với (n-1) = 9 độ tự do ; t tới hạn= 2,36
• Bước 3:
49 ,
1 /
; 55 , 8
; 8 ,
n s
d t
s
Bước 4: t = 1,49 > t tới hạn ; p>0,05
Bước 5: Khoảng tin cậy 95%:x t·s/n
Bước 6: Kết luận (bác bỏ hay không bác bỏ Ho)
Trang 30Mở file antiht.dta
describe
Contains data from C:\PROGRAM FILES\DATA\antiht.dta
obs: 10 Blood pressure on 2 treatment vars: 3 16 Jul 2002 22:01
size: 160 (99.9% of memory free)
storage display value
-variable name type format label -variable label
Trang 33- ttest bp1 == bp2
Paired t test
Variable | Obs Mean Std Err Std Dev [95% Conf Interval] -+ - bp1 | 10 139.2 6.392357 20.21441 124.7395 153.6605 bp2 | 10 126.4 3.967087 12.54503 117.4258 135.3742 -+ - diff | 10 12.8 8.554141 27.05057 -6.550812 32.15081 - Ho: mean(bp1 - bp2) = mean(diff) = 0
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
t = 1.4964 t = 1.4964 t = 1.4964
P < t = 0.9156 P > |t| = 0.1688 P > t = 0.0844
KẾT LUẬN:
Trang 34Kiểm định ANOVA
So sánh nhiều nhóm (song song)
ở 3 hay nhiều nhóm
• Mở tập tin ivf.dta
thai ở các nhóm tuổi ở bà mẹ
Trang 35Điều kiện của kiểm định ANOVA
• Biến số phụ thuộc có phân phối bình thường - điều này đã được xác nhận từ đồ thị của trọng lượng sơ sinh và
• Phương sai của biến phụ thuộc ở các nhóm bằng nhau
Trang 36Statistics :: ANOVA/MANOVA :: Oneway analysis of variance
Trang 37Biến phụ thuộc là biến
định lượng
Biến định tính chỉ định các nhóm cần được so
sánh
Trang 38df: Độ tự do
MS: Mean of square: trung bình bình phương
P value của test ANOVA
Ho: Trung bình các nhóm bằng nhau P value của test Bartlett
Trang 39Điều kiện của kiểm định ANOVA
• Con bà mẹ tuổi dưới 30 có trọng lượng trung
bình là 3102 gram, của bà mẹ 30-34 là 3138
gram, của bà mẹ 35-39 là 3133 gram và của con
bà mẹ trên 40 là 3112 gram
– (a) biến số phụ thuộc có phân phối bình thường - điều này
đã được xác nhận từ đồ thị của trọng lượng sơ sinh và
– (b) phương sai của biến phụ thuộc ở các nhóm bằng nhau
- điều này cũng được xác nhận qua thống kê Bartlett với p-value là 0,205
kiểm định ANOVA là có giá trị
• Giá trị F = 0.08 và mức ý nghĩa (p-value) là
0.9723 chúng ta kết luận không có sự khác biệt
về trọng lượng sơ sinh của các nhóm tuổi bà
mẹ.
Trang 40Tương quan và hồi quy
• Mục tiêu: xác định mối tương quan giữa trọng lượng thai và tuổi thai và tuổi của
mẹ.
• Mở file số liệu: IVF.DTA
• Vẽ đồ thị xác định mối tương quan
Graphics :: Twoway graph (scatterplot, line, etc.)
Trang 41Biến phụ thuộc:
Trọng lượng thai
Biến độc lập: Tuổi
thai
Trang 43Hệ số tương quan
• Hệ số tương quan
• Tính chất
– Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
– Hệ số tương quan r dương hai biến số là đồng biến;
– Hệ số tương quan r âm hai biến số là nghịch biến.
– r=0 (hay r < 0,1) không có mối liên hệ tuyến tính
giữa hai biến số
) (
) (
) )(
s
y x n xy y
y x
x
y y
x
x r
y x i
i
i i
Trang 46pwcorr bweight gestwks matage, sig star(5)
| bweight gestwks matage
– trọng lượng thai với trọng lượng thai là 1,
– giữa trọng lượng thai và tuổi thai là 0.7376 (giá trị p=0,0000),
– giữa trọng lượng thai và tuổi của mẹ là 0,0337 (giá trị
p = 0,3941)
Có sự tương quan mạnh có ý nghĩa thống kê giữa
trọng lượng thai và tuổi thai trong khi đó sự tương quan giữa trọng lượng thai và tuổi mẹ rất yếu và
không có ý nghĩa thống kê
Trang 47Phương trình hồi quy
Trang 48Xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai
Trang 49Biến phụ thuộc:
Trọng lượng thai
Biến độc lập: Tuổi
thai
Trang 50regress bweight gestwks
Source | SS df MS Number of obs = 641
-+ - F( 1, 639) = 762.25
Model | 148354317 1 148354317 Prob > F = 0.0000
Residual | 124365805 639 194625.673 R-squared = 0.5440
-+ - Adj R-squared = 0.5433
Total | 272720122 640 426125.19 Root MSE = 441.16
bweight | Coef Std Err t P>|t| [95% Conf Interval]
gestwks | 206.6412 7.484572 27.609 0.000 191.9439 221.3386
_cons | -4865.245 290.0814 -16.772 0.000 -5434.873 -4295.617
• Hệ số tương quan bình phương R-squared = 0.544 = 54.4% tuổi
thai góp phần vào 54.4% thay đổi về trọng lượng sơ sinh.
• Giá trị 0.54 chính là giá trị 148.3/272.7)
phương trình hồi quy như sau:
• Trọng lượng sơ sinh = -4865.245 + 206.641 x tuổi thai (tính theo
tuần).
Lý giải: nếu đứa trẻ lớn hơn 1 tuần tuổi thì trọng
lượng lúc sanh của nó sẽ tăng thêm 206.641 gram.
Thai 36 tuần Trẻ nặng: -4865.245 + 206.641 x 36 = A Thai 37 tuần Trẻ nặng: -4865.245 + 206.641 x 37 = B
B – A = 206.641 gram
Trang 51Phương trình hồi quy khi biến độc lập là biến nhị giá
• Hồi quy trọng lượng thai theo giới tính
• Khi biến độc lập là biến nhị giá không thể
vẽ phân tán đồ và tính hệ số tương quan nhưng có thể tính phương trình hồi quy.
• Y= a + bx
• Hệ số (b) của biến độc lập là biến nhị giá
– Sự khác biệt của trọng lượng thai của giá trị sex là nữ (2) so với giá trị sex là nam (1)
Trang 52• Hồi quy trọng lượng thai theo giới tính
bweight | Coef Std Err t P>|t| [95% Conf Interval] -+ - sex | -167.1522 51.18935 -3.27 0.001 -267.6718 -66.63249 _cons | 3378.431 80.5197 41.96 0.000 3220.316 3536.546 -
Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ - trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843 gai | 315 3044.127 35.421 628.6603 2974.434 3113.819 -+ - combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 -+ - diff | 167.1522 51.18935 66.63249 267.6718 -
Trang 53-Hồi quy đa biến
• Có 2 người đàn ông đẩy được 350 kg
• Có 1 người đàn ông đẩy được 150 kg
• Hồi quy đơn biến
– TL=- 50 + 200 x đàn ông
Trang 54• Có 2 người đàn ông và 3 đàn bà đẩy được 350 kg
• Có 1 người đàn ông và 1 đàn bà đẩy được 150 kg
• Hồi quy đơn biến
– TL=- 50 + 200 x đàn ông
• Hồi quy đa biến
– TL=100 * đàn ông + 50 * đàn bà
Trang 55Phương trình hồi quy đa biến
• Y= a + b 1 x 1 + b 2 x 2 +…+b n x n
• a: hằng số
• b n : hệ số của biến x n : mức độ thay đổi của biến phụ thuộc khi biến x n thay đổi một đơn vị và các biến số khác không thay đổi
• b 1 : tác động của biến x 1 lên biến phụ thuộc có kiểm soát cho các biến số gây nhiễu x 2 -x n
• Hồi quy đa biến có thể kiểm soát cho các yếu tố gây nhiễu
Trang 57Biến phụ thuộc: Trọng
lượng thai Biến độc lập: Tuổi thai, giới, huyết áp mẹ
Trang 58regress bweight gestwks sex ht
Source | SS df MS Number of obs = 641 -+ - F( 3, 637) = 275.43 Model | 153998584 3 51332861.4 Prob > F = 0.0000 Residual | 118721538 637 186376.04 R-squared = 0.5647 -+ - Adj R-squared = 0.5626 Total | 272720122 640 426125.19 Root MSE = 431.71
bweight | Coef Std Err t P>|t| [95% Conf Interval] -+ - gestwks | 201.4248 7.541441 26.709 0.000 186.6157 216.2339 sex | -167.8167 34.17884 -4.910 0.000 -234.9335 -100.6999
ht | 142.14 50.8685 2.794 0.005 42.24979 242.0302 _cons | -4677.695 289.507 -16.157 0.000 -5246.198 -4109.192
• r2 (R-squared)= 0.5647 phương trình hồi quy giải thích được 56.5% sự biến thiên của trọng lượng thai.
mô hình có cả giới tính và cao huyết áp giải
thích tốt hơn so với mô hình chỉ có tuổi thai
(r2=0.54)
• Phương trình hồi quy theo kết quả ở trên:
• Trọng lượng thai = -4677.695 + tuổi thai x 201.425 +
Trang 60• Trọng lượng sơ sinh = -4865.245 + 206.641 x tuổi
thai (tính theo tuần)
• Trọng lượng thai = -4677.695 + tuổi thai x 201.425
+ cao huyết áp x 142.14 - giới x 167.817
• PT 2: hệ số của biến số tuổi thai là 201.4
• PT 1: hệ số của biến số tuổi thai là 206.6
• Hệ số nào là đúng hơn (201,4 và 206,6)?
con số 201.4 là phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.
Trang 61ttest bweight, by(ht) unequal
Two-sample t test with unequal variances
-Satterthwaite's degrees of freedom: 104.069
Ho: mean(cao huye) - mean(khong CH) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = -4.9991 t = -4.9991 t = -4.9991
P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000
KẾT LUẬN:
• Con bà mẹ bị cao huyết áp có trọng lượng sơ
sinh trung bình là 2742 gram, ở con của bà mẹ không cao huyết áp là 3192 gram Sự khác biệt này có ý nghĩa thống kê với p<0,0001.
Trang 62Trọng lượng thai = -4677.695 + tuổi thai x 201.425 +
cao huyết áp x 142.14 - giới x 167.817
hệ số của BS cao huyết áp là 142,14 gram
• Kiểm định t cho biết cao huyết áp bị mất cân
nặng 449,37 gram
• Số liệu nào đúng hơn (449,37 và 142,14)?
• 449.37 và 142.14 sự khác biệt do tình trạng cao huyết áp của mẹ
– 449.37 là con số khác biệt thô
– 142.14 là con số khác biệt có hiệu chỉnh theo tháng tuổi và giới tính