Nội dung– Kiếm tra outliers – Kiểm tra luật phân phối của dữ liệu... Giả định trong phân tích thống kê... Kiểm tra phân phối của biến sốLí tưởng: phân phối chuẩn Cân đối, hình chuông...
Trang 2Nội dung
– Kiếm tra outliers
– Kiểm tra luật phân phối của dữ liệu
Trang 3Giả định trong phân tích thống kê
Trang 4Kiểm tra phân phối của biến số
Lí tưởng: phân phối chuẩn
Cân đối, hình chuông
Trang 5Kiểm tra độ cân đối (symmetry)
Cân đối nhưng không theo hình chuông
Thiếu cân đối, hai đỉnh
Nghiêng về phía phải Nghiêng về phía trái
Trang 6Một đỉnh hay 2 đỉnh (modality)
Hai đỉnh Một đỉnh
Trang 7Kiểm tra kurtosis
Mesokurtic (trung bình) Platykurtic (phẳng)
Trang 8Ảnh hưởng của luật skewness và kurtosis
Mean ModeMedian (A) Symmetr ical
Mode Median Mean Mean
Median Mode
(B) Positive Skew (B) Negative Skew
(A) Cân đối (symmetry): trung bình = trung vị (B) Skew dương tính: trung bình > trung vị
(C) Skew âm tính: trung bình < trung vị
Trang 9Kiểm tra luật phân phối
Trang 10Kiểm tra outlier
x = c(1362, 1439, 1460, 1614, 1666, 1792, 1867, 9867, 1362, 1439,
1460, 1614, 1666)
stripchart(x)
2000 4000 6000 8000 10000
Trang 11Tóm lược dữ liệu từ một nhóm
Trang 12Những chỉ số thống kê thông dụng
– SD = căn số bậc hai của phương sai (variance)
Trang 135% percentileMedian, 50% perc.
Trang 14Trung bình và trung vị
Nếu chúng ta có số liệu từ 7 bệnh nhân sau đây:
Trang 15So sánh hai nhóm:
Biến liên tục
Trang 17Phân tích bằng biểu đồ
20 20
N =
GROUP
2 1
Biểu đồ này cho thấy: (1) Nhóm 1 có chol cao
hơn nhóm 2 – khác
nhau về vị trí.
(2) Nhóm 2 có độ dao
động cao hơn nhóm 1 – khác
nhau về biến thiên
(3) Tương đối cân đối,
nhưng có giá trị
“outlier”
Trang 18Mean = trung bình, SD = độ lệch chuẩn
Quan sát và suy nghiệm!
Trang 19Vài dòng lí thuyết về t-test
Trang 2019 1
20 1
19 1
20 1
2 1
= +
1320
120
11839.623
11
2 1
SE x x pooled
Trang 21Khoảng tin cậy 95% cho µ 1 – µ 2
)
(
2 1
975 0 , 2
62.14) (7.36,
39 27 75
34
) 13.56 )(
02 2 ( ) 30 210 05
245 (
) )(
( )
(
2 1
975 ,.
1 2
Trang 22Hoán chuyển số liệu không tuân theo luật
phân phối chuẩn
• Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của
29 bệnh nhân bị loét dạ dày và của 30 người chứng Liệu
có sự khác nhau về lượng lysozyme trong dịch dạ dày của hai nhóm này không?
Nhóm bệnh:
0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4 10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0
Nhóm chứng:
0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7 5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7 33.0
Trang 23Tóm lược số liệu lysozyme
Trang 24Kiểm định t số liệu lysozyme
.1528
))(
())(
(
2 2
2 2 2
2 1 1 2
=
×+
df
s pooled
20
330
129
1511 11
2 1
s
SE x x pooled
07.220
.3
68.731
=
Trang 25Giả định đằng sau kiểm định t có đáp ứng?
Trang 26Kiểm định Shapiro-Wilk
>0.05), nếu kết quả thu được p <0.05 không tuân theo luật chuẩn.
yếu tố khác: độ dốc (skewness) và độ nhọn (kurtosis) của
đường cong phân phối đó.
Trang 27Kiểm định F cho phương sai
02
485
.7
74
15
2
2 2
Trang 28Hoán chuyển số liệu lysozyme
Số liệu gốc Số liệu log
t = 1.41, p = 0.165
Độ khác biệt: d = 1.92 – 1.41 = 0.51Khoảng tin cậy 95%: -0.22 đến 1.25
Hoán chuyển sang đơn vị gốc:
Độ khác biệt: exp(0.51) 1.665Khoảng tin cậy 95%: 0.80 đến 3.49 Tính trung bình, nồng độ lysozyme ở nhóm bệnh cao hơn nhóm chứng khoảng 66%, nhưng phân tích khoảng tin cậy 95% cho thấy có thể thấp hơn 20% hay cao hơn 2.5 lần
Trang 29Phân tích lại số liệu lysozyme
data: log.g1 and log.g2
Trang 30Phân tích số liệu 2 nhóm kết xứng
(matched case control study)
Trang 31Matched samples
Trang 32Paired sample t-test
Cặp Case Control diff
1 14 1 13 KTC95% ( 2.160)
95% cho 0.3629 (2.160)(0.11) 0.3629 ± 0.2344
= (0.13, 0.60)
d d
s sem
n
df n
t KTC µ x t − −α sem
có ý nghĩa thống kê
Trang 33Tóm lược
– Sử dụng các thuật phân tích biểu đồ