Data Analysis Using R Introduction to the R language Phân tích thống kê mô tả Nguyễn Văn Tuấn Nguyễn Đình Nguyên Garvan Institute of Medical Research, Sydney, Australia Tổng quan • Đo lường • Quần thể[.]
Trang 1Phân tích thống kê mô tả
Nguyễn Văn Tuấn Nguyễn Đình Nguyên
Garvan Institute of Medical Research,
Sydney, Australia
Trang 2Tổng quan
• Đo lường
• Quần thể và mẫu nghiên cứu
• Tóm tắt số liệu: trung bình, phương sai, độ lệch chuẩn
• Phân tích biểu đồ
• Hoán chuyển dữ liệu
Trang 3Thang đo lường
• Nhìn chung, các số liệu
quan sát được đều có thể
lượng hoá bằng thang tỷ lệ
(ratio)
• Các số liệu đinh tính thường
đo lường bằng các khoảng
(interval)
• Ở đây chúng ta sẽ chú trọng
hai loại số liệu chính là số
liệu phân nhóm so với số
liệu phân bố liên tục (ordinal,
interval, ratio)
Phân nhóm Liên tục
thứ tự Theo khoảng
tỷ lệ Biến
Trang 4Đo lường trình tự
• Trình tự (Ordinal): Designates an ordering; quasi-ranking
– Các kho ảng giữa các vị trí không nhất thiết bằng nhau
– S ắp xếp theo thứ tự
Thứ nhất Thứ hai Thứ 3 Thứ 4
Trang 5Khoảng và Tỷ lệ
• Khoảng (interval): Sắp xếp thành từng khoảng bằng
nhau
– Khoảng cách giữa từng đoạn luôn bằng nhau
– Thí dụ: Các test IQ thông thường luôn sắp thành những khoảng bằng nhau
• Tỷ lệ (ratio): Sắp xếp thành những khoảng cách bằng
nhau theo trình tự bao gồm cả giá trị 0
Trang 6Th ống kê : Ước lượng giá trị chưa biết
Trang 7Ước tính trung bình quần thể
Chi ều cao trung bình của quần thể = 160 cm
Trang 8Ước tính tỷ lệ trong quần thể
Tỷ lệ nam giới trong quần thể = 0.50 Lấy ra một cỡ mẫu n ngưòi, mỗi lần lấy ra k người Ghi nhận lại số
nam giới trong mỗi lần lấy đó
Trang 9Tóm tắt một biến số liên tục
• Đo độ tập trung:
– Trung bình (mean), trung tuy ển (median), trung vị (mode)
• Đo độ tán xạ hay dao động:
– Ph ương sai, độ lệch chuẩn, sai số chuẩn
– Mi ền giữa hai khoảng tứ phân vị (interquartile range)
Trang 100.50 65.80 8.11 0.15
Trang 115% percentile Median, 50% perc.
Trang 12Biểu đồ chuỗi
Trang 14Vai trò của trung bình và độ lệch chuẩn
• “Trong quần thể người Việt nam ở tuổi 30 trở lên, cân
nặng trung bình là 55 kg và độ lệch chuẩn là 8.2 kg.”
• Hai con số này có nghĩa là gì?
• 68% số người trong lứa tuổi này sẽ có cân nặng nằm trong khoảng từ 55 +/- 8.2*1 = 46.8 đến 63.2 kg
• 95% số người trong lứa tuổi này sẽ có cân nặng nằm trong khoảng từ 55 +/- 8.2*1.96 = 38.9 đến 71.1 kg
Trang 15Vai trò của trung bình và độ lệch chuẩn
• Phân bố về cân nặng của quần thể đó có thể biểu diễn bằng giản đồ cột:
0 1 2 3 4 5 6
Trang 17Trung bình và phương sai của tỷ lệ
• Đối với một người bệnh i, xác suất cho người này hài
lòng với cuộc sống sau mổ là pi Giả định các bệnh nhân sau mổ một loại bệnh nào đó là độc lập với nhau
thì pi = p.
• Phương sai của pi là var(pi) = p(1-p)
• Do đó có một mẫu n bệnh nhân sau mổ một loại bệnh, xác suất cho bệnh nhân hài lòng với cuộc sống sau mổ được tính là:
n
p p
Trang 18X ấp xỉ phân phối chuẩn của một
• Đối với một người bệnh i, xác suất cho người này hài
lòng với cuộc sống sau mổ là pi Giả định các bệnh
nhân sau mổ một loại bệnh nào đó là độc lập với nhau
thì pi = p.
• Phương sai của pi là var(pi) = p(1-p)
Trang 20Phân tích mô tả số liệu biến liên tục
Trang 21Paired t-test
• Giả định:
– Biến liên tục
– Phân phối chuẩn
– Hai mẫu KHÔNG độc lập với nhau
Trang 22Paired t-test – ví dụ
• V ấn đề: Để xem độ sai lệch giữa hai cân 12 bệnh nhi được yêu cầu cân làm hai lần, mỗi lần với một cân khác nhau, và kết quả thu được như sau:
Trang 24Paired t-test – phân tích
BN Cân1 Cân2 Khác biệt
SD/sqrt(n) = 2.82/sqrt(12) = 0.814
T-test = (1.83 – 0)/0.814 = 2.248 P-value = 0.0459
Kết luận: Có sự khác biệt có ý nghĩa thống kê về số đo khi cân một bệnh nhân bằng hai cân khác nhau.
Trang 25Paired t-test – Phân tích bằng R
can1 < -c(20,18,19,22,17,20,19,16,21,17,23,18)
can2 < -c(22,19,17,18,21,23,19,20,22,20,27,24)
t.test(can1, can2, paired=TRUE)
data: red and white
Trang 26Two-sample t-test (unpaired t-test)
Trang 2795% Khoảng tin cậy:
Chiều cao trung bình (cm) của hai nhóm trẻ ở vùng nông thôn (A) và thành thị (B)
Trang 29Unpaired t-test trong R
Trang 30Hoán chuyển số liệu: hiệu ứng nhân
• Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của 29 bệnh nhân bị loét dạ dày và của 30 người chứng Liệu có sự khác nhau
về lượng lysozyme trong dịch dạ dày của hai nhóm này không?
Nhóm bệnh:
0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4 10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0
Nhóm chứng:
0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7 5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7
33.0
Trang 34Kiểm định Shapiro-Wilk
• Để xem phân phối có tuân theo luật chuẩn hay không.
• Giả thuyết là phân phối g1, g2 tuân theo luật chuẩn (p >0.05), nếu kết quả thu được p <0.05 không tuân theo luật chuẩn.
• Cần chú ý: các test này rất nhạy nên cần phải xem xét các yếu tố khác:
độ dốc (skewness) và độ nhọn (kurtosis) của đường cong phân phối đó.
Trang 35Kiểm tra lại độ skewness (=0), kurtosis (=1)
1 Quartile 1.925000
3 Quartile 10.000000 Mean 7.683333 Median 5.100000 Sum 230.500000
SE Mean 1.433179 LCL Mean 4.752153 UCL Mean 10.614513 Variance 61.620057 Stdev 7.849844 Skewness 1.351903 Kurtosis 1.432079
library(fBasics)
Trang 36Phân tích lại số liệu lysozyme: hoán chuyển
log.g1 <- log(g1) log.g2 <- log(g2)
Trang 37Kiểm tra lại độ skewness (=0), kurtosis (=1)
1 Quartile 1.925000
3 Quartile 10.000000 Mean 7.683333 Median 5.100000 Sum 230.500000
SE Mean 1.433179 LCL Mean 4.752153 UCL Mean 10.614513 Variance 61.620057 Stdev 7.849844 Skewness 1.351903 Kurtosis 1.432079
library(fBasics)
Trang 39Phân tích lại số liệu lysozyme
Trang 40Phân tích mô tả số liệu phân nhóm
Trang 43Tỷ lệ tử vong trong 30 ngày (%) của 100
con chuột cống cho phơi nhiễm với
heroin và cocaine là
Phân tích
Khác biệt: D = 0.90 – 0.36 = 0.54
SE (D) = [0.9(0.1)/100 + 0.36(0.64)/100]1/2
= 0.057
Z = 0.54 / 0.057 = 9.54
95% CI:
0.54 + 1.96(0.057) 0.43 to 0.65
Kết luận: Loại bỏ giả thuyết, có nghĩa là tỷ lệ tử vong giữa hai nhóm phơi nhiễm khác nhau có
ý nghĩa thống kê.
Trang 44data: deaths out of total
X-squared = 60.2531, df = 1, p-value = 8.341e-15 alternative hypothesis: two.sided
95 percent confidence interval:
0.4190584 0.6609416
sample estimates:
prop 1 prop 2
0.90 0.36
Trang 45Kiểm định khác biệt tỷ lệ trên 2 nhóm: Chi
Trang 46Kiểm định khác biệt tỷ lệ trên 2 nhóm:
Chi (Kai) bình phương
Tình trạng Lượng cà phê tiêu thụ
hôn nhân 1- 151-
300-Không 150 300 900 Tổng _
Tình trạng Lượng cà phê tiêu thụ
Trang 47Test for Difference Among
Proportions
Lượng cà phê tiêu thụ
1- 151- Không 150 300 900
Trang 48females <- c(4, 43, 22, 0)
total <- c(8, 60, 30, 2)
prop.test(females, total)
#or chisq.test(sex,ethnicity)
Trang 494-sample test for equality of proportions without
Kết quả phân tích sử dụng Chi-squared với một trong các phần tử có số liệu < 5 sẽ
Trang 50Fisher's Exact Test for Count Data
data: sex and ethnicity
p-value = 0.1048
alternative hypothesis: two.sided
So sánh tỷ lệ trên 2 nhóm – Phân tích dùng Fisher’s exact
Kết quả phân tích sử dụng Chi-squared với một trong các phần tử có số liệu < 5 sẽ đưa kết quả không chính xác Khi
đó nên dùng Fisher’s exact test.
Trang 51– Liệu có phải hoán chuyển không?
– Dùng các phương pháp thống kê thích hợp (t-test…)
• Số liệu phân nhóm:
– Trình bày bằng tỷ lệ %
– So sánh hai hay nhiều tỷ lệ
• Trình bày kết quả đi kèm với khoảng tin cậy 95% (và p-values)
Trang 52Lời Cảm tạ
• Chúng tôi xin chân thành cám ơn Công
ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.