Phân tích thống kê mô tả

Data Analysis Using R Introduction to the R language Phân tích thống kê mô tả Nguyễn Văn Tuấn Nguyễn Đình Nguyên Garvan Institute of Medical Research, Sydney, Australia Tổng quan • Đo lường • Quần thể[.]

Trang 1

Phân tích thống kê mô tả

Nguyễn Văn Tuấn Nguyễn Đình Nguyên

Garvan Institute of Medical Research,

Sydney, Australia

Trang 2

Tổng quan

• Đo lường

• Quần thể và mẫu nghiên cứu

• Tóm tắt số liệu: trung bình, phương sai, độ lệch chuẩn

• Phân tích biểu đồ

• Hoán chuyển dữ liệu

Trang 3

Thang đo lường

• Nhìn chung, các số liệu

quan sát được đều có thể

lượng hoá bằng thang tỷ lệ

(ratio)

• Các số liệu đinh tính thường

đo lường bằng các khoảng

(interval)

• Ở đây chúng ta sẽ chú trọng

hai loại số liệu chính là số

liệu phân nhóm so với số

liệu phân bố liên tục (ordinal,

interval, ratio)

Phân nhóm Liên tục

thứ tự Theo khoảng

tỷ lệ Biến

Trang 4

Đo lường trình tự

• Trình tự (Ordinal): Designates an ordering; quasi-ranking

– Các kho ảng giữa các vị trí không nhất thiết bằng nhau

– S ắp xếp theo thứ tự

Thứ nhất Thứ hai Thứ 3 Thứ 4

Trang 5

Khoảng và Tỷ lệ

• Khoảng (interval): Sắp xếp thành từng khoảng bằng

nhau

– Khoảng cách giữa từng đoạn luôn bằng nhau

– Thí dụ: Các test IQ thông thường luôn sắp thành những khoảng bằng nhau

• Tỷ lệ (ratio): Sắp xếp thành những khoảng cách bằng

nhau theo trình tự bao gồm cả giá trị 0

Trang 6

Th ống kê : Ước lượng giá trị chưa biết

Trang 7

Ước tính trung bình quần thể

Chi ều cao trung bình của quần thể = 160 cm

Trang 8

Ước tính tỷ lệ trong quần thể

Tỷ lệ nam giới trong quần thể = 0.50 Lấy ra một cỡ mẫu n ngưòi, mỗi lần lấy ra k người Ghi nhận lại số

nam giới trong mỗi lần lấy đó

Trang 9

Tóm tắt một biến số liên tục

• Đo độ tập trung:

– Trung bình (mean), trung tuy ển (median), trung vị (mode)

• Đo độ tán xạ hay dao động:

– Ph ương sai, độ lệch chuẩn, sai số chuẩn

– Mi ền giữa hai khoảng tứ phân vị (interquartile range)

Trang 10

0.50 65.80 8.11 0.15

Trang 11

5% percentile Median, 50% perc.

Trang 12

Biểu đồ chuỗi

Trang 14

Vai trò của trung bình và độ lệch chuẩn

• “Trong quần thể người Việt nam ở tuổi 30 trở lên, cân

nặng trung bình là 55 kg và độ lệch chuẩn là 8.2 kg.”

• Hai con số này có nghĩa là gì?

• 68% số người trong lứa tuổi này sẽ có cân nặng nằm trong khoảng từ 55 +/- 8.2*1 = 46.8 đến 63.2 kg

• 95% số người trong lứa tuổi này sẽ có cân nặng nằm trong khoảng từ 55 +/- 8.2*1.96 = 38.9 đến 71.1 kg

Trang 15

Vai trò của trung bình và độ lệch chuẩn

• Phân bố về cân nặng của quần thể đó có thể biểu diễn bằng giản đồ cột:

0 1 2 3 4 5 6

Trang 17

Trung bình và phương sai của tỷ lệ

• Đối với một người bệnh i, xác suất cho người này hài

lòng với cuộc sống sau mổ là pi Giả định các bệnh nhân sau mổ một loại bệnh nào đó là độc lập với nhau

thì pi = p.

• Phương sai của pi là var(pi) = p(1-p)

• Do đó có một mẫu n bệnh nhân sau mổ một loại bệnh, xác suất cho bệnh nhân hài lòng với cuộc sống sau mổ được tính là:

n

p p

Trang 18

X ấp xỉ phân phối chuẩn của một

• Đối với một người bệnh i, xác suất cho người này hài

lòng với cuộc sống sau mổ là pi Giả định các bệnh

nhân sau mổ một loại bệnh nào đó là độc lập với nhau

thì pi = p.

• Phương sai của pi là var(pi) = p(1-p)

Trang 20

Phân tích mô tả số liệu biến liên tục

Trang 21

Paired t-test

• Giả định:

– Biến liên tục

– Phân phối chuẩn

– Hai mẫu KHÔNG độc lập với nhau

Trang 22

Paired t-test – ví dụ

• V ấn đề: Để xem độ sai lệch giữa hai cân 12 bệnh nhi được yêu cầu cân làm hai lần, mỗi lần với một cân khác nhau, và kết quả thu được như sau:

Trang 24

Paired t-test – phân tích

BN Cân1 Cân2 Khác biệt

SD/sqrt(n) = 2.82/sqrt(12) = 0.814

T-test = (1.83 – 0)/0.814 = 2.248 P-value = 0.0459

Kết luận: Có sự khác biệt có ý nghĩa thống kê về số đo khi cân một bệnh nhân bằng hai cân khác nhau.

Trang 25

Paired t-test – Phân tích bằng R

can1 < -c(20,18,19,22,17,20,19,16,21,17,23,18)

can2 < -c(22,19,17,18,21,23,19,20,22,20,27,24)

t.test(can1, can2, paired=TRUE)

data: red and white

Trang 26

Two-sample t-test (unpaired t-test)

Trang 27

95% Khoảng tin cậy:

Chiều cao trung bình (cm) của hai nhóm trẻ ở vùng nông thôn (A) và thành thị (B)

Trang 29

Unpaired t-test trong R

Trang 30

Hoán chuyển số liệu: hiệu ứng nhân

• Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của 29 bệnh nhân bị loét dạ dày và của 30 người chứng Liệu có sự khác nhau

về lượng lysozyme trong dịch dạ dày của hai nhóm này không?

Nhóm bệnh:

0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4 10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0

Nhóm chứng:

0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7 5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7

33.0

Trang 34

Kiểm định Shapiro-Wilk

• Để xem phân phối có tuân theo luật chuẩn hay không.

• Giả thuyết là phân phối g1, g2 tuân theo luật chuẩn (p >0.05), nếu kết quả thu được p <0.05  không tuân theo luật chuẩn.

• Cần chú ý: các test này rất nhạy nên cần phải xem xét các yếu tố khác:

độ dốc (skewness) và độ nhọn (kurtosis) của đường cong phân phối đó.

Trang 35

Kiểm tra lại độ skewness (=0), kurtosis (=1)

1 Quartile 1.925000

3 Quartile 10.000000 Mean 7.683333 Median 5.100000 Sum 230.500000

SE Mean 1.433179 LCL Mean 4.752153 UCL Mean 10.614513 Variance 61.620057 Stdev 7.849844 Skewness 1.351903 Kurtosis 1.432079

library(fBasics)

Trang 36

Phân tích lại số liệu lysozyme: hoán chuyển

log.g1 <- log(g1) log.g2 <- log(g2)

Trang 37

Kiểm tra lại độ skewness (=0), kurtosis (=1)

1 Quartile 1.925000

3 Quartile 10.000000 Mean 7.683333 Median 5.100000 Sum 230.500000

SE Mean 1.433179 LCL Mean 4.752153 UCL Mean 10.614513 Variance 61.620057 Stdev 7.849844 Skewness 1.351903 Kurtosis 1.432079

library(fBasics)

Trang 39

Phân tích lại số liệu lysozyme

Trang 40

Phân tích mô tả số liệu phân nhóm

Trang 43

Tỷ lệ tử vong trong 30 ngày (%) của 100

con chuột cống cho phơi nhiễm với

heroin và cocaine là

Phân tích

Khác biệt: D = 0.90 – 0.36 = 0.54

SE (D) = [0.9(0.1)/100 + 0.36(0.64)/100]1/2

= 0.057

Z = 0.54 / 0.057 = 9.54

95% CI:

0.54 + 1.96(0.057) 0.43 to 0.65

Kết luận: Loại bỏ giả thuyết, có nghĩa là tỷ lệ tử vong giữa hai nhóm phơi nhiễm khác nhau có

ý nghĩa thống kê.

Trang 44

data: deaths out of total

X-squared = 60.2531, df = 1, p-value = 8.341e-15 alternative hypothesis: two.sided

95 percent confidence interval:

0.4190584 0.6609416

sample estimates:

prop 1 prop 2

0.90 0.36

Trang 45

Kiểm định khác biệt tỷ lệ trên 2 nhóm: Chi

Trang 46

Kiểm định khác biệt tỷ lệ trên 2 nhóm:

Chi (Kai) bình phương

Tình trạng Lượng cà phê tiêu thụ

hôn nhân 1- 151-

300-Không 150 300 900 Tổng _

Tình trạng Lượng cà phê tiêu thụ

Trang 47

Test for Difference Among

Proportions

Lượng cà phê tiêu thụ

1- 151- Không 150 300 900

Trang 48

females <- c(4, 43, 22, 0)

total <- c(8, 60, 30, 2)

prop.test(females, total)

#or chisq.test(sex,ethnicity)

Trang 49

4-sample test for equality of proportions without

Kết quả phân tích sử dụng Chi-squared với một trong các phần tử có số liệu < 5 sẽ

Trang 50

Fisher's Exact Test for Count Data

data: sex and ethnicity

p-value = 0.1048

alternative hypothesis: two.sided

So sánh tỷ lệ trên 2 nhóm – Phân tích dùng Fisher’s exact

Kết quả phân tích sử dụng Chi-squared với một trong các phần tử có số liệu < 5 sẽ đưa kết quả không chính xác Khi

đó nên dùng Fisher’s exact test.

Trang 51

– Liệu có phải hoán chuyển không?

– Dùng các phương pháp thống kê thích hợp (t-test…)

• Số liệu phân nhóm:

– Trình bày bằng tỷ lệ %

– So sánh hai hay nhiều tỷ lệ

• Trình bày kết quả đi kèm với khoảng tin cậy 95% (và p-values)

Trang 52

Lời Cảm tạ

• Chúng tôi xin chân thành cám ơn Công

ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.

Tiêu đề	Phân Tích Thống Kê Mô Tả
Tác giả	Nguyễn Văn Tuấn, Nguyễn Đình Nguyên
Trường học	Garvan Institute of Medical Research
Thành phố	Sydney

Định dạng
Số trang	52
Dung lượng	759,5 KB