Phân tích mô tả biến liên tục Nguyễn Văn Tuấn Viện nghiên cứu Y khoa GarvanSydney, Australia

Nội dung– Kiếm tra outliers – Kiểm tra luật phân phối của dữ liệu... Giả định trong phân tích thống kê... Kiểm tra phân phối của biến sốLí tưởng: phân phối chuẩn Cân đối, hình chuông...

Trang 2

Nội dung

– Kiếm tra outliers

– Kiểm tra luật phân phối của dữ liệu

Trang 3

Giả định trong phân tích thống kê

Trang 4

Kiểm tra phân phối của biến số

Lí tưởng: phân phối chuẩn

Cân đối, hình chuông

Trang 5

Kiểm tra độ cân đối (symmetry)

Cân đối nhưng không theo hình chuông

Thiếu cân đối, hai đỉnh

Nghiêng về phía phải Nghiêng về phía trái

Trang 6

Một đỉnh hay 2 đỉnh (modality)

Hai đỉnh Một đỉnh

Trang 7

Kiểm tra kurtosis

Mesokurtic (trung bình) Platykurtic (phẳng)

Trang 8

Ảnh hưởng của luật skewness và kurtosis

Mean ModeMedian (A) Symmetr ical

Mode Median Mean Mean

Median Mode

(B) Positive Skew (B) Negative Skew

(A) Cân đối (symmetry): trung bình = trung vị (B) Skew dương tính: trung bình > trung vị

(C) Skew âm tính: trung bình < trung vị

Trang 9

Kiểm tra luật phân phối

Trang 10

Kiểm tra outlier

x = c(1362, 1439, 1460, 1614, 1666, 1792, 1867, 9867, 1362, 1439,

1460, 1614, 1666)

stripchart(x)

2000 4000 6000 8000 10000

Trang 11

Tóm lược dữ liệu từ một nhóm

Trang 12

Những chỉ số thống kê thông dụng

– SD = căn số bậc hai của phương sai (variance)

Trang 13

5% percentileMedian, 50% perc.

Trang 14

Trung bình và trung vị

Nếu chúng ta có số liệu từ 7 bệnh nhân sau đây:

Trang 15

So sánh hai nhóm:

Biến liên tục

Trang 17

Phân tích bằng biểu đồ

20 20

N =

GROUP

2 1

Biểu đồ này cho thấy: (1) Nhóm 1 có chol cao

hơn nhóm 2 – khác

nhau về vị trí.

(2) Nhóm 2 có độ dao

động cao hơn nhóm 1 – khác

nhau về biến thiên

(3) Tương đối cân đối,

nhưng có giá trị

“outlier”

Trang 18

Mean = trung bình, SD = độ lệch chuẩn

Quan sát và suy nghiệm!

Trang 19

Vài dòng lí thuyết về t-test

Trang 20

19 1

20 1

19 1

20 1

2 1

= +

1320

120

11839.623

11

2 1

SE x x pooled

Trang 21

Khoảng tin cậy 95% cho µ 1 – µ 2

)

(

2 1

975 0 , 2

62.14) (7.36,

39 27 75

34

) 13.56 )(

02 2 ( ) 30 210 05

245 (

) )(

( )

(

2 1

975 ,.

1 2

Trang 22

Hoán chuyển số liệu không tuân theo luật

phân phối chuẩn

• Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của

29 bệnh nhân bị loét dạ dày và của 30 người chứng Liệu

có sự khác nhau về lượng lysozyme trong dịch dạ dày của hai nhóm này không?

Nhóm bệnh:

0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4 10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0

Nhóm chứng:

0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7 5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7 33.0

Trang 23

Tóm lược số liệu lysozyme

Trang 24

Kiểm định t số liệu lysozyme

.1528

))(

())(

(

2 2

2 2 2

2 1 1 2

=

×+

df

s pooled

20

330

129

1511 11

2 1

s

SE x x pooled

07.220

.3

68.731

=

Trang 25

Giả định đằng sau kiểm định t có đáp ứng?

Trang 26

Kiểm định Shapiro-Wilk

>0.05), nếu kết quả thu được p <0.05  không tuân theo luật chuẩn.

yếu tố khác: độ dốc (skewness) và độ nhọn (kurtosis) của

đường cong phân phối đó.

Trang 27

Kiểm định F cho phương sai

02

485

.7

74

15

2

2 2

Trang 28

Hoán chuyển số liệu lysozyme

Số liệu gốc Số liệu log

t = 1.41, p = 0.165

Độ khác biệt: d = 1.92 – 1.41 = 0.51Khoảng tin cậy 95%: -0.22 đến 1.25

Hoán chuyển sang đơn vị gốc:

Độ khác biệt: exp(0.51) 1.665Khoảng tin cậy 95%: 0.80 đến 3.49 Tính trung bình, nồng độ lysozyme ở nhóm bệnh cao hơn nhóm chứng khoảng 66%, nhưng phân tích khoảng tin cậy 95% cho thấy có thể thấp hơn 20% hay cao hơn 2.5 lần

Trang 29

Phân tích lại số liệu lysozyme

data: log.g1 and log.g2

Trang 30

Phân tích số liệu 2 nhóm kết xứng

(matched case control study)

Trang 31

Matched samples

Trang 32

Paired sample t-test

Cặp Case Control diff

1 14 1 13 KTC95% ( 2.160)

95% cho 0.3629 (2.160)(0.11) 0.3629 ± 0.2344

= (0.13, 0.60)

d d

s sem

n

df n

t KTC µ x t − −α sem

có ý nghĩa thống kê

Trang 33

Tóm lược

– Sử dụng các thuật phân tích biểu đồ

Tiêu đề	Phân Tích Mô Tả Biến Liên Tục
Tác giả	Nguyễn Văn Tuấn
Trường học	Viện Nghiên Cứu Y Khoa Garvan
Thành phố	Sydney

Định dạng
Số trang	33
Dung lượng	395 KB