Phân tích số liệu bằng phần mềm r phần 3

Phân tích số liệu sử dụng R:Thống kê mô tả Nguyễn Bá Thanh 1 Tổng quan độ lệch chuẩn, sai số chuẩn 2 Thang đo lường • Thông thường, hầu hết các hành vi quan sát được có thể đo lường bằ

Trang 1

Phân tích số liệu sử dụng R:

Thống kê mô tả

Nguyễn Bá Thanh

1

Tổng quan

độ lệch chuẩn, sai số chuẩn

2

Thang đo lường

• Thông thường, hầu hết các

hành vi quan sát được có

thể đo lường bằng thang

ratio

• Các biến tâm lý thường đo

bằng thang interval

• Có hai loại biến: Biến phân

loại (nominal) và biến liên

tục (ordinal, interval, ratio)

3

Phân loại Liên tục

ordinal interval ratio Biến

Trang 2

Thang đo lường

4

• Nominal—Định danh, Biến phân loại không có thứ tự Ví dụ như giới

tính, màu tóc, có mặt, vắng mặt

• Ordinal—Có thứ tự nhưng không có khoảng cách giữa các điểm khác

nhau trong thang Ví dụ như giai cấp xã hội, cấp bậc, giáo dục (tiểu học,

trung học, đại học…)

• Interval—Có khoảng cách bằng nhau giữa các vị trí kế tiếp nhau trong

thang, nhưng vị trí 0 có sự thay đổi Ví dụ về đo nhiệt độ ở các thang

khác nhau.

• Ratio—Thang đo lường cao nhất, có thể điều tra mức độ liên hệ của

các điểm như sự khác biệt giữa chúng Vị trí 0 là cố định Ví dụ đo nhiệt

độ, tuổi, cân nặng, chiều cao.

Thang Ordinal

– Không chắc chắn khoảng cách giữa các số là như nhau.

– Vị trí hoàn thành trên đường đua (vị trí thứ 1, vị trí thứ 2)

5

1 hour 2 hours 3 hours 4 hours 5 hours 6 hours 7 hours 8 hours

1st place 2nd place 3rd place 4th place

Thang Interval và Ratio

• Interval: Sắp xếp theo khoảng cách có trật tự

– Ví dụ: Chỉ số IQ thông thường sử dụng thang interal

• Ratio: designates an equal-interval ordering with

a true zero point (i.e., the zero implies an absence

of the thing being measured)

– Ví dụ: số mối quan hệ thân thiết một người có

• Số “0” có ý nghĩa là không có

• Một người có 4 mối quan hệ,gấp 2 lần nguời có 2 mối quan

hệ

6

Trang 3

Thống kê: Enquiry to the unknown

7

Ước lượng giá trị trung bình của tập hợp

Chiều cao trung bình của dân số Việt Nam = 160 cm

Độ lệch chuẩn (standard deviation) = 5.0 cm

8

ht <- rnorm(10, mean=160, sd=5)

mean(ht)

ht <- rnorm(10, mean=160, sd=5)

mean(ht)

ht <- rnorm(100, mean=160, sd=5)

mean(ht)

ht <- rnorm(1000, mean=160, sd=5)

mean(ht)

ht <- rnorm(10000, mean=160, sd=5)

mean(ht)

hist(ht) Mẫu càng lớn, ước lượng càng chính xác!

Ước lượng tỉ lệ tập hợp

Tỉ lê nam trong tập hợp là = 0.50

Lấy n mẫu, trong đó có k người là nam

rbinom(n, k, prob)

9

males <- rbinom(10, 10, 0.5)

males

mean(males)

males <- rbinom(20, 100, 0.5)

males

mean(males)

males <- rbinom(1000, 100, 0.5)

males

mean(males)

Mẫu càng lớn, ước lượng càng chính xác!

Trang 4

Tóm tắt về dữ liệu liên tục

– Trung bình(mean), số trung vị (median), số mode

– Phương sai, độ lệch chuẩn, sai số chuẩn

– Khoảng phần tư (interquartile range)

10

R commands

length(x), mean(x), median(x), var(x), sd(x)

summary(x)

Ví dụ trên R

height <- rnorm(1000, mean=55, sd=8.2)

mean(height)

[1] 55.30948

median(height)

[1] 55.018

var(height)

[1] 68.02786

sd(height)

[1] 8.2479

summary(height)

Min 1st Qu Median Mean 3rd Qu Max

28.34 49.97 55.02 55.31 60.78 85.05

11

Đồ thị :Box plot

12

boxplot(height)

95% percentile

75% percentile 25% percentile

5% percentile Median, 50% perc.

Trang 5

Đồ thị đường thẳng-Strip chart

13

Tính liên

tục của

số liệu

Đồ thị tần số - Histogram

14

Histogr am of height

heig ht

Ý nghĩa của giá trị trung bình và SD

55.0 kg và độ lệch chuẩn là 8,2 kg.”

15

• 68% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1 = 46.8

đến 63.2 kg

• 95% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1.96 = 38.9

đến 71.1 kg

Trang 6

Ý nghĩa của giá trị trung bình và SD

thể được thể hiện như sau:

16

1SD 1.96SD

Số liệu dạng phân loại

– Chủng tộc: Á, Âu, Phi

– Giai đoạn của bệnh ung thư: I, II, III, IV

kiến, thích, rất thích

17

Giá trị trung bình và phương sai của tỉ lệ

phẩm A là pi Đảm bảo rằng tất cả người

tiêu dùng đều độc lập, với xác suất là pi = p.

18

• Đối với một mẫu trong n người tiêu dùng, xác suất ước lượng

mức độ ưa thích đối với sản phẩm A là:

n p p p p

p 1 2 3  n

Và phương sai của p là:

   

n p p

p  1 var

Trang 7

Xấp xỉ phân phối thường của một phân phối nhị

thức

thích sản phẩm A là pi Đảm bảo rằng tất cả

người tiêu dùng là độc lập thì pi = p.

19

• Đối với 1 mẫu của n người tiêu dùng, xác suất ước lượng mức

độ ưa thích sản phẩm A là:

n p p p p

p     n

 1 2 3

Và phương sai của p là:

   

n p p

p  1 var

n p p

s 1

Xấp xỉ phân phối thường của một

phân phối nhị thức

• Tỉ lệ ưa thích A: p = 0.8

• Phương sai: var(p) = 0.8(0.2)/10 = 0.016

• 95% CI of p: 0.8 + 1.96(0.126) = 0.55 to 1.00

20

Thống kê mô tả

Dữ liệu liên tục

21

Trang 8

Paired t-test

22

Paired t-test – ví dụ

• Vấn đề: Đánh giá một loại thịt dưới ánh sáng trắng và ánh sáng đỏ

về mức độ ưa thích loại thịt 12 người tham gia được hỏi đánh giá

mức độ đỏ của thịt dưới ánh sáng đỏ và ánh sáng trắng

23

Kết quả:

Người AS đỏ AS trắng

Paired t-test – phân tích

24

Người AS đỏ AS trắng Sự khác biệt

GTTB 21.0 19.2 1.83

SD 2.8 2.1 2.82

Sự khác biệt: 1.83, SD: 0.81 Sai số chuẩn (SE): SD/sqrt(n)

= 0.81/sqrt(10) = 0.81

T-test = (1.83 – 0)/0.81 = 2.23 P-value = 0.0459

Kết luận: Có sự khác nhau có

ý nghĩa về hiệu ứng màu sắc của ánh sáng.

Trang 9

Paired t-test – R phân tích

red < -c(20,18,19,22,17,20,19,16,21,17,23,18)

white < -c(22,19,17,18,21,23,19,20,22,20,27,24)

t.test(red, white, paired=TRUE)

25

data: red and white

t = -2.2496, df = 11, p-value = 0.04592

alternative hypothesis: true difference in means is not

equal to 0

95 percent confidence interval:

-3.6270234 -0.0396433

sample estimates:

mean of the differences

-1.833333

Two-sample t-test

26

Mẫu Nhóm 1 Nhóm2

Kích thước n1 n2

Sự khác biệt:

D = x – y

Phương sai của D:

T-statistic:

95% khoảng tin cậy:

Two-group comparison: Ví dụ

27

ID A B

11 5 3

12 8 4

13 5 2

14 9 3

15 4 5

16 6 4

17 4 3

18 3 1

19 9 3

20 5 2

20 người tiêu dùng đánh giá mức độ ưa

thích của hộ đối với 2 món ăn tráng

miệng làm từ gạo (A & B)

Trang 10

Unpaired t-test -dùng R

a<-c(3,7,1,9,3,4,1,2,6,7,5,8,5,9,4,6,4,3,9,5)

b<-c(3,1,2,4,5,2,2,5,3,2,3,4,2,3,5,4,3,1,3,2)

t.test(red,white)

28

Welch Two Sample t-test

data: a and b

t = 3.3215, df = 27.478, p-value = 0.002539

alternative hypothesis: true difference in means is not equal to 0

0.8037895 3.3962105

sample estimates:

mean of x mean of y

5.05 2.95

Chuyển đổi dữ liệu: multiplicative effects

• Ví dụ sau thể hiện mức độ enzym lysozyme có trong in the gastric juice of

29 patients with peptic ulcer and of 30 normal controls It was interested

to know whether lysozyme levels were different between two groups.

Group 1:

0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4

10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0

Group 2:

0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7

5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7 33.0

29

Unpaired t-test by R

g1 <- c( 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8,

4.5, 4.8, 4.9, 5.0, 5.3, 7.5, 9.8, 10.4,

10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7,

24.0, 25.4, 40.0, 42.2, 50.0, 60)

g2 <- c(0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0,

2.4, 2.5, 2.8, 3.6, 4.8, 4.8, 5.4, 5.7, 5.8,

7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5,

16.7, 20.0, 20.7, 33.0)

t.test(g1, g2)

30

data: g1 and g2

t = 2.0357, df = 40.804, p-value = 0.04831

alternative hypothesis: true difference in means is not

equal to 0

0.05163216 13.20239083

sample estimates:

mean of x mean of y

14.310345 7.683333

Trang 11

Giải thích số liệu

Phân màn hình thành 1

dòng 2 cột

par(mfrow=c(1,2))

hist(g1)

hist(g2)

31

His to gra m of g1

g1

0 10 20 30 40 50 60

His to gra m of g2

g2

Group 1:

mean(g1) = 14.3

sd(g1) = 15.7

Group 2:

mean(g2) = 7.7

sd(g2) = 7.8

Phân tích lại số liệu về lysozyme

log.g1 <- log(g1)

log.g2 <- log(g2)

t.test(log.g1, log.g2)

32

data: log.g1 and log.g2

t = 1.406, df = 55.714, p-value = 0.1653

alternative hypothesis: true difference in means is not

equal to 0

95 percent confidence interval:

-0.2182472 1.2453165

sample estimates:

mean of x mean of y

1.921094 1.407559

exp(1.921-1.407) = 1.67

Giá trị trung bình của nhómd 1 lớn hơn GTTB nhóm 2 là 67%

Thông kê mô tả

Dữ liệu gián đoạn

33

Trang 12

So sánh hai tỉ lệ - Giả thiết

34

Nhóm

Sai khác biệt: D = p1– p2

Sai số khác biệt: SE = [p1(1–p1)/n1+ p2(1–p2)/n2 ] 1/2

Z = D / SE

95% CI: D + 1.96(SE)

Với (n1+ n2) > 20, và nếu Z > 2, có thể từ chối giả

thiết Ho.

So sánh hai tỉ lệ- Ví dụ

35

Group

Heroine Cocaine

Thirty-day mortality rate (%) of 100

rats who had been exposed to heroine

or cocain.

Phân tích

Difference: D = 0.90 – 0.36 =

0.54

SE (D) = [0.9(0.1)/100 + 0.36(0.64)/100] 1/2

= 0.057

Z = 0.54 / 0.057 = 9.54 95% CI:

0.54 + 1.96(0.057) 0.43 to 0.65 Kết luận: Từ chối giả thiết Ho.

So sánh 2 tỉ lệ - R

events <- c(90, 36)

total <- c(100, 100)

prop.test(events, total)

36

2-sample test for equality of proportions with

continuity correction

data: deaths out of total

X-squared = 60.2531, df = 1, p-value = 8.341e-15

alternative hypothesis: two.sided

95 percent confidence interval:

0.4190584 0.6609416

sample estimates:

prop 1 prop 2

0.90 0.36

Trang 13

So sánh hơn 2 tỉ lệ –

Phân tích Chi square

table(sex, ethnicity)

ethnicity

sex African Asian Caucasian Others

Female 4 43 22 0

Male 4 17 8 2

37

females <- c(4, 43, 22, 0)

total <- c(8, 60, 30, 2)

prop.test(females, total)

So sánh hơn 2 tỉ lệ –

Phân tích Chi square

4-sample test for equality of proportions without

continuity

correction

data: females out of total

X-squared = 6.2646, df = 3, p-value = 0.09942

alternative hypothesis: two.sided

sample estimates:

prop 1 prop 2 prop 3 prop 4

0.5000000 0.7166667 0.7333333 0.0000000

Warning message:

Chi-squared approximation may be incorrect in:

prop.test(females, total)

38

Kết luận

– Giá trị trung bình, phương sai: sự khác biệt có hệ

thống?

– Phân phối chuẩn?

• Khoảng tin cậy (và giá trị p)

39

Định dạng
Số trang	13
Dung lượng	727,05 KB