Phân tích số liệu sử dụng R:Thống kê mô tả Nguyễn Bá Thanh 1 Tổng quan độ lệch chuẩn, sai số chuẩn 2 Thang đo lường • Thông thường, hầu hết các hành vi quan sát được có thể đo lường bằ
Trang 1Phân tích số liệu sử dụng R:
Thống kê mô tả
Nguyễn Bá Thanh
1
Tổng quan
độ lệch chuẩn, sai số chuẩn
2
Thang đo lường
• Thông thường, hầu hết các
hành vi quan sát được có
thể đo lường bằng thang
ratio
• Các biến tâm lý thường đo
bằng thang interval
• Có hai loại biến: Biến phân
loại (nominal) và biến liên
tục (ordinal, interval, ratio)
3
Phân loại Liên tục
ordinal interval ratio Biến
Trang 2Thang đo lường
4
• Nominal—Định danh, Biến phân loại không có thứ tự Ví dụ như giới
tính, màu tóc, có mặt, vắng mặt
• Ordinal—Có thứ tự nhưng không có khoảng cách giữa các điểm khác
nhau trong thang Ví dụ như giai cấp xã hội, cấp bậc, giáo dục (tiểu học,
trung học, đại học…)
• Interval—Có khoảng cách bằng nhau giữa các vị trí kế tiếp nhau trong
thang, nhưng vị trí 0 có sự thay đổi Ví dụ về đo nhiệt độ ở các thang
khác nhau.
• Ratio—Thang đo lường cao nhất, có thể điều tra mức độ liên hệ của
các điểm như sự khác biệt giữa chúng Vị trí 0 là cố định Ví dụ đo nhiệt
độ, tuổi, cân nặng, chiều cao.
Thang Ordinal
– Không chắc chắn khoảng cách giữa các số là như nhau.
– Vị trí hoàn thành trên đường đua (vị trí thứ 1, vị trí thứ 2)
5
1 hour 2 hours 3 hours 4 hours 5 hours 6 hours 7 hours 8 hours
1st place 2nd place 3rd place 4th place
Thang Interval và Ratio
• Interval: Sắp xếp theo khoảng cách có trật tự
– Ví dụ: Chỉ số IQ thông thường sử dụng thang interal
• Ratio: designates an equal-interval ordering with
a true zero point (i.e., the zero implies an absence
of the thing being measured)
– Ví dụ: số mối quan hệ thân thiết một người có
• Số “0” có ý nghĩa là không có
• Một người có 4 mối quan hệ,gấp 2 lần nguời có 2 mối quan
hệ
6
Trang 3Thống kê: Enquiry to the unknown
7
Ước lượng giá trị trung bình của tập hợp
Chiều cao trung bình của dân số Việt Nam = 160 cm
Độ lệch chuẩn (standard deviation) = 5.0 cm
8
ht <- rnorm(10, mean=160, sd=5)
mean(ht)
ht <- rnorm(10, mean=160, sd=5)
mean(ht)
ht <- rnorm(100, mean=160, sd=5)
mean(ht)
ht <- rnorm(1000, mean=160, sd=5)
mean(ht)
ht <- rnorm(10000, mean=160, sd=5)
mean(ht)
hist(ht) Mẫu càng lớn, ước lượng càng chính xác!
Ước lượng tỉ lệ tập hợp
Tỉ lê nam trong tập hợp là = 0.50
Lấy n mẫu, trong đó có k người là nam
rbinom(n, k, prob)
9
males <- rbinom(10, 10, 0.5)
males
mean(males)
males <- rbinom(20, 100, 0.5)
males
mean(males)
males <- rbinom(1000, 100, 0.5)
males
mean(males)
Mẫu càng lớn, ước lượng càng chính xác!
Trang 4Tóm tắt về dữ liệu liên tục
– Trung bình(mean), số trung vị (median), số mode
– Phương sai, độ lệch chuẩn, sai số chuẩn
– Khoảng phần tư (interquartile range)
10
R commands
length(x), mean(x), median(x), var(x), sd(x)
summary(x)
Ví dụ trên R
height <- rnorm(1000, mean=55, sd=8.2)
mean(height)
[1] 55.30948
median(height)
[1] 55.018
var(height)
[1] 68.02786
sd(height)
[1] 8.2479
summary(height)
Min 1st Qu Median Mean 3rd Qu Max
28.34 49.97 55.02 55.31 60.78 85.05
11
Đồ thị :Box plot
12
boxplot(height)
95% percentile
75% percentile 25% percentile
5% percentile Median, 50% perc.
Trang 5Đồ thị đường thẳng-Strip chart
13
Tính liên
tục của
số liệu
Đồ thị tần số - Histogram
14
Histogr am of height
heig ht
Ý nghĩa của giá trị trung bình và SD
55.0 kg và độ lệch chuẩn là 8,2 kg.”
15
• 68% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1 = 46.8
đến 63.2 kg
• 95% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1.96 = 38.9
đến 71.1 kg
Trang 6Ý nghĩa của giá trị trung bình và SD
thể được thể hiện như sau:
16
1SD 1.96SD
Số liệu dạng phân loại
– Chủng tộc: Á, Âu, Phi
– Giai đoạn của bệnh ung thư: I, II, III, IV
kiến, thích, rất thích
17
Giá trị trung bình và phương sai của tỉ lệ
phẩm A là pi Đảm bảo rằng tất cả người
tiêu dùng đều độc lập, với xác suất là pi = p.
18
• Đối với một mẫu trong n người tiêu dùng, xác suất ước lượng
mức độ ưa thích đối với sản phẩm A là:
n p p p p
p 1 2 3 n
Và phương sai của p là:
n p p
p 1 var
Trang 7Xấp xỉ phân phối thường của một phân phối nhị
thức
thích sản phẩm A là pi Đảm bảo rằng tất cả
người tiêu dùng là độc lập thì pi = p.
19
• Đối với 1 mẫu của n người tiêu dùng, xác suất ước lượng mức
độ ưa thích sản phẩm A là:
n p p p p
p n
1 2 3
Và phương sai của p là:
n p p
p 1 var
n p p
s 1
Xấp xỉ phân phối thường của một
phân phối nhị thức
• Tỉ lệ ưa thích A: p = 0.8
• Phương sai: var(p) = 0.8(0.2)/10 = 0.016
• 95% CI of p: 0.8 + 1.96(0.126) = 0.55 to 1.00
20
Thống kê mô tả
Dữ liệu liên tục
21
Trang 8Paired t-test
22
Paired t-test – ví dụ
• Vấn đề: Đánh giá một loại thịt dưới ánh sáng trắng và ánh sáng đỏ
về mức độ ưa thích loại thịt 12 người tham gia được hỏi đánh giá
mức độ đỏ của thịt dưới ánh sáng đỏ và ánh sáng trắng
23
Kết quả:
Người AS đỏ AS trắng
Paired t-test – phân tích
24
Người AS đỏ AS trắng Sự khác biệt
GTTB 21.0 19.2 1.83
SD 2.8 2.1 2.82
Sự khác biệt: 1.83, SD: 0.81 Sai số chuẩn (SE): SD/sqrt(n)
= 0.81/sqrt(10) = 0.81
T-test = (1.83 – 0)/0.81 = 2.23 P-value = 0.0459
Kết luận: Có sự khác nhau có
ý nghĩa về hiệu ứng màu sắc của ánh sáng.
Trang 9Paired t-test – R phân tích
red < -c(20,18,19,22,17,20,19,16,21,17,23,18)
white < -c(22,19,17,18,21,23,19,20,22,20,27,24)
t.test(red, white, paired=TRUE)
25
data: red and white
t = -2.2496, df = 11, p-value = 0.04592
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-3.6270234 -0.0396433
sample estimates:
mean of the differences
-1.833333
Two-sample t-test
26
Mẫu Nhóm 1 Nhóm2
Kích thước n1 n2
Sự khác biệt:
D = x – y
Phương sai của D:
T-statistic:
95% khoảng tin cậy:
Two-group comparison: Ví dụ
27
ID A B
11 5 3
12 8 4
13 5 2
14 9 3
15 4 5
16 6 4
17 4 3
18 3 1
19 9 3
20 5 2
20 người tiêu dùng đánh giá mức độ ưa
thích của hộ đối với 2 món ăn tráng
miệng làm từ gạo (A & B)
Trang 10Unpaired t-test -dùng R
a<-c(3,7,1,9,3,4,1,2,6,7,5,8,5,9,4,6,4,3,9,5)
b<-c(3,1,2,4,5,2,2,5,3,2,3,4,2,3,5,4,3,1,3,2)
t.test(red,white)
28
Welch Two Sample t-test
data: a and b
t = 3.3215, df = 27.478, p-value = 0.002539
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.8037895 3.3962105
sample estimates:
mean of x mean of y
5.05 2.95
Chuyển đổi dữ liệu: multiplicative effects
• Ví dụ sau thể hiện mức độ enzym lysozyme có trong in the gastric juice of
29 patients with peptic ulcer and of 30 normal controls It was interested
to know whether lysozyme levels were different between two groups.
Group 1:
0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4
10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0
Group 2:
0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7
5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7 33.0
29
Unpaired t-test by R
g1 <- c( 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8,
4.5, 4.8, 4.9, 5.0, 5.3, 7.5, 9.8, 10.4,
10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7,
24.0, 25.4, 40.0, 42.2, 50.0, 60)
g2 <- c(0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0,
2.4, 2.5, 2.8, 3.6, 4.8, 4.8, 5.4, 5.7, 5.8,
7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5,
16.7, 20.0, 20.7, 33.0)
t.test(g1, g2)
30
data: g1 and g2
t = 2.0357, df = 40.804, p-value = 0.04831
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
0.05163216 13.20239083
sample estimates:
mean of x mean of y
14.310345 7.683333
Trang 11Giải thích số liệu
Phân màn hình thành 1
dòng 2 cột
par(mfrow=c(1,2))
hist(g1)
hist(g2)
31
His to gra m of g1
g1
0 10 20 30 40 50 60
His to gra m of g2
g2
Group 1:
mean(g1) = 14.3
sd(g1) = 15.7
Group 2:
mean(g2) = 7.7
sd(g2) = 7.8
Phân tích lại số liệu về lysozyme
log.g1 <- log(g1)
log.g2 <- log(g2)
t.test(log.g1, log.g2)
32
data: log.g1 and log.g2
t = 1.406, df = 55.714, p-value = 0.1653
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-0.2182472 1.2453165
sample estimates:
mean of x mean of y
1.921094 1.407559
exp(1.921-1.407) = 1.67
Giá trị trung bình của nhómd 1 lớn hơn GTTB nhóm 2 là 67%
Thông kê mô tả
Dữ liệu gián đoạn
33
Trang 12So sánh hai tỉ lệ - Giả thiết
34
Nhóm
Sai khác biệt: D = p1– p2
Sai số khác biệt: SE = [p1(1–p1)/n1+ p2(1–p2)/n2 ] 1/2
Z = D / SE
95% CI: D + 1.96(SE)
Với (n1+ n2) > 20, và nếu Z > 2, có thể từ chối giả
thiết Ho.
So sánh hai tỉ lệ- Ví dụ
35
Group
Heroine Cocaine
Thirty-day mortality rate (%) of 100
rats who had been exposed to heroine
or cocain.
Phân tích
Difference: D = 0.90 – 0.36 =
0.54
SE (D) = [0.9(0.1)/100 + 0.36(0.64)/100] 1/2
= 0.057
Z = 0.54 / 0.057 = 9.54 95% CI:
0.54 + 1.96(0.057) 0.43 to 0.65 Kết luận: Từ chối giả thiết Ho.
So sánh 2 tỉ lệ - R
events <- c(90, 36)
total <- c(100, 100)
prop.test(events, total)
36
2-sample test for equality of proportions with
continuity correction
data: deaths out of total
X-squared = 60.2531, df = 1, p-value = 8.341e-15
alternative hypothesis: two.sided
95 percent confidence interval:
0.4190584 0.6609416
sample estimates:
prop 1 prop 2
0.90 0.36
Trang 13So sánh hơn 2 tỉ lệ –
Phân tích Chi square
table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2
37
females <- c(4, 43, 22, 0)
total <- c(8, 60, 30, 2)
prop.test(females, total)
So sánh hơn 2 tỉ lệ –
Phân tích Chi square
4-sample test for equality of proportions without
continuity
correction
data: females out of total
X-squared = 6.2646, df = 3, p-value = 0.09942
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4
0.5000000 0.7166667 0.7333333 0.0000000
Warning message:
Chi-squared approximation may be incorrect in:
prop.test(females, total)
38
Kết luận
– Giá trị trung bình, phương sai: sự khác biệt có hệ
thống?
– Phân phối chuẩn?
• Khoảng tin cậy (và giá trị p)
39