Trong chương 4: Tóm tắt dữ liệu số sẽ được học về - mẫu trung bình, trung vị mẫu, - Các tứ phân vị: Q1, Q2, Q3 - Cách vẽ các đồ thị bằng phần mềm Minitab: biểu đồ Stem-and-leaf, histogram, box plot,...
Trang 1Lê Bình Minh - 20172298
Bài tập chương 4
Phần 4.3
4.9 Một mẫu lớn được lấy từ phân bố không đối xứng với phần đuôi dài bên trái
a Giá trị trung vị sẽ lớn hơn vì đuôi của đồ thị dài bên trái sẽ làm dịch chuyển giá trị trung bình sang trái
b Độ lệch của mẫu sẽ là giá trị âm do lệch trái
c Giá trị tứ phân vị Q1 sẽ xa hơn trung vị Q2 do phần đuôi dài bên trái sẽ dịch chuyển phần tư đầu tiên xa hơn về bên trái
4.10 Bảng biểu đồ thân và lá về chi phí mua đồ tạp hóa bằng đôla từ 1 mấu 50 người
a Phân bố lệch về phía bên phải, hay là lệch dương
b Tứ phân vị Q3 sẽ xa hơn trung vị Q2 do đồ thị đuôi dài về phía bên phải nên giá trị trung bình sẽ lệch về phía bên phải
c Tính toán 3 tứ phân vị để kiểm chứng câu b
Q1 = = x0,25 = xm +[p(n+1) - m](xm+1 – xm) = x12 + (12,75 – 12)(14-13) = 13,75 Q2 = 0,5= x25 = 20
Q3 = 0,75= x0,75 = xm +[p(n+1) - m](xm+1 – xm) = x38 + (38,25 – 38)(34-33) = 33,25
Áp dụng công thức: xp = xp(n+1) nếu p(n+1) nguyên
xp = xm [p(n+1) – m](xm+1 - xm) nếu p(n+1) không nguyên (m=int(p(n+1))
d Giá trị trung bình của dữ liệu 𝑥̅ = ∑50𝑖=1𝑥𝑖
50 = 25,1 Giá trị trung bình sẽ lớn hơn trung vị do đồ thị lệch về bên phải nên giá trị trung bình cũng sẽ lệch về bên phải
e Các giá trị bên ngoài trong sơ đồ này được gọi là các giá trị ngoại lai
Chứng minh chúng là các giá trị ngoại lai
Phạm vi giữa các phần: IQR = Q3 – Q1 = 33,25 - 13,75= 19,5
Q3 + 1,5 IQR= 33,25 + 1,5 x 19,5 = 62,5
Các giá trị 64 và 69 > 62,5 nên chúng là các giá trị ngoại lai
Trang 22
4.11 Nhiệt độ được đo trên 30 người khỏe mạnh có kết quả như sau
97,0 97,2, 97,3, 97,6, 97,6 97,7, 97,9, 98,2, 98,2, 98,4, 98,4 98,5, 98,6, 98,6, 98,6, 98,6, 98,6, 98,7, 98,8, 98,9
99.0, 99.0, 99.1, 99.2, 99.3, 99.4, 99.5, 99.5, 99.7, 99.8
a Giá trị trung bình: 𝑥̅ = ∑30𝑖=1𝑥𝑖
30 = 98,563 Giá trị trung vị: Q2 = 98,6
Độ lệch chuẩn (SD): s = √ 1
𝑛−1∑𝑛 (𝑥𝑖− 𝑥̅)2
29 𝑥 16,350 = 0,751 Các tứ phân vị:
Q1 = = x7 + [0,25(30+1) - 7] (x8 – x7) = 97,9 + (7,75 - 7) (98,2 – 97,9) = 98,125 Q3 = 0,75= x23 + [0,75(30+1) - 23] (x24 – x23) = 99,1 + (23,25-23) (99,2 – 99,1) = 99,125 IQR = Q3 – Q1 = 1
b Ta nhận thấy: LF = Q1 – 1,5IQR = 98,125 – 1,5 x 1 = 96,625
UF = Q3 + 1,5IQR = 99,125 + 1.5 = 100,625
Ta thấy các giá trị đo nhiệt độ không nằm ngoài 2 giá trị này nên không có giá trị bất thường
c Lập biểu đồ Histogram (lập bằng Minitab)
Biểu đồ thân và lá: (lập bằng Minitab)
Trang 3Biểu đồ phân bố đều, không có điểm bất thường
4.12. Lượng mưa hang ngày ở châu Úc (mm) ghi lại trong 47 năm Lượng mưa nhiều nhất trong mỗi ngày được thể hiện sau đây:
s = 887/1,34 = 661,94 là độ lệch chuẩn ước lượng từ IQR
Giá trị trung bình của mẫu: 𝑥̅ = ∑47𝑖=1𝑥𝑖
c Giá trị trung bình cắt bớt 10% so với mẫu là giá trị trung bình khi đã lược bỏ 10% các giá trị lớn nhất và nhỏ nhất ở mỗi đầu của mẫu Ở đây ta lược bỏ mỗi đầu 4 giá trị
Các giá trị bị lược bỏ đi ở đây là: 452; 475; 556; 580; 2649; 2675; 2718; 3830
Trang 44
Giá trị trung bình cắt 10%: Trimmean = ∑ 𝑥𝑖
43 𝑖=5
39 = 1
39 (584 + 681+ … + 2543) = 1292,64
So sánh này với giá trị trung bình cho thấy nhỏ hơn giá trị trung bình nên có gợi ý đến các giá trị ngoại lệ
4.13. Lấy dữ liệu từ bài 4.12
a Lập sơ đồ thân và lá: (lập bằng Minitab)
Nhận xét: Phân bố lệch về phía bên phải, với 1 giá trị mốt và 1 giá trị ngoại lai
Trang 5c Lập đồ thị phân bố chuẩn: (lập bằng Minitab)
Nhận xét: Đồ thị phân bố chuẩn có giá trị trung bình 1369, SD = 693,7, có phân bố lệch
Đây là phân bố lệch vì giá trị trung vị không nằm chính giữa Q1 và Q3
b Ước lượng sơ bộ SD từ IDR
Ta thấy giá trị SD ước lượng nhỏ hơn giá trị SD mẫu
c Giá trị trung bình cắt bớt 10% so với mẫu là giá trị trung bình khi đã lược bỏ 10% các giá trị lớn nhất và nhỏ nhất ở mỗi đầu của mẫu
Ở đây có 5 giá trị bị lược bỏ ở mỗi đầu: 2,86; 2,92; 5,38; 5,65; 5,7; 7; 7; 7; 7; 7
Trang 66
Giá trị trung bình cắt 10%: Trimmean = ∑ 𝑥𝑖
45 𝑖=6
40 = 1
40 (5,94 + 6 + … + 7) = 6,434
So sánh này với giá trị trung bình cho thấy lớn hơn giá trị trung bình nên có gợi ý đến các giá trị bất thường
4.15 Dựa vào dữ liệu bài 4.14
a Lập sơ đồ thân và lá (lập bằng Minitab)
Nhận xét: Biểu đồ phân bố lệch bên trái,
có 2 giá trị mốt và có 3 giá trị bất thường
Trang 7c Lập biểu đồ phân phối chuẩn (lập bằng Minitab)
Nhận xét: Đồ thị phân bố chuẩn có giá trị trung bình là 6,297; độ lệch chuẩn là 0,7881 và
Đây là phân bố gần như đối xứng do giá trị trung vị nằm gần chính giữa Q1 và Q3
b Ước lượng sơ bộ SD từ IDR
Ta có: IDR= Q3 – Q1 = 43 – 25 = 18
IQR ~ (𝑥̅+ 0.67s) - (𝑥̅ - 0.67s) = 1.34s → s = 18/1,34 = 13,43 là giá trị ước lượng
Giá trị trung bình của mẫu: 𝑥̅ = ∑50𝑖=1𝑥𝑖
Ta thấy giá trị SD ước lượng nhỏ hơn giá trị SD mẫu
c Giá trị trung bình cắt bớt 10% so với mẫu là giá trị trung bình khi đã lược bỏ 10% các giá trị lớn nhất và nhỏ nhất ở mỗi đầu của mẫu
Ở đây ta lược bỏ 5 giá trị ở mỗi đầu của mẫu là: 9; 15; 17; 17; 18 và 51; 51; 61; 91; 94
Trang 88
Giá trị trung bình cắt 10%: Trimmean = ∑ 𝑥𝑖
45 𝑖=6
40 = 1
40 x (20 + 21 + … + 50) = 34,275
Ta thấy giá trị này nhỏ hơn giá trị trung bình mẫu, so sánh này có gợi ý đến giá trị bất thường của mẫu
4.17 Tham khảo dữ liệu bài 4.16
a Lập sơ đồ thân và lá: (lập bằng Minitab)
Nhận xét: Phân phối ở đây gần như đối xứng với 2 mốt và 1 giá trị ngoại lệ
Trang 9c Lập sơ đồ phân bố chuẩn (lập bằng Minitab)
Nhận xét: Đồ thị này có phân bố chuẩn tương đối đối xứng với giá trị trung bình là 35,36
và SD = 14,32
4.18 Bảng xếp hạng số dặm trung bình trên đường phố và chi phí nhiên liệu trên 15000 dặm
a Tính toán tóm tắt 5 số của dữ liệu số dặm thành phố
Bản tóm tắt này gợi ý đến sự phân bố là đối xứng
b Giá trị trung bình cắt bớt 10% so với mẫu là giá trị trung bình khi đã lược bỏ 10% các giá trị lớn nhất và nhỏ nhất ở mỗi đầu của mẫu
Ở đây ta lược bỏ 2 giá trị ở mỗi đầu của mẫu là: 9;12 và 37; 46
Trang 1010
Giá trị trung bình cắt 10%: Trimmean = ∑ 𝑥𝑖
22 𝑖=3
20 = 1
20 x (12 + 13 + … + 35) = 22,80 Giá trị trung bình của mẫu: 𝑥̅ = ∑ 𝑥𝑖
24 𝑖=1
24 = 23,33 Nhận thấy giá trị trung bình cắt 10% nhỏ hơn trung bình mẫu, điều này gợi ý đến giá trị bất thường
4.19. Từ số liệu số dặm trong thành phố từ bài 4.18
a Lập sơ đồ thân và lá (lập bằng Minitab)
Nhận xét: phân bố ở đây có hình dạng đối xứng với 1 mốt và có 1 giá trị bất thường
Trang 114.20 Tham khảo dữ liệu chi phí nhiên liệu bài 4.18
a Tóm tắt 5 số từ dữ liệu của chi phí nhiên liệu
b Tính giá trị trung bình, độ lệch chuẩn, skewness, kutorsis
- Giá trị trung bình: 𝑥̅ = ∑ 𝑥𝑖
24 𝑖=1
𝑠3 = 1,18 → g1 = √𝑏1 = √1,18 = 1,09
- Kutorsis: b2 = ∑ (𝑥𝑖− 𝑥̅)
4 /𝑛
24 𝑖=1
𝑠 4 = 3,80 → g2 = b2 – 3 = 3,80 – 3 = 0,8 Các giá trị này gợi ý về thống kê có hình dạng lệch về phía phải, lệch dương
c Giá trị trung bình cắt bớt 10% so với mẫu là giá trị trung bình khi đã lược bỏ 10% các giá trị lớn nhất và nhỏ nhất ở mỗi đầu của mẫu
Ở đây ta lược bỏ 2 giá trị ở mỗi đầu của mẫu là: 383; 473 và 1446; 1800
Giá trị trung bình cắt 10%: Trimmean = ∑ 𝑥𝑖
22 𝑖=3
20 = 1
20 x (500 + 515 + … + 1351) = 788,25 Giá trị trung bình của mẫu: 𝑥̅ = 827,8
Nhận thấy giá trị trung bình cắt nhỏ hơn giá trị trung bình mẫu cho ta gợi ý rằng có điểm bất thường trong số liệu thống kê
4.21 Tham khảo dữ liệu chi phí nhiên liệu bài 4.18
a Lập biểu đồ histogram (lập bằng Minitab)
Trang 12Từ các giá trị UF và LF tính ở trên ta thấy giá trị 1800 trên UF là giá trị ngoại lệ
4.22 Một giả thuyết về nguyên nhân của bệnh tâm thần phân liệt liên quan đến sự thay đổi hoạt động của một chất gọi là dopamine trong hệ thần kinh trung ương Để kiểm tra
lý thuyết này, hoạt tính dopamine (đơn vị b-hydroxylase tính bằng nmoU (ml) (h) / (mg))
Trang 13được đo đối với các mẫu bệnh nhân loạn thần và không loạn thần Dữ liệu cho hai nhóm bệnh nhân như sau
Trang 14b Vẽ biểu đồ điểm chuẩn (Normal score) (lập bằng Minitab)
Nhận xét: Biểu đồ điểm chuẩn có phân bố gần giống với phân bố chuẩn
4.25 Lập đồ thị phân bố chuẩn cho dữ liệu chi phí bệnh viện ở bảng 4.5 (giáo trình) và log của chúng cho nhóm theo dõi Bạn có kết luận gì
- Đồ thị phân bố chuẩn cho dữ liệu giá nhóm theo dõi (lập bằng Minitab)
Trang 15- Đồ thị loga giá tiền nhóm theo dõi (lập bằng Minitab)
Nhận xét: Đồ thị phân bố chuẩn giá tiền nhóm theo dõi gần như lệch phải
Đồ thị phân bố logarit giá theo dõi phân bố gần như chuẩn
4.24
a Mô phỏng 50 điểm từ phân phối chuẩn với trung bình = 0 và SD = 1 Nhận xét
Bảng giá trị Normal score của 50 giá trị như sau:
Trang 1616
i/ n+1 0,0196 0,0392 0,0588 0,0784 0,0980 0,1176 0,1373 0,1569 0,1765 0,1961 normal
score
-2,0619 -1,7599 -1,5647 -1,4157 -1,2928 -1,1868 -1,0927 -1,0074 -0,9289 -0,8557
i/ n+1 0,2157 0,2353 0,2549 0,2745 0,2941 0,3137 0,3333 0,3529 0,3725 0,3922 normal
score
-0,7868 -0,7215 -0,6591 -0,5992 -0,5414 -0,4853 -0,4307 -0,3774 -0,3251 -0,2737
i/ n+1 0,4118 0,4314 0,4510 0,4706 0,4902 0,5098 0,5294 0,5490 0,5686 0,5882 normal
score
-0,2230 -0,1729 -0,1232 -0,0738 -0,0246 0,0246 0,0738 0,1232 0,1729 0,2230
i/ n+1 0,6078 0,6275 0,6471 0,6667 0,6863 0,7059 0,7255 0,7451 0,7647 0,7843 normal
score
0,2737 0,3251 0,3774 0,4307 0,4853 0,5414 0,5992 0,6591 0,7215 0,7868
i/ n+1 0,8039 0,8235 0,8431 0,8627 0,8824 0,9020 0,9216 0,9412 0,9608 0,9804 normal
score
0,8557 0,9289 1,0074 1,0927 1,1868 1,2928 1,4157 1,5647 1,7599 2,0619
Đồ thị phân bố chuẩn của 50 giá trị là (lập bằng Minitab)
Nhận xét: Đồ thị chuẩn này có phân phối gần giống phân phối chuẩn
b Sử dụng phân phối hàm mũ với giá trị trung bình bằng 1 (lập bằng Minitab)
Trang 17Nhận xét: Đồ thị phân phối hàm mũ có dạng gần như lệch trái
c Sử dụng phân bố đồng đều trên [0, 1) (lập bằng Minitab)
Nhận xét: Đồ thị phân bố đồng đều trên [0, 1) có dạng hình chữ nhật
4.26 Mức độ nghiêm trọng của viêm khớp đo bằng cách sử dụng điểm số phản ánh tình trạng suy giảm ở tất cả các khớp Kết quả đo trên 33 người bị viêm khớp
Trang 1818
a Đồ thị phân bố chuẩn (lập bằng Minitab)
Dữ liệu này được phân phối lệch phải, ta cần chuyển đồi dữ liệu để chuẩn hóa dữ liệu
b Tìm phép chuyển đổi để chuẩn hóa dữ liệu: ở đây ta chuyển hóa dữ liệu bằng cách
x → log(x) để thu được phân phối chuẩn Đồ thị như sau
4.27 Thời gian cần thiết để hoàn thành kiểm tra hoạt động của tay (HPT) của 50 người
Trang 19a Lập đồ thị phân bố xác suất (bằng minitab, dùng probability plots)
Dữ liệu ở đây có phân bố lệch về phía phải
b Chuyển đổi dữ liệu theo 3 cách √𝐻𝑃𝑇, log (HPT), 1/HPT (dùng minitab)
- Chuyển đổi theo √𝐻𝑃𝑇 (x → √𝑥)
- Chuyển đổi log (HPT): (x → log (x))
Trang 21a Tạo biểu đồ Histogram của những giữ liệu này
Nhận xét: Phân phối ở đây có dạng gần như đối xứng và có 1 giá trị ngoại lai là 3126
b Lập biểu đồ doanh số bán quần jean trong 72 tháng (Time series trên Minitab)
Trang 2222
Nhận xét: Đồ thị có xu hướng tuyến tính, có 1 điểm ngoại lệ
c Vẽ biểu đồ riêng biệt cho doanh thu 6 năm (Time series trên Minitab)
d Giá trị tần số (xác suất) không có trên các biểu đồ Run- chart Giá trị 3126 là các giá trị ngoại lệ với biểu đồ Histogram ở câu a
e Đồ thị doanh thu trong 6 năm ở câu b sẽ hữu ích nhất để dự báo doanh số bán hàng trong tương lai