• Biểu đồ này vừa minh họa cho các số đo trung tâm, vừa cho thấy biến động của dữ liệu... • Trước khi thiết lập biểu đồ, các dữ liệu phải được sắp xếp lại trong bảng tần số 1 chiều... •
Trang 1Biostatistics - Bùi Tấn Anh
1 Mô tả và trình bày dữ liệu bằng bảng
2 Mô tả và trình bày dữ liệu bằng biểu đồ
3 Các số đo định tâm
4 Các số đo độ phân tán
Trang 21 Mô tả và trình bày dữ liệu bằng bảng
2 Mô tả và trình bày dữ liệu bằng biểu đồ
Trang 3Mở tập tin dữ liệu
Tập tin Dữ liệu
Trang 4Mở file excel
Lập bảng tần số một chiều
• Stat > Tables > Tally Individual Variables…
Trang 61 Mô tả và trình bày dữ liệu bằng bảng
2 Mô tả và trình bày dữ liệu bằng biểu đồ
3 Các số đo định tâm
4 Các số đo độ phân tán
Trang 8Vẽ biểu đồ: Graph > Pie Chart …
Khai báo
Trang 9Ghi nhãn
Pie Chart vẽ bằng Minitab
Trang 10Time Series Plot
• Dùng biểu diễn sự thay đổi của dữ liệu theo
thời gian.
Thí dụ
• Nồng độ của Hg trong 20 năm ở hai vị trí
khác nhau của Địa Trung hải
139.60 170.60 117.60 156.20 129.00 103.10 100.30 102.80 160.50 70.20
Biostatistics - Bùi Tấn Anh
Trang 11Vẽ biểu đồ: Graph > Time Series Plot…
Trang 12Khai báo
Trang 1402/03/2012 27
Hình 2.2 Time Series Plot với 1 trục Y
1992 1990 1988 1986 1984 1982 1980 1978 1976 1974
Biostatistics - Bùi Tấn Anh
Thêm thang đo thứ hai cho trục Y
• Click chuột phải lên trục Y > Edit Y scale
Trang 15Hình 2.2 Time Series Plot với 2 trục Y
1992 1990 1988 1986 1984 1982 1980 1978 1976 1974
Trang 16Line Plot
• Dùng so sánh dữ liệu của 2 hay nhiều nhóm
02/03/2012 Biostatistics - Bùi Tấn Anh 31
3.9 4.1 4.5 5.5 5.6 6.0 6.0 7.0 7.3
5.1 6.0 7.0 8.4 8.8 10.6 12.0 13.4 13.3
Biostatistics - Bùi Tấn Anh
Trang 17Vẽ biểu đồ: Graph > Line Plot …
Trang 18Line Plot
2000 1995 1990 1985 1980 1975 1970 1965
Line Plot of Can, UK, USA
Biostatistics - Bùi Tấn Anh
Trang 19Bar Chart
• Dùng so sánh các giá trị của các chuỗi dữ liệu
• Thí dụ 1: Ở Mỹ, số người tham gia tổ chức
bảo vệ sức khoẻ (HMOs = Health Maintenace
Organization):
– Năm 1980: 9.1 triệu
– Năm 1990: 33.0 triệu
– Năm 2000: 80.9 triệu
02/03/2012 Biostatistics - Bùi Tấn Anh 37
Vẽ biểu đồ: Graph > Bar Chart…
Trang 2002/03/2012 Biostatistics - Bùi Tấn Anh 40
Trang 21Bar Chart
2000 1990
Trang 2225 20
15 10
5 0
32.7 24.3
25.0 26.1 28.6
Trang 23Stack Bar Chart (theo tần số)
50-59 Dưới 50
50-59 Dưới 50
Nhóm t uổi
Trang 24Interrval Plot
• Dùng để biểu diễn giá trị trung bình cùng với
khoảng tin cậy hoặc sai số
• Biểu đồ này vừa minh họa cho các số đo trung
tâm, vừa cho thấy biến động của dữ liệu
• Graph > Interval Plot …
Interrval Plot
800 400
200 0
Absolute Growth Rate
Trang 25• Dùng cho các biến được phân lớp
• Các giá trị của biến được nhóm thành từng lớp
(còn gọi là bin) thường có độ rộng bằng nhau
• Trước khi thiết lập biểu đồ, các dữ liệu phải
được sắp xếp lại trong bảng tần số 1 chiều
Bảng 2.9 Tần số huyết áp tối đa (mmHg)
Tần
số
Giá trị
Tần
số
Giá trị
Trang 26• Trước khi vẽ biểu đồ cần:
– Chia dữ liệu thành các lớp (khoảng)
• Thường chia thành 5 – 15 khoảng
• Tính số khoảng = log2 n+1
[Sturges và Scott (1979)]
– Xác định độ rộng mỗi lớp (class interval)
(Xmax – Xmin)/ (log2 n + 1)
36 34 48
27
20
6 ế
Biostatistics - Bùi Tấn Anh
Trang 27Stat > EDA > Stem-and-Leaf
Trang 28• Thí dụ: huyết áp tối đa của 40 bệnh nhân được
chia thành hai nhóm: dưới 60 và trên 60 tuổi
Tuổi trên 60
Tuổi dưới 60
170 160 150 140 130 120 110 100
Huyết áp tối đa (mmHg)
Biostatistics - Bùi Tấn Anh
Trang 29• Dùng để trình bày mối quan hệ giữa hai nhóm
dữ liệu thu được trong thí nghiệm
• Rất hiệu quả với các biến liên tục, cở mẫu
nhỏ hoặc trung bình
• Graph > Scatterplots …
02/03/2012 Biostatistics - Bùi Tấn Anh 57
Scatterplots
Trang 30• Mô tả và trình bày dữ liệu bằng bảng
• Mô tả và trình bày dữ liệu bằng biểu đồ
• Các số đo định tâm
• Các số đo độ phân tán
Các đặc điểm quan trọng của dữ liệu
• Vị trí trung tâm
• Độ phân tán
• Phân bố
• Các số lạ (outlier) = giá trị ngoại lai
Trang 31Trung bình cộng (Arithmetic mean)
• Trung bình mẫu là một số mà các giá trị của
mẫu có xu hướng qui tụ quanh nó
Trang 32Trung bình cộng trong bảng phân bố tần số
• Phân bố tần số khối lượng của 4547 lợn
Piétrain x (Yorkshire x Landrace) nuôi vỗ béo
đến 210 ngày tuổi (kg)
Trang 33Thí dụ
• Trung bình
̅ = 63,86x11 + 71,00x31 + ⋯ + 151,55x12
11 + 31 + ⋯ + 12 = 110,48kg
Trang 34Trung bình cộng gia quyền (Weighted mean)
• Khảo sát mật độ khoáng trong xương ở đốt
sống thắt lưng của 3 kiểu gen khác nhau, người
ta thu nhận được số liệu như sau:
Trang 35Trung bình điều hòa (Harmonic mean)
• Là nghịch đảo của trung bình cộng các biến
Biostatistics - Bùi Tấn Anh
Trung bình điều hòa (Harmonic mean)
• Thường dùng khi nhóm dữ liệu có các giá trị
đo lường tốc độ của sự thay đổi
• Thí dụ: Một người lái xe từ nhà đến cơ quan
với tốc độ 40 km/giờ và từ cơ quan về nhà với
tốc độ 60 km/giờ Tốc độ trung bình của cả hai
lượt đi về là bao nhiêu?
Trang 36Trung bình điều hòa (Harmonic mean)
• Câu trả lời không phải là: (40+60)/2 = 50
= 48
Tại sao vận tốc trung bình là 48 km/giờ mà
không phải là 50 km/giờ?
Trung bình nhân (Geometric mean)
• Còn được gọi là trung bình hình học.
• Dùng để tính tốc độ phát triển trung bình khi các
Không được dùng khi dữ liệu có giá trị âm hoặc 0.
Trang 37Thí dụ
• Tỉ lệ % gia tăng lượng calci trong xương của một
nhóm 10 bệnh nhân giữa các lần khám bệnh được
ghi nhận như sau: 5.4%, 8.9%, 9.6%, 6.4%.
• Các tỉ lệ % có thể được viết dưới dạng tỉ số:
1.054 1.089 1.096 1.064
= 4 1.054 ∗ 1.089 ∗ 1.096 ∗ 1.064
Trung bình cụt (Trimmed Mean)
• Trường hợp dữ liệu bị lẫn các giá trị ngoại lai
(outlier), nghĩa là các giá trị quá lớn hoặc quá
nhỏ, trung bình dữ liệu sẽ bị kéo lệch về phía
các giá trị này
• Để điều chỉnh, người ta tính trung bình cụt
bằng cách loại bỏ các phần đầu và cuối của
chuỗi dữ liệu (theo tỉ lệ %), rồi lấy trung bình
cộng của phần dữ liệu còn lại
Trang 38Trung vị (Median)
• Là giá trị nằm ở giữa của chuỗi dữ liệu
• Khi chuỗi dữ liệu có n giá trị quan sát:
– Nếu n là số lẻ → trung vị là số thứ (n+1)/2
– Nếu n là số chẵn → trung vị là trung bình của số
thứ n/2 và số thứ (n/2)+1.
Để tìm trung vị trước tiên cần sắp xếp lại dữ
liệu theo thứ tự từ nhỏ đến lớn (sort)
Trang 39Yếu vị = Số trội (Mod)
• Là giá trị có tần số cao nhất trong chuỗi dữ
– Nếu µ = Md= Mo→ phân bố đối xứng
– Nếu µ < Md< Mo→ phân bố lệch trái
– Nếu µ > Md> Mo→ phân bố lệch phải
Trang 40Các dạng phân bố
Phân bố đối xứng
Phân bố lệch phải Phân bố lệch trái
Biostatistics - Bùi Tấn Anh
4.
• Mô tả và trình bày dữ liệu bằng bảng
• Mô tả và trình bày dữ liệu bằng biểu đồ
• Các số đo định tâm
• Các số đo độ phân tán
02/03/2012 Biostatistics - Bùi Tấn Anh 80
Trang 41Khoảng biến thiên (Range)
• Là khoảng khác biệt giữa hai giá trị quan sát
lớn nhất và nhỏ nhất
• Range = Max – Min
• Khoảng biến thiên càng nhỏ thì tổng thể càng
đồng đều, số trung bình càng có tính đại diện
cao và ngược lại
Tứ vị (Quartile) – Khoảng tứ vị
• Là vị trí chia chuỗi dữ liệu ra thành 4 phần
bằng nhau:
– 25% giá trị quan sát tứ vị 1 (Q1) = lower quartile
– 50% các giá trị quan sát tứ vị 2 (Q2) = trung vị
– 75% giá trị quan sát tứ vị 3 (Q3) = upper quartile
• Tứ vị 1 là giá trị ở vị trí thứ ( )
• Tứ vị 3 là giá trị ở vị trí thứ ( )
• Khoảng tứ vị (Inter Quartile Range) = Q3 –
Q1
Trang 42Biostatistics - Bùi Tấn Anh
Phương sai (Variance)
• Là số trung bình cộng của bình phương các độ
lệch giữa các biến và số trung bình cộng của
các biến đó
• Phương sai mẫu được tính bằng:
• Các số liệu phân tán quanh giá trị trung bình
càng nhiều thì phương sai càng lớn và ngược
lại.
Trang 43Độ lệch chuẩn (Standard deviation)
• Bằng căn bậc hai của phương sai
• Có số đo cùng đơn vị với số đo gốc
Sai số chuẩn (Standard Error)
• Là số đo phản ánh độ biến thiên của các số
trung bình mẫu của các mẫu được rút ra từ một
tổng thể
• Nếu chọn mẫu N lần (mỗi lần với n đối tượng)
thì ta sẽ có N số trung bình Độ lệch chuẩn của
N số trung bình này chính là sai số chuẩn (Se)
• Se thường được ước lượng bởi:
=
Trang 44Hệ số biến động (Coefficient of Variation)
• Dùng để so sánh độ biến thiên tương đối trong
các tổng thể có trung bình khác nhau, hoặc để
so sánh độ phân tán của các hiện tượng có đơn
• Còn gọi là box and whiskers plot cung cấp:
– 1 số đo về vị trí trung tâm của dữ liệu (trung vị)
– 2 số đo về độ phân tán của số liệu (khoảng biến
thiên và khoảng tứ vị)
– Các số ngoại lai (outlier)
• “box” có dạng hộp hình chữ nhật, chứa 50%
dữ liệu với các giá trị Q1, Q2 (trung vị) và Q3
• Mỗi “whisker” biểu diễn cho 25% dữ liệu với
các giá trị cực tiểu (min) và cực đại (max)
Trang 45Thí dụ
• Dữ liệu về hàm lượng nước ngầm trong đất
(%):
• Để vẽ box plot cần xác định 5 giá trị:
– Min, Max (phải sắp xếp lại dữ liệu theo thứ tự)
• Trung vị = giá trị thứ (n + 1)/2 = (10 + 1)/2 =giá trị thứ 5.5
= trung bình của giá trị thứ 5 và thứ 6
= (0.75*11.6) + (0.25*12.1) = 11.725%
Trang 4602/03/2012 91
12.8
11.725 10.5
9.225 7.5
Biostatistics - Bùi Tấn Anh
• Box plot giúp ta xác định phân bố của dữ liệu
– Nếu dữ liệu phân bố đối xứng, thanh trung vị sẽ
nằm ở giữa hộp (khoảng tứ vị IRQ) và hai thành
Whisker có độ dài xấp xỉ nhau.
– Nếu dữ liệu phân bố lệch, thanh trung vị sẽ không
nằm giữa hộp mà lệch về một phía, một thanh
Whisker sẽ dài hơn thanh còn lại.
– Các giá trị ngoại lai (outlier) được ký hiệu bằng
các dấu *.