1. Trang chủ
  2. » Giáo án - Bài giảng

Chuong 2 Thống kê sinh học

47 496 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,79 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

• Biểu đồ này vừa minh họa cho các số đo trung tâm, vừa cho thấy biến động của dữ liệu... • Trước khi thiết lập biểu đồ, các dữ liệu phải được sắp xếp lại trong bảng tần số 1 chiều... •

Trang 1

Biostatistics - Bùi Tấn Anh

1 Mô tả và trình bày dữ liệu bằng bảng

2 Mô tả và trình bày dữ liệu bằng biểu đồ

3 Các số đo định tâm

4 Các số đo độ phân tán

Trang 2

1 Mô tả và trình bày dữ liệu bằng bảng

2 Mô tả và trình bày dữ liệu bằng biểu đồ

Trang 3

Mở tập tin dữ liệu

Tập tin Dữ liệu

Trang 4

Mở file excel

Lập bảng tần số một chiều

• Stat > Tables > Tally Individual Variables…

Trang 6

1 Mô tả và trình bày dữ liệu bằng bảng

2 Mô tả và trình bày dữ liệu bằng biểu đồ

3 Các số đo định tâm

4 Các số đo độ phân tán

Trang 8

Vẽ biểu đồ: Graph > Pie Chart …

Khai báo

Trang 9

Ghi nhãn

Pie Chart vẽ bằng Minitab

Trang 10

Time Series Plot

• Dùng biểu diễn sự thay đổi của dữ liệu theo

thời gian.

Thí dụ

• Nồng độ của Hg trong 20 năm ở hai vị trí

khác nhau của Địa Trung hải

139.60 170.60 117.60 156.20 129.00 103.10 100.30 102.80 160.50 70.20

Biostatistics - Bùi Tấn Anh

Trang 11

Vẽ biểu đồ: Graph > Time Series Plot…

Trang 12

Khai báo

Trang 14

02/03/2012 27

Hình 2.2 Time Series Plot với 1 trục Y

1992 1990 1988 1986 1984 1982 1980 1978 1976 1974

Biostatistics - Bùi Tấn Anh

Thêm thang đo thứ hai cho trục Y

• Click chuột phải lên trục Y > Edit Y scale

Trang 15

Hình 2.2 Time Series Plot với 2 trục Y

1992 1990 1988 1986 1984 1982 1980 1978 1976 1974

Trang 16

Line Plot

• Dùng so sánh dữ liệu của 2 hay nhiều nhóm

02/03/2012 Biostatistics - Bùi Tấn Anh 31

3.9 4.1 4.5 5.5 5.6 6.0 6.0 7.0 7.3

5.1 6.0 7.0 8.4 8.8 10.6 12.0 13.4 13.3

Biostatistics - Bùi Tấn Anh

Trang 17

Vẽ biểu đồ: Graph > Line Plot …

Trang 18

Line Plot

2000 1995 1990 1985 1980 1975 1970 1965

Line Plot of Can, UK, USA

Biostatistics - Bùi Tấn Anh

Trang 19

Bar Chart

• Dùng so sánh các giá trị của các chuỗi dữ liệu

• Thí dụ 1: Ở Mỹ, số người tham gia tổ chức

bảo vệ sức khoẻ (HMOs = Health Maintenace

Organization):

– Năm 1980: 9.1 triệu

– Năm 1990: 33.0 triệu

– Năm 2000: 80.9 triệu

02/03/2012 Biostatistics - Bùi Tấn Anh 37

Vẽ biểu đồ: Graph > Bar Chart…

Trang 20

02/03/2012 Biostatistics - Bùi Tấn Anh 40

Trang 21

Bar Chart

2000 1990

Trang 22

25 20

15 10

5 0

32.7 24.3

25.0 26.1 28.6

Trang 23

Stack Bar Chart (theo tần số)

50-59 Dưới 50

50-59 Dưới 50

Nhóm t uổi

Trang 24

Interrval Plot

• Dùng để biểu diễn giá trị trung bình cùng với

khoảng tin cậy hoặc sai số

• Biểu đồ này vừa minh họa cho các số đo trung

tâm, vừa cho thấy biến động của dữ liệu

• Graph > Interval Plot …

Interrval Plot

800 400

200 0

Absolute Growth Rate

Trang 25

• Dùng cho các biến được phân lớp

• Các giá trị của biến được nhóm thành từng lớp

(còn gọi là bin) thường có độ rộng bằng nhau

• Trước khi thiết lập biểu đồ, các dữ liệu phải

được sắp xếp lại trong bảng tần số 1 chiều

Bảng 2.9 Tần số huyết áp tối đa (mmHg)

Tần

số

Giá trị

Tần

số

Giá trị

Trang 26

• Trước khi vẽ biểu đồ cần:

– Chia dữ liệu thành các lớp (khoảng)

• Thường chia thành 5 – 15 khoảng

• Tính số khoảng = log2 n+1

[Sturges và Scott (1979)]

– Xác định độ rộng mỗi lớp (class interval)

(Xmax – Xmin)/ (log2 n + 1)

36 34 48

27

20

6 ế

Biostatistics - Bùi Tấn Anh

Trang 27

Stat > EDA > Stem-and-Leaf

Trang 28

• Thí dụ: huyết áp tối đa của 40 bệnh nhân được

chia thành hai nhóm: dưới 60 và trên 60 tuổi

Tuổi trên 60

Tuổi dưới 60

170 160 150 140 130 120 110 100

Huyết áp tối đa (mmHg)

Biostatistics - Bùi Tấn Anh

Trang 29

• Dùng để trình bày mối quan hệ giữa hai nhóm

dữ liệu thu được trong thí nghiệm

• Rất hiệu quả với các biến liên tục, cở mẫu

nhỏ hoặc trung bình

• Graph > Scatterplots …

02/03/2012 Biostatistics - Bùi Tấn Anh 57

Scatterplots

Trang 30

• Mô tả và trình bày dữ liệu bằng bảng

• Mô tả và trình bày dữ liệu bằng biểu đồ

• Các số đo định tâm

• Các số đo độ phân tán

Các đặc điểm quan trọng của dữ liệu

• Vị trí trung tâm

• Độ phân tán

• Phân bố

• Các số lạ (outlier) = giá trị ngoại lai

Trang 31

Trung bình cộng (Arithmetic mean)

• Trung bình mẫu là một số mà các giá trị của

mẫu có xu hướng qui tụ quanh nó

Trang 32

Trung bình cộng trong bảng phân bố tần số

• Phân bố tần số khối lượng của 4547 lợn

Piétrain x (Yorkshire x Landrace) nuôi vỗ béo

đến 210 ngày tuổi (kg)

Trang 33

Thí dụ

• Trung bình

̅ = 63,86x11 + 71,00x31 + ⋯ + 151,55x12

11 + 31 + ⋯ + 12 = 110,48kg

Trang 34

Trung bình cộng gia quyền (Weighted mean)

• Khảo sát mật độ khoáng trong xương ở đốt

sống thắt lưng của 3 kiểu gen khác nhau, người

ta thu nhận được số liệu như sau:

Trang 35

Trung bình điều hòa (Harmonic mean)

• Là nghịch đảo của trung bình cộng các biến

Biostatistics - Bùi Tấn Anh

Trung bình điều hòa (Harmonic mean)

• Thường dùng khi nhóm dữ liệu có các giá trị

đo lường tốc độ của sự thay đổi

• Thí dụ: Một người lái xe từ nhà đến cơ quan

với tốc độ 40 km/giờ và từ cơ quan về nhà với

tốc độ 60 km/giờ Tốc độ trung bình của cả hai

lượt đi về là bao nhiêu?

Trang 36

Trung bình điều hòa (Harmonic mean)

• Câu trả lời không phải là: (40+60)/2 = 50

= 48

Tại sao vận tốc trung bình là 48 km/giờ mà

không phải là 50 km/giờ?

Trung bình nhân (Geometric mean)

• Còn được gọi là trung bình hình học.

• Dùng để tính tốc độ phát triển trung bình khi các

Không được dùng khi dữ liệu có giá trị âm hoặc 0.

Trang 37

Thí dụ

• Tỉ lệ % gia tăng lượng calci trong xương của một

nhóm 10 bệnh nhân giữa các lần khám bệnh được

ghi nhận như sau: 5.4%, 8.9%, 9.6%, 6.4%.

• Các tỉ lệ % có thể được viết dưới dạng tỉ số:

1.054 1.089 1.096 1.064

= 4 1.054 ∗ 1.089 ∗ 1.096 ∗ 1.064

Trung bình cụt (Trimmed Mean)

• Trường hợp dữ liệu bị lẫn các giá trị ngoại lai

(outlier), nghĩa là các giá trị quá lớn hoặc quá

nhỏ, trung bình dữ liệu sẽ bị kéo lệch về phía

các giá trị này

• Để điều chỉnh, người ta tính trung bình cụt

bằng cách loại bỏ các phần đầu và cuối của

chuỗi dữ liệu (theo tỉ lệ %), rồi lấy trung bình

cộng của phần dữ liệu còn lại

Trang 38

Trung vị (Median)

• Là giá trị nằm ở giữa của chuỗi dữ liệu

• Khi chuỗi dữ liệu có n giá trị quan sát:

– Nếu n là số lẻ → trung vị là số thứ (n+1)/2

– Nếu n là số chẵn → trung vị là trung bình của số

thứ n/2 và số thứ (n/2)+1.

Để tìm trung vị trước tiên cần sắp xếp lại dữ

liệu theo thứ tự từ nhỏ đến lớn (sort)

Trang 39

Yếu vị = Số trội (Mod)

• Là giá trị có tần số cao nhất trong chuỗi dữ

– Nếu µ = Md= Mo→ phân bố đối xứng

– Nếu µ < Md< Mo→ phân bố lệch trái

– Nếu µ > Md> Mo→ phân bố lệch phải

Trang 40

Các dạng phân bố

Phân bố đối xứng

Phân bố lệch phải Phân bố lệch trái

Biostatistics - Bùi Tấn Anh

4.

• Mô tả và trình bày dữ liệu bằng bảng

• Mô tả và trình bày dữ liệu bằng biểu đồ

• Các số đo định tâm

• Các số đo độ phân tán

02/03/2012 Biostatistics - Bùi Tấn Anh 80

Trang 41

Khoảng biến thiên (Range)

• Là khoảng khác biệt giữa hai giá trị quan sát

lớn nhất và nhỏ nhất

• Range = Max – Min

• Khoảng biến thiên càng nhỏ thì tổng thể càng

đồng đều, số trung bình càng có tính đại diện

cao và ngược lại

Tứ vị (Quartile) – Khoảng tứ vị

• Là vị trí chia chuỗi dữ liệu ra thành 4 phần

bằng nhau:

– 25% giá trị quan sát  tứ vị 1 (Q1) = lower quartile

– 50% các giá trị quan sát  tứ vị 2 (Q2) = trung vị

– 75% giá trị quan sát  tứ vị 3 (Q3) = upper quartile

• Tứ vị 1 là giá trị ở vị trí thứ ( )

• Tứ vị 3 là giá trị ở vị trí thứ ( )

• Khoảng tứ vị (Inter Quartile Range) = Q3 –

Q1

Trang 42

Biostatistics - Bùi Tấn Anh

Phương sai (Variance)

• Là số trung bình cộng của bình phương các độ

lệch giữa các biến và số trung bình cộng của

các biến đó

• Phương sai mẫu được tính bằng:

• Các số liệu phân tán quanh giá trị trung bình

càng nhiều thì phương sai càng lớn và ngược

lại.

Trang 43

Độ lệch chuẩn (Standard deviation)

• Bằng căn bậc hai của phương sai

• Có số đo cùng đơn vị với số đo gốc

Sai số chuẩn (Standard Error)

• Là số đo phản ánh độ biến thiên của các số

trung bình mẫu của các mẫu được rút ra từ một

tổng thể

• Nếu chọn mẫu N lần (mỗi lần với n đối tượng)

thì ta sẽ có N số trung bình Độ lệch chuẩn của

N số trung bình này chính là sai số chuẩn (Se)

• Se thường được ước lượng bởi:

=

Trang 44

Hệ số biến động (Coefficient of Variation)

• Dùng để so sánh độ biến thiên tương đối trong

các tổng thể có trung bình khác nhau, hoặc để

so sánh độ phân tán của các hiện tượng có đơn

• Còn gọi là box and whiskers plot cung cấp:

– 1 số đo về vị trí trung tâm của dữ liệu (trung vị)

– 2 số đo về độ phân tán của số liệu (khoảng biến

thiên và khoảng tứ vị)

– Các số ngoại lai (outlier)

• “box” có dạng hộp hình chữ nhật, chứa 50%

dữ liệu với các giá trị Q1, Q2 (trung vị) và Q3

• Mỗi “whisker” biểu diễn cho 25% dữ liệu với

các giá trị cực tiểu (min) và cực đại (max)

Trang 45

Thí dụ

• Dữ liệu về hàm lượng nước ngầm trong đất

(%):

• Để vẽ box plot cần xác định 5 giá trị:

– Min, Max (phải sắp xếp lại dữ liệu theo thứ tự)

• Trung vị = giá trị thứ (n + 1)/2 = (10 + 1)/2 =giá trị thứ 5.5

= trung bình của giá trị thứ 5 và thứ 6

= (0.75*11.6) + (0.25*12.1) = 11.725%

Trang 46

02/03/2012 91

12.8

11.725 10.5

9.225 7.5

Biostatistics - Bùi Tấn Anh

• Box plot giúp ta xác định phân bố của dữ liệu

– Nếu dữ liệu phân bố đối xứng, thanh trung vị sẽ

nằm ở giữa hộp (khoảng tứ vị IRQ) và hai thành

Whisker có độ dài xấp xỉ nhau.

– Nếu dữ liệu phân bố lệch, thanh trung vị sẽ không

nằm giữa hộp mà lệch về một phía, một thanh

Whisker sẽ dài hơn thanh còn lại.

– Các giá trị ngoại lai (outlier) được ký hiệu bằng

các dấu *.

Ngày đăng: 06/10/2016, 23:30

HÌNH ẢNH LIÊN QUAN

Bảng 2.1 Tần số giới tính của 200 bệnh nhân - Chuong 2 Thống kê sinh học
Bảng 2.1 Tần số giới tính của 200 bệnh nhân (Trang 5)
Bảng 2.2 Tần số độ tuổi của 200 bệnh nhân - Chuong 2 Thống kê sinh học
Bảng 2.2 Tần số độ tuổi của 200 bệnh nhân (Trang 5)
Bảng tần số hai chiều - Chuong 2 Thống kê sinh học
Bảng t ần số hai chiều (Trang 6)
Bảng 2.3 Chỉ số thể trọng và giới tính của 200 bệnh nhân - Chuong 2 Thống kê sinh học
Bảng 2.3 Chỉ số thể trọng và giới tính của 200 bệnh nhân (Trang 6)
Hình 2.2. Time Series Plot với 1 trục Y - Chuong 2 Thống kê sinh học
Hình 2.2. Time Series Plot với 1 trục Y (Trang 14)
Hình 2.2. Time Series Plot với 2 trục Y - Chuong 2 Thống kê sinh học
Hình 2.2. Time Series Plot với 2 trục Y (Trang 15)
Bảng 2.9  Tần số huyết áp tối đa (mmHg) - Chuong 2 Thống kê sinh học
Bảng 2.9 Tần số huyết áp tối đa (mmHg) (Trang 25)

TỪ KHÓA LIÊN QUAN

w