1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp nghiên cứu khoa học - thống kê y học 1

86 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương pháp nghiên cứu khoa học - Thống kê y học 1
Tác giả ThS. BS. Nguyễn Thế Dũng
Trường học Trường Đại Học Y Khoa Phạm Ngọc Thạch
Chuyên ngành Y học
Thể loại Dự án
Năm xuất bản 2010
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 86
Dung lượng 880,57 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nguyễn Thế Dũng MỤC TIÊU: Sau khi học xong bài này, học viên có thể: 1/ Phân biệt đúng các loại biến số thường dùng trong thống kê y học 2/ Phân biệt được các thang đo lường dùng trong

Trang 1

TRƯỜNG ĐẠI HỌC Y KHOA PHẠM NGỌC THẠCH

DỰ ÁN U-PNT-03

PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC

(LỚP CƠ BẢN 3)

Tháng 3/2010 PHẦN THỐNG KÊ Y HỌC 1

Trang 2

Bài 1

ThS BS Nguyễn Thế Dũng

MỤC TIÊU: Sau khi học xong bài này, học viên có thể:

1/ Phân biệt đúng các loại biến số thường dùng trong thống kê y học

2/ Phân biệt được các thang đo lường dùng trong thống kê y học

số tương đối dồn

4/ Phát biểu đúng ý nghĩa của số liệu trong các bảng phân phối tần số, tần số tương đối, tần số dồn, tần số tương đối dồn

I MỘT SỐ KHÁI NIỆM CƠ BẢN :

Thống kê học (Statistics): là môn học về cách :

của số liệu

Thống kê sinh học (Biostatistics): là thống kê học có số liệu phân tích có

nguồn gốc sinh hoặc y học

Biến số (Variable): là đặc tính có thể mang nhiều giá trị khác nhau ở người,

nơi chốn, vật khác nhau

– Biến số định lượng (Quantitative variable): là biến số có thể đo đạc được

bằng các phép đo lường thông thường Số đo thực hiện trên các biến số

định lượng chuyển tải thông tin về số (khối) lượng

– Biến số định tính (Qualitative variable) : là biến số không thể được đo

bằng những phép đo lường thông thường, mà chỉ có thể được nhóm loại

(categorized) Số đo thực hiện trên các biến số định tính chuyển tải thông

tin về thuộc tính

– Biến số ngẫu nhiên (Random variable): là biến số mà các giá trị có được

là kết quả của các yếu tố mang tính cơ hội (chance factors) không thể

tiên đoán chính xác trước được Các giá trị có được qua các phương pháp

đo lường được gọi là các quan sát (observations) hoặc số đo easurements)

– Biến số ngẫu nhiên rời (Discrete random variable): là biến số đặc trưng bởi

các khoảng trống giữa các giá trị

Biến số ngẫu nhiên liên tục (Continous random variable): là biến số không có các

khoảng trống giữa các giá trị

DÂN SỐ (Quần thể – Population): là tập hợp lớn nhất các thực thể mà ta quan tâm ở

1 thời điểm xác định

KHÁI NIỆM về THỐNG KÊ Y HỌC và CÁCH SẮP XẾP & TỔ CHỨC SỐ LIỆU

Trang 3

Nếu đo một biến số trên từng thực thể của dân số, chúng ta sẽ có 1 dân số các giá

trị của biến số đó Dân số các giá trị là tập hợp lớn nhất các giá trị của 1 biến số ngẫu nhiên mà ta quan tâm ở 1 thời điểm xác định

MẪU (Sample): là 1 phần (bộ phận) của 1 dân số

II SỰÏ ĐO LƯỜNG và THANG ĐO LƯỜNG (Measurement & Measurement

Scale)

Sự đo lường được định nghĩa là sự gán con số cho các vật thể hoặc biến cố theo 1 hệ thống qui tắc Do việc đo lường được thực hiện với nhiều hệ thống qui tắc khác nhau nên phải có nhiều thang đo lường khác nhau

1 Thang định danh (Nominal Scale): là thang đo lường (ở mức độ) thấp nhất và chỉ

bao gồm việc “đặt tên” cho các quan sát hoặc phân loại chúng vào các nhóm độc lập hỗ tương (mutually exclusive) Thí dụ: các chẩn đoán y khoa (bệnh cao huyết áp, bệnh nội tiết, v.v.), các thực thể nhị phân như nam-nữ, bệnh-khỏe, v v

2 Thang thứ tự (Ordinal Scale): là thang đo lường bao gồm không chỉ việc định

danh mà còn phân hạng (rank) các nhóm loại theo 1 số tiêu chuẩn nào đó Thí dụ:

bệnh (rất nặng, nặng, vừa, nhẹ), tình trạng kinh tế (cao, vừa, kém), v v

Lưu ý là mức độ khác biệt giữa các 2 số đo thuộc 2 nhóm loại đã phân hạng

không được biết là bằng bao nhiêu

3 Thang khoảng (Interval Scale): tinh vi hơn thang thứ tự ở chỗ khoảng cách giữa

hai số đo bất kỳ được biết rõ Thí dụ: hiệu của số đo 20 và 30 bằng với hiệu của số đo

30 và 40 Thang khoảng dùng 1 đơn vị về khoảng cách và một điểm zero được chọn tùy ý Tuy nhiên điểm zero trong trường hợp này không phải là zero thật sự (chỉ thị sự hoàn toàn không có khối lượng đang được đo) Thí dụ rõ nhất về thang khoảng là cách

nào.Thang khoảng là một thang định lượng

4 Thang Tỉ số (Ratio Scale): là thang đo lường ở mức độ cao nhất, đặc trưng bởi sự

bằng nhau của các tỉ số cũng như của các khoảng có thể được định rõ Điểm cơ bản của thang tỉ số là có điểm zero thật Thí dụ: chiều cao, cân nặng, chiều dài,v.v

III CHUỖI THỐNG KÊ (Ordered array) :

là danh mục các giá trị của 1 tập hợp số liệu xếp theo thứ tự từ giá trị nhỏ đến giá trị lớn

Trang 4

IV PHÂN PHỐI TẦN SỐ (quency Distribution)

1 Phân nhóm số liệu: số liệu có thể được tổ chức, sắp xếp bằng cách phân

vào nhiều nhóm (Khoảng cách lớp – KCL)

Cách tính số KCL

Số KCL của 1 tập hợp số liệu thường không nên nhỏ hơn 6 và không lớn

hơn 15 Để chính xác hơn, có thể dùng công thức Sturges để tính số KCL :

k = 1 + 3,322 (log 10 n)

Thí du: có tập hợp số liệu gồm 57 giá trị, nên phân vào bao nhiêu KCL thì vừa?

Cách tính độ rộng của KCL

w =

k

Thí dụ: có tập hợp số liệu gồm 57 giá trị, giá trị lớn nhất là 79 và giá trị nhỏ

nhất là 12 Tính độ rộng của các KCL?

Trang 5

2 Lập bảng phân phối tần số

3 Lập bảng phân phối tần số, tần số dồn, tần số tương đối, tần số tương đối dồn

KCL Tần số Tần số dồn Tần số Tần số

Lưu ý: Tùy theo nhu cầu mà chọn cột (tần số, tần số tương đối, tần số dồn, tần số tương

đối dồn) để trình bày Thông thường nhất là trình bày tần số và tần số tương đối (tính

bằng %) trong cùng 1 bảng

4 Lập biểu đồ Histogram

Histogram là biểu đồ phân phối tần số hình que (cột) đặc biệt của các biến số liên tục Do là biểu đồ là của biến số liên tục nên khi trình bày cần phải dùng các giới hạn thật của các KCL Tìm giới hạn thật của 1 KCL bằng cách trừ đi ½ đơn vị đối với giới hạn dưới và cộng thêm ½ đơn vị đối với giới hạn trên

Trang 6

Bảng phân phối tần số dùng giới hạn thật (để vẽ histogram)

5 Lập biểu đồ đa giác tần số

Biểu đồ đa giác tần số được thiết lập dựa trên histogram Bằng cách nối trung điểm

của các mặt trên của từng ô chữ nhật tượng trưng cho tần số của các KCL, ta sẽ có 1

đa giác tần số

Tần số

X

2 4 6 8 10 12 14 16 18 20

Tần ố

2 4 6 8 10 12 14 16 18 20

Trang 7

6 Lập biểu đồ thân–và–lá (Stem-and-leaf)

Trang 8

Bài 2

MỤC TIÊU: Sau khi học xong bài này, học viên có thể:

1/ Biết cách tính các số đo khuynh hướng tập trung và phát biểu đúng ý nghĩa của các số

Số đo mô tả (descriptive measure) là phương tiện tóm tắt số liệu (TTSL)

– Số đo mô tả tính được từ số liệu của 1 mẫu được gọi là số thống kê (statistic)

– Số đo mô tả tính được từ số liệu của 1 dân số được gọi là thông số (parameter)

II SỐ ĐO KHUYNH HƯỚNG TẬP TRUNG (Measures of Central Tendency) :

Số đo khuynh hướng tập trung chuyển tải thông tin về giá trị trung bình (average

value) của một tập hợp số liệu Ba số đo khuynh hướng tập trung thường dùng nhất là: số

trội số trung vị , và số trung bình

1 Số trội (Mode) :

Số trội của một tập hợp giá trị là giá trị xuất hiện nhiều lần nhất Một tập hợp

giá trị có thể không có số trội nào, hoặc có nhiều hơn 1 số trội

Đặc điểm của số trội

Số trội có thể được sử dụng để mô tả số liệu định tính

2 Số trung vị (Median)

Số trung vị của một tập hợp số liệu là giá trị đứng giữa 2 phần bằng nhau của

tập hợp (số giá trị bằng hoặc lớn hơn số trung vị bằng với số giá trị bằng hoặc nhỏ hơn số trung vị)

Nếu số giá trị là một số lẻ, số trung vị sẽ là giá trị đứng ngay giữa chuỗi thống

kê Nếu số giá trị là một số chẵn, số trung vị sẽ bằng số trung bình của 2 giá trị

đứng ngay giữa chuỗi thống kê

Đặc điểm của số trung vị:

– Đơn giản (dễ hiểu và dễ tính toán)

– Giá trị cực (extreme values) không gây ảnh hưởng nhiều đến số trung vị

TÓM TẮT SỐ LIỆU

Trang 9

3 Số trung bình toán học (Arithmatic Mean) :

Trung bình (của) dân số (Population Mean) :

∑=

= 1

Trung bình (của) mẫu (Sample Mean) :

Đặc điểm của số trung bình:

– Độc nhất (đối với mỗi tập hợp số liệu chỉ có 1 số trung bình)

– Đơn giản (dễ hiểu và dễ tính toán)

– Giá trị cực (extreme values) gây ảnh hưởng nhiều đến số trung bình

Số trung bình gia trọng (Weighted mean)

Là số trung bình được tính khi phân tích số liệu từ nhiều mẫu về cùng 1 loại thông tin nhưng được thu thập ở những thời điểm khác nhau và có cỡ mẫu khác nhau Số trung bình gia trọng được tính như sau:

N tổng số giá trị của các mẫu

Trimmed mean (số trung bình gọn) và Winsorized mean (số trung bình gán)

Là hai phép tính lại số trung bình nhằm hạn chế tác động của giá trị cực

– Trimmed mean: số trung bình được tính sau khi đã “gọt bỏ” giá trị đầu và giá trị cuối của chuỗi thống kê

– Winsorize mean: số trung bình được tính sau khi đã gán 5% số giá trị ở đầu chuỗi thống kê (các giá trị cực thấp) bằng với giá trị thấp kế tiếp (so với 5% các giá trị cực thấp), và 5% số giá trị ở cuối chuỗi

thống kê (các giá trị cực cao) bằng với giá trị cao kế tiếp (so với 5% các giá trị cực cao)

Trang 10

III SỐ ĐO KHUYNH HƯỚNG PHÂN TÁN (Measures of Dispersion) :

Số đo phân tán chuyển tải thông tin về khối lượng (mức độ) biến thiên hiện diện trong tập hợp số liệu

1 Biên độ(Range) :

Công dụng của biên độ rất giới hạn (vì chỉ dùng có 2 giá trị)

2 Phương sai (Variance) :

Phương sai của một tập hợp số liệu là số đo độ phân tán tương đối của các giá trị (thuộc tập hợp) xung quanh số trung bình (của tập hợp số liệu)

+ Phương sai (của) dân số (Population Variance)

∑= −

=

µ

+ Phương sai (của) mẫu (Sample Variance)

n i i

x x

n S

n

i i n

i i

3 Độ lệch chuẩn (Standard Deviation)

ĐLC là số đo độ phân tán giống như phương sai, nhưng được diễn tả bằng đơn

vị đo ban đầu ĐLC được tính bằng cách rút căn 2 của phương sai

ĐLC của dân số có ký hiệu σ (sigma), ĐLC của mẫu có ký hiệu là s

IV Bách phân vị và Tứ phân vị (Percentiles and Quartiles)

của X mà theo đó có ≤ p% số giá trị nhỏ hơn P và (100–p)% số giá trị lớn hơn P

Thông thường, bách phân vị được tính trong các trường hợp tập hợp số liệu lớn

Trang 11

Vị trí của bách phân vị thứ k (Pk) có thể được tính như sau:

n

k

100

Bách phân vị thứ 50 (số trung vị) thường được gọi là Tứ phân vị thứ hai

(hoặc Tứ phân vị giữa – Q 2 )

3 Hộp và Dây kéo (Box-and-Whisker Plots)

Công cụ hình ảnh để trình bày các tứ phân vị Năm bước để vẽ:

– Đặt biến số lên trục ngang (hoành)

– Vẽ một box vào khoảng không nằm trên trục ngang với các đặc điểm: đầu

– Kẻ 1 đường nằm ngang gọi là whisker từ đầu trái của box đến điểm ứng với

giá trị nhỏ nhất của chuỗi số liệu

– Kẻ 1 đường nằm ngang khác, cũng gọi là whisker từ đầu phải của box đến

điểm ứng với giá trị lớn nhất của chuỗi số liệu

Trang 12

Bài 3

I PHÂN PHỐI XÁC SUẤT (PPXS) CỦA CÁC BIẾN SỐ RỜI

Định nghĩa: PPXS của một biến số ngẫu nhiên rời là một bảng, biểu, công thức,

hoặc công cụ khác được sử dụng để biểu thị tất cả các giá trị có thể có của một biến số rời cùng với xác suất tương ứng của chúng

Thí dụ: Một nhân viên Ban DS-KHHGĐ phụ trách 50 hộ gia đình Hãy thiết lập PPXS của X, là số trẻ em của từng hộ, cho dân số này

Phân phối xác suất của số trẻ em/hộ gia đình trong 1 dân số có 50 gia đình

x Tần số xuất hiện P(X=x)

của x (Số hộ gia đình)

Trang 13

Đặc điểm chung: (1) 0 ≤ P(X=x) ≤ 1

1.1 PPXS dồn (Cummulative Distrubitions)

Phân phối xác suất dồn của số trẻ em/hộ gia đình trong 1 dân số có 50 gia đình

x Tần số xuất hiện P(X=x) P(X ≤ x)

của x (Số hộ gia đình)

1.2 Phân Phối Nhị Phân (Binomial Distribution)

Là một trong các PPXS rất thường gặp trong thống kê ứng dụng

Tiến trình Bernoulli: bao gồm một loạt các thử nghiệm Bernoulli (Bernoulli trials) được

tiến hành liên tiếp nhau dưới những điều kiện sau:

1 Mỗi thử nghiệm chỉ cho ra một trong hai kết quả độc lập hỗ tương Một loại kết quả

được đặt là thành công, và kết quả còn lại được đặt là thất bại

2 Xác suất của một lần thành công, gọi là p, không đổi từ thử nghiệm sang thử nghiệm

khác Xác suất của 1 lần thất bại, 1 – p, gọi là q

Trang 14

3 Các thử nghiệm độc lập với nhau; nghĩa là kết quả của 1 thử nghiệm bất kỳ không bị

ảnh hưởng bởi kết quả của bất kỳ lần thử nghiệm nào khác

Thí dụ: Tại một bệnh viện phụ sản có 52% số sản án ghi nhận sinh con trai (xác suất để

chọn một sản án sinh con trai là 0,52), nếu chọn ngẫu nhiên 5 sản án từ dân số sản án của

BV này thì xác suất để chọn được đúng 3 sản án sinh con trai là bao nhiêu?

– Đặt kết quả chọn được sản án sinh con trai là 1 và

kết quả chọn được sản án sinh con gái là 0

– Đặt xác suất của 1 lần thành công là p (chọn được sản án sinh con trai)

xác suất của 1 lần thất bại là q (chọn được sản án sinh con gái)

– Giả sử sau khi chọn 1 đợt, có kết quả như sau: 10110

– Theo phép nhân xác suất,

Theo luật (phép) cộng xác suất, xác suất để rút 1 lần được 3 sản án sinh con trai bằng:

Qui ra công thức,

Trang 15

Công thức chung:

Phân phối nhị phân

II PHÂN PHỐI XÁC SUẤT (PPXS) CỦA CÁC BIẾN SỐ LIÊN TỤC :

Histogram của 57 giá trị cân nặng (ounces) của các khối u ác tính:

Mỗi hình chữ nhật (khoảng cách lớp) có đặc điểm

+ Chiều rộng: khoảng cách giữa 2 điểm (giá trị) định trước trên trục x

+ Bề cao: tần số của các giá trị nằm trong khoảng 2 điểm này

Tần số của từng KCL sẽ được tính bằng tỉ lệ tương ứng với phần diện tích giới hạn bởi 2

điểm trên trục x và bề cao của hình chữ nhật

Trang 16

Giả sử tình huống biến số ngẫu nhiên liên tục có một số lượng rất lớn các giá trị và KCL được chia rất nhỏ, histogram có thể sẽ trông giống như biều đồ dưới đây:

f

x

Nếu nối các điểm giữa của các KCL lại để thiết lập đa giác tần số, chắc chắn sẽ được 1 đường cong ít góc cạnh hơn

Giả sử số lượng các giá trị, n, tiến đến vô cực, và bề rộng của các KCL tiến đến 0, đa

giác tần số sẽ có dạng 1 đường cong tròn trịa

+ Tổng diện tích nằm bên dưới đường cong bằng 1 (tương tự như của histogram)

+ Tần số tương đối của các giá trị nằm giữa 2 điểm trên trục x bằng với tổng diện tích giới hạn bởi đường cong, trục x, và 2 đường thẳng đứng dựng lên từ 2 điểm này trên

trục x

Xác suất của bất kỳ 1 giá trị đặc hiệu nào của biến số này đều bằng 0 (vì 1 giá trị chỉ được tiêu

biểu bằng 1 điểm trên trục x, và vùng diện tích ở phía trên 1 điểm bằng 0)

Định nghĩa: Một hàm số không âm f(x) được gọi là phân phối xác suất của 1 biến số ngẫu nhiên

liên tục X nếu tổng diện tích giới hạn bởi đường cong và trục x của nó bằng 1, và nếu phần diện tích nằm dưới đường cong giới hạn bởi đường cong, trục x và các đường thẳng đứng dựng lên từ 2 điểm a và b bất kỳ cho biết xác suất của X giữa 2 điểm a và b

Trang 17

2 PHÂN PHỐI BÌNH THƯỜNG (Normal distribution)

Phân phối bình thường (PPBT), còn gọi là phân phối Gauss (Gaussian distribution), có công thức biểu thị:

x f

2 2

2 / ) (

2

1)

Phân phối Bình thường có 2 thông số là µ, số trung bình, và σ, độ lệch chuẩn Đường

biểu diễn là đường cong hình chuông

Đặc điểm:

1/ Đối xứng xung quanh số trung bình của nó

2/ Số trung bình = số trung vị = số trội

3/ Tổng diện tích dưới đường cong bằng 1 đơn vị vuông

4/ Nếu dựng các đường thẳng đứng ở cách số trung bình (1 khoảng cách bằng) 1 ĐLC về

cả hai phía, phần diện tích giới hạn bởi 2 đường thẳng này, trục x, và đường cong sẽ

gần bằng 68% của tổng diện tích

Nếu nới rộng giới hạn bên một khoảng cách bằng 2 ĐLC về cả hai phía, phần diện tích giới hạn sẽ gần bằng 95%, và con số này sẽ gần bằng 99,7% nếu khoảng cách là

3 ĐLC

5/ PPBT hoàn toàn được xác định bởi các thông số µ và σ Nghĩa là có rất nhiều PPBT

được xác định bởi các giá trị µ và/hoặc σ khác nhau, và chúng hợp thành một họ (family) PPBT

Trang 19

Phân phối bình thường chuẩn (Standard Normal Distribution)

Là thành viên quan trọng nhất của họ PPBT, còn gọi là PPBT đơn vị, vì có

π , - ∞ < x < + ∞

Để tìm xác suất của giá trị z nằm trong khoảng xác định bởi 2 điểm bất kỳ z 0 và z1

Phần diện tích này được tính bằng phép tính tích phân

2 1

1 )

2 Tần số tương đối của các giá trị của z nằm trong khoảng (– ∞ - 2) là 97,72%;

2/ Tính xác suất để chọn ngẫu nhiên được một z có giá trị trong khoảng – 2,55 và + 2,55 P(–2,55 < z < 2,55) = P(z < 2,55) – P(z < –2,55) = 0,9946 – 0,0054 = 0,9892

Mô hình PPBT rất hữu ích và tiện lợi hơn các mô hình phức tạp khác trong việc tính xác

suất của một số biến số (có phân phối bình thường hoặc gần như bình thường)

Thí dụ:

1/ Trong 1 nghiên cứu về bệnh Alzheimer, về trọng lượng của não bệnh nhân, người ta

tính được μ = 1076,80 grams và σ = 105,76 grams Được biết (biến số) trọng lượng não của bệnh nhân bị Alzheimer phân phối gần như bình thường, hãy tìm xác suất để chọn

– vẽ hình phân phối

– chuyển số liệu từ x sang z (PPBT chuẩn):

Trang 20

76,105

80,1076800)

Xác suất để chọn ngẫu nhiên được một bệnh nhân có não nặng < 800 grams là 0,0044

với trung bình bằng 70 inches và ĐLC bằng 3 inches

a/ Tính xác suất để chọn ngẫu nhiên được 1 người có chiều cao trong khoảng

b/ Tính xem có bao nhiêu người ≥ 77 inches

Trang 21

-Bài 4

PHÂN PHỐI MẪU

I GIỚI THIỆU

Phân phối (PP) mẫu là chìa khóa để hiểu được các suy luận thống kê

Việc hiểu biết PPXS nhằm hai mục đích:

đúng đắn

PP mẫu nhằm vào mục đích thứ nhất

Định nghĩa

PP của tất cả các giá trị được xem là các số thống kê (statistics) tính được từ các

mẫu (samples) có cùng kích thước mẫu (sample size) rút ngẫu nhiên từ cùng một

dân số, được gọi là PP mẫu của số thống kê đó

Các bước thiết lập PP mẫu

+ Từ một dân số hữu hạn có kích thước N, rút ngẫu nhiên tất cả các mẫu (có thể rút được) có kích thước n

+ Tính số thống kê có liên quan cho từng mẫu

+ Lập bảng phân phối tần số cho các số thống kê tính được này

Đặc điểm quan trọng

03 điều cần được biết về 1 PP mẫu: số trung bình, phương sai, và dạng hàm số

Việc thiết lập PP mẫu theo 3 bước nói trên sẽ trở nên rất khó khăn với dân số có kích thước lớn, và trở nên bất khả thi khi gặp dân số vô hạn Cách tốt nhất để giải quyết 2 vấn đề này là dùng các lý thuyết toán học để tính gần đúng PP mẫu của 1 số thống kê

II PP (CỦA SỐ) TRUNG BÌNH MẪU (Distribution of the Sample Mean)

Thí dụ dẫn nhập

Giả sử có 1 dân số có kích thước N = 5 (tuổi của 5 đứa trẻ điều trị ngoại trú tại

5

50

=

5402 2

Trang 22

4

401

2 2

Thiết lập PP mẫu của số trung bình mẫu, x, dựa trên kích thước mẫu n = 2 rút ra từ dân

số này Rút tất cả các mẫu có thể rút được với n = 2 từ dân số này theo cách “để lại”

(with replacement), nghĩa là rút ra xem kết quả xong thì trả lại vào dân số; tổng số mẫu

(Số trong ngoặc là số trung bình, x )

Lập bảng phân phối tần số của x

Trang 23

Dạng hàm số của PP dân số: Phân phối đơn đều

Trang 24

Phương sai của PP mẫu không bằng phương sai dân số, mà bằng phương sai dân số chia cho kích thước mẫu

2 2 x

84

σ

=

trung bình, hoặc gọi đơn giản là sai số chuẩn (standard error)

Đặc điểm của PP Trung bình mẫu

Khi lấy mẫu theo cách “để lại” hoặc lấy mẫu từ 1 dân số vô hạn

1 Từ một dân số phân phối bình thường, PP Trung bình mẫu có những đặc điểm sau:

+ Số trung bình,

x

từ đó các mẫu được rút ra

x

thước mẫu

2 Từ một dân số phân phối không bình thường

Lý thuyết giới hạn trung tâm (Central Limit Theorem)

có kích thước n từ dân số này) sẽ có số trung bình

x

x

sẽ phân phối gần như bình thường khi kích thước mẫu lớn

Trong thực tiễn, kích thước mẫu bằng 30 được xem là đủ lớn Nói chung, PP Trung bình

mẫu càng gần với bình thường hơn khi kích thước mẫu càng lớn.

Lấy mẫu “Không để lại” (without replacement)

Trong hầu hết các tình huống thực tế, việc lấy mẫu nhất thiết phải được thực hiện với 1 dân số hữu hạn và PP Trung bình mẫu trong những điều kiện này cũng có phần nào thay đổi

Với thí dụ dẫn nhập, nếu việc lấy mẫu được tiến hành theo cách “không để lại” và không

Số trung bình của phân phối x:

Trang 25

Phương sai của PP mẫu

2 i

81

correction) và có thể được bỏ qua khi kích thước mẫu tương đối nhỏ so với dân số

(n / N 0,05)

TÓM TẮT PHÂN PHỐI TRUNG BÌNH MẪU

1 Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối bình thường với phương sai

biết trước:

a µx= µ

b σx= σ/ n

c Phân phối trung bình mẫu là phân phối bình thường

2 Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối không bình thường với

phương sai biết trước:

Trang 26

Thí dụ áp dụng

Giả sử người ta biết được rằng chiều dài hộp sọ của 1 dân số người phân phối gần như bình thường với số trung bình là 185,6 mmm và ĐLC bằng 12,7 mmm Xác suất để tìm thấy 1 mẫu có n = 10 (rút ra từ dân số này) có số trung bình, x , lớn hơn 190 là bao nhiêu?

+ Mẫu khảo sát này (n = 10) chỉ là một trong rất nhiều mẫu có n = 10 rút ra từ dân số, như vậy số trung bình của nó sẽ là 1 trong rất nhiều x cấu tạo nên phân phối trung bình mẫu ((phát xuất từ dân số này)

+ Dân số khảo sát phân phối gần như bình thường, như vậy PP Trung bình mẫu cũng phân phối gần như bình thường với

x

nên có thể bỏ qua hệ số điều chỉnh dân số hữu hạn)

+ Áp dụng PP bình thường chuẩn để tính với công thức tính z biến đổi

z/ n

Trang 27

P(z > 1,09) = 1 – P(z ≤ 1,09) = 1 – 0,8621 = 0,1379

Xác suất để chọn được một mẫu n = 10 có x > 190 là 13,79%

III PHÂN PHỐI HIỆU CỦA 2 TRUNG BÌNH MẪU

Giới thiệu

không, và độ lớn của sự khác biệt giữa chúng (hiệu số) là bao nhiêu rất thường được tiến hành trong thực tế Sự hiểu biết về PP Hiệu của 2 trung bình mẫu rất hữu ích trong trường hợp này

Thí dụ chứng minh: Giả sử có 2 dân số – dân số 1 đã từng mắc một số bệnh có

liên quan với chậm phát triển tâm thần (mental retardation), và dân số 2 chưa từng mắc các bệnh có liên quan này Hệ số thông minh (HSTM) của hai dân số này được xem là phân phối gần như bình thường với ĐLC bằng 20

Giả sử từ mỗi dân số lấy 1 mẫu có n = 15, tính trung bình HSTM và có kết quả

1

bình thực sự của HSTM, thì xác suất để tìm được 1 hiệu lớn bằng hoặc lớn hơn

(x1−x2)

Thiết lập PP mẫu của(x1−x2)

+ Rút tất cả các mẫu (có thể rút được) có n1 = 15 từ dân số 1

+ Tính trung bình cho tất cả các mẫu trên

+ Lấy hiệu của từng cặp số trung bình mẫu (1 từ dân số 1, và 1 từ dân số 2)

+ Lập phân phối mẫu cho các hiệu đã tính được này

Đặc điểm của PP hiệu 2 trung bình mẫu

+ Phân phối bình thường

Trang 28

trong trường hợp không có sự khác biệt giữa 2 trung bình dân số được tính

3,53

0

13 −

3,53

Lấy mẫu từ các dân số PP bình thường

Lấy mẫu từ các dân số phân phối không bình thường hoặc không biết dạng phân phối:

Lấy mẫu lớn để áp dụng lý thuyết giới hạn trung tâm

IV PHÂN PHỐI TỈ LỆ MẪU (Distribution of the Sample Proportion)

Thí dụ chứng minh: Giả sử trong một dân số có 8% số người bị mù màu (p =

0,08) Nếu chọn ngẫu nhiên 150 người từ dân số này thì xác suất để có được tỉ lệ mù màu (của mẫu) lớn bằng hoặc lớn hơn 0,15 là bao nhiêu

Thiết lập PP mẫu của pˆ

(Cách tiến hành giống hệt như cách tiến hành thiết lập PP trung bình mẫu)

+ Rút tất cả các mẫu (có thể rút được) có n = 150 từ dân số

+ Tính tỉ lệ mẫu (sample proportion) pˆ cho tất cả các mẫu trên

+ Lập phân phối mẫu cho các pˆ đã tính được này

Đặc điểm của PP Tỉ lệ mẫu: khi cỡ mẫu lớn, PP Tỉ lệ mẫu phân phối gần như bình

bình cộng của tất cả các tỉ lệ mẫu), sẽ bằng với tỉ lệ dân số p, và phương sai của phân

Trang 29

Để trả lời câu hỏi, dùng PP bình thường chuẩn với

n

p p

p p

)1(

ˆ

00049,0

08,015,

0222,0

07,

tìm thấy một pˆ ≥ 0,15 của một mẫu có n = 150 từ một dân số có p = 0,08 là 0,08% Việc

rút được một mẫu như thế này, trong thực tế, được xem là hiếm xảy ra

Vấn đề kích thước mẫu lớn để có thể chuyển từ PP nhị phân sang PP bình thường

Tiêu chuẩn thường được áp dụng là khi cả np và n(1 – p) đều > 5

(Với n = 150 và p của dân số bằng 0,08: np (150 x 0,08) = 12, và nq (150 x 0,92) = 138

đều lớn hơn 5)

V PHÂN PHỐI HIỆU 2 TỈ LỆ MẪU

(Distribution of the Difference between Two Sample Proportions)

được rút ngẫu nhiên từ 2 dân số có các biến số nhị phân với tỉ lệ (đặc điểm được quan

=

−µ

Sai số chuẩn:

2

2 2 1

1 1 ˆ ˆ

) 1 ( ) 1 (

2

p p n

p p

p p

− +

=

+ Tính tỉ lệ mẫu cho tất cả các mẫu trên

+ Lấy hiệu của từng cặp tỉ lệ mẫu (1 từ dân số 1, và từ dân số 2)

+ Lập phân phối mẫu cho các hiệu đã tính được này

Xác suất của hiệu 2 tỉ lệ mẫu được tính bằng

2

2 2 1

1 1

2 1 2 1

11

ˆˆ

n

p p n

p p

p p p p z

−+

Thí dụ chứng minh : Giả sử tỉ lệ của người nghiện ma túy vừa và nặng trong dân số thứ 1

Trang 30

Giả định là phân phối mẫu của (p −ˆ1 pˆ2) là phân phối gần như bình thường với

17,033,050,0ˆ

004711,

0100

50,050,0100

67,033,0ˆ

ˆ

2

2 1

=

×+

×

=

Phần diện tích tương ứng với xác suất cần tìm là diện tích nằm dưới đường cong

89,1004711,

0

17,030,0)1()1

(

)(

)ˆˆ

(

2

2 2 1

1 1

2 1 2 1

=

=

−+

p p

p p p p

z

Tra bảng tìm thấy diện tích nằm dưới đường cong phân phối bình thường chuẩn ở phía bên phải của 1,89 bằng 1 - 0,9706 = 0,0294 Xác suất để tìm thấy một hiệu lớn hơn hoặc lớn bằng 0,30 là 2,94%

-

Trang 31

Ước lượng là một trong 2 lĩnh vực chung của thống kê suy luận Tiến trình ước

lượng như vậy sẽ bao gồm việc tính toán, từ số liệu của mẫu, một số số thống kê được

xem như đại biểu gần đúng của thông số tương ứng của dân số (mà từ đó mẫu được rút ra)

Cơ sở lý luận của phép ước lượng trong lĩnh vực khoa học sức khỏe dựa trên giả

định rằng người làm công tác y tế quan tâm đến những thông số, như số trung bình và tỉ

Lý do thứ nhất : Hầu hết các dân số, tuy là hữu hạn, nhưng cũng không thể khảo sát toàn

bộ (100%) được do vấn đề chi phí Lý do thứ hai: không có khả năng khảo sát đầy đủ các

dân số vô hạn

Đối với mỗi thông số, có thể tính được 2 loại số ước lượng: số ước lượng điểm (point estimate) và số ước lượng khoảng (interval estimate)

Định nghĩa:

+ Số ước lượng điểm là một giá trị đơn bằng số được dùng để ước lượng thông số

tương ứng của dân số

+ Số ước lượng khoảng gồm có 2 giá trị bằng số xác định 1 khoảng các giá trị, với

1 độ tin cậy cho trước, mà chúng ta tin rằng sẽ bao gồm thông số đang được ước

lượng

Công Cụ Ước Lượng (Estimator) thích hợp

Công cụ ước lượng là qui tắc tính các số ước lượng, thường được trình bày dưới dạng công thức Thí dụ:

n

x i

Dân số chọn mẫu (Sampled Population) và dân số đích (Target Population)

+ Dân số chọn mẫu là dân số mà từ đó người ta thực sự rút 1 mẫu ra

+ Dân số đích là dân số mà người ta muốn tìm một kết luận cho nó

Hai dân số này có thể giống nhau hoặc khác nhau Các phương pháp suy luận thống kê chỉ cho phép rút ra những kết luận về dân số chọn mẫu (với điều kiện phải áp dụng

phương pháp chọn mẫu thích hợp) Nếu:

Trang 32

– Dân số chọn mẫu = dân số đích: kết luận về dân số đích mang tính suy luận

thống kê

– Dân số chọn mẫu ≠ dân số đích: kết luận về dân số đích chỉ dựa trên các xem

xét không mang tính thống kê

Mẫu ngẫu nhiên (Random sample) và Mẫu không ngẫu nhiên (Nonrandom

sample)

Mẫu ngẫu nhiên : Nếu 1 mẫu có kích thước n được rút ra từ một dân số N theo cách mà tất cả các mẫu có kích thước n (có thể rút ra được từ N) đều có cơ hội bằng nhau

để được rút ra, thì mẫu này được gọi là mẫu ngẫu nhiên

Độ chính xác của các suy luận thống kê phụ thuộc rất lớn vào mẫu ngẫu nhiên

Mẫu không ngẫu nhiên (Mẫu thuận tiện): là mẫu được lấy không theo cách ngẫu nhiên Việc tổng quát hóa kết quả phải dựa nhiều trên những xem xét không có tính thống kê

II KHOẢNG TIN CẬY CHO TRUNG BÌNH DÂN SỐ

(Confidence Interval for a Population Mean)

Rút một mẫu ngẫu nhiên có kích thước n từ 1 dân số phân phối bình thường, tính x

Tuy có thểå dùng x làm số ước lượng điểm cho µ, nhưng không thể kỳ vọng là x bằng

µ được (vì tính không nhất quán của cách chọn mẫu) Do vậy, ước lượng µ bằng 1 khoảng (interval) sẽ phần nào chuyển tải được các thông tin về độ lớn có thể có của µ hơn

Phân phối mẫu và Phép ước lượng

Nhắc lại đặc điểm của PP Trung bình mẫu

Nếu việc lấy mẫu được tiến hành trên 1 dân số PP bình thường thì PP Trung bình mẫu

x&

& và σ2x&& =

n

2

giúp biết được rằng có khoảng 95% các giá trị của x (giúp cấu tạo nên phân phối) nằm

trong khoảng 2 ĐLC tính từ số trung bình Hai điểm cách đều số trung bình 1 khoảng

95% các giá trị có thể có của x

Phép ước lượng

với số ước lượng điểm của µ là x , vấn đề có thể giải quyết được Giả sử dựng được các khoảng cách đều 2 bên cho tất cả các x (tính được từ tất cả các mẫu có kích thước n rút

ra từ dân số có liên quan), chúng ta sẽ có 1 số lượng rất lớn các khoảng cách có dạng

x

Trang 33

Thí dụ chứng minh: Giả sử một nhà nghiên cứu quan tâm tâm đến việc tìm số ước lượng

của nồng độ trung bình của 1 số enzymes của dân số người Lấy 1 mẫu 10 người, đo nồng

độ enzyme cho từng người rồi tính trung bình mẫu, được x = 22 Giả sử biết được biến số

này phân phối gần như bình thường với phương sai bằng 45 Hãy ước lượng µ

Khoảng tin cậy 95% cho µ được tính bằng:

Khi lấy mẫu từ 1 dân số PP Bình thường với phương sai biết trước, khoảng ước

lượng cho µ được tính bởi:

Diễn giải Khoảng Tin Cậy (KTC)

95% các khoảng [được thiết lập theo biểu thức (1)] sẽ chứa trung bình dân số Có thể

tổng quát hóa diễn giải này nếu đặt toàn bộ phần diện tích dưới đường cong của x và

nằm ngoài khoảng µ ± σ là α, và phần diện tích nằm trong khoảng 2 x µ ± σ là (1– α) 2 x

Diễn giải theo xác suất : Trong trường hợp lấy mẫu lập lại nhiều lần, từ 1 dân số PP

Bình thường với ĐLC biết trước, 100(1–α)% của tất cả các khoảng có dạng

x±z(1−α/ 2)σ cuối cùng cũng sẽ chứa trung bình dân số, µ x

độ tin cậy), và khoảng x±z(1−α/ 2)σ được gọi là khoảng tin cậy 95% cho µ x

Diễn giải thực tế : Khi lấy mẫu từ 1 dân số PP Bình thường với ĐLC biết trước,

chúng

ta 100(1–α)% tin cậy là khoảng tính đơn lẻ, x±z(1−α/ 2)σ , có chứa trung bình dân số, µ x

HSTC trong thí dụ trên, được tính chính xác hơn, sẽ bằng 1,96 (thay vì 2) Trong các điều

kiện khác có thể dùng bất cứ HSTC nào, nhưng các giá trị thường dùng nhất là

Trang 34

Đại lượng có được do nhân HSTC với sai số chuẩn được gọi là độ tin cậy của số ước

lượng (còn gọi là biên của sai số)

III PHÂN PHỐI t (Student’s t distribution)

Việc thiết lập KTC 95% cho một trung bình dân số (trường hợp dân số PP Bình thường hoặc lấy mẫu lớn) sẽ dường như không thực hiện được nếu không biết σ Tuy

Khi chỉ có mẫu nhỏ (n < 30), biện pháp thay thế để thiết lập các KTC là dùng phân phối t (phân phối Student)

n s

x

/

µ

Đặc điểm của PP t

– Có số trung bình bằng 0

– Đối xứng xung quanh số trung bình

– Có phương sai > 1, nhưng phương sai sẽ tiến đến 1 khi cỡ mẫu lớn dần lên Phương

(n–1) được xem là độ tự do

– So sánh với PP Bình thường thì PP t có đỉnh không cao bằng, nhưng lại có đuôi

nằm cao hơn

Trang 35

KTC dùng t CCƯL ± (HSTC) x (Sai số chuẩn)

Khi lấy mẫu từ một dân số PP Bình thường có ĐLC, σ, không được biết, KTC 100(1–α)% cho trung bình dân số được cho bởi

n

s t

x± (1−α/2)

Lưu ý : để dùng được PP t việc lấy mẫu phải được tiến hành trên 1 dân số có PP Bình thường hoặc gần như bình thường

Thí dụ chứng minh: một mẫu gồm 16 bé gái 10 tuổi cho cân nặng trung bình là 71,5

pounds và ĐLC là 12 pounds Giả định là tuổi của các bé gái này PP Bình thường, tìm KTC 95% cho µ

– Dùng trung bình mẫu, 71,5 là số ước lượng điểm của µ

– Sai số chuẩn bằng s/ n = 12/ 16 = 3

– Độ tự do, df = n–1=16–1= 15

Tra bảng để có t(1−α/2) =t0,975= 2,1315

IV KTC CHO HIỆU 2 TRUNG BÌNH DÂN SỐ

Khi lấy mẫu từ hai dân số PP Bình thường với các phương sai biết trước

2 2 1

1 ) 2 / 1 ( 2

(

n n x

Thí dụ chứng minh: một nhóm nghiên cứu quan tâm đến sự khác biệt về nồng độ

uric acid trong huyết thanh ở bệnh nhân không có và bệnh nhân có H/C Down

Từ 1 bệnh viện điều trị trẻ chậm phát triển trí tuệ:

Từ 1 bệnh viện đa khoa:

Giả định rằng 2 dân số (các giá trị nồng độ uric acid) trên PP Bình thường với phương sai

– Số ước lượng điểm cho (µ1–µ2) bằng: x −1 x2= 4,5 – 3,4 = 1,1

– HSTC tương ứng với 0,95 (tra bảng PP Bình thường) là 1,96

– Sai số chuẩn

Trang 36

5,112

12

2 1

1

2 1

+

=+

=

n n

x

x

σσ

KTC 95% bằng

1,94 (vì khi lấy mẫu lập lại nhiều lần, 95% các KTC dựng lên theo cách này sẽ chứa hiệu của 2 dân số)

Khi lấy mẫu từ hai dân số PP không bình thường: lấy mẫu lớn để áp dụng lý thuyết

giới hạn trung tâm Trong trường hợp này nếu phương sai của 2 dân số không được biết, dùng phương sai của 2 mẫu làm số ước lượng của chúng

Khi lấy mẫu từ hai dân số PP B.thường với các phương sai không biết trước + n nhỏ

Trường hợp phương sai dân số bằng nhau (đồng phương sai):

Phải tính số ước lượng hợp (pooled estimate) của đồng phương sai

2

)1()1(

2 1

2 2 2 2 1 1 2

−+

−+

=

n n

s n s n

sp

Sai số chuẩn được cho bởi

2 2

x x

s&− && = +

2 2

1

2 ) 2 / 1 ( 2 1

n

s n

s x

Thí dụ chứng minh: Một nghiên cứu nhằm xác định hiệu quả của việc tập thể dục kéo

dài trên sức bền Chọn hai nhóm người: nhóm 1 đã tham gia chương trình tập thể lực và duy trì tập trung bình 13 năm; nhóm 2 bao gồm những người không tập bao giờ Sức bền được đánh giá qua số lần ngồi lên trong 30 giây

)6,5)(

117()9,4)(

113

2

−+

−+

Trang 37

KTC 95% bằng

17

21,2813

21,28

4,9 12,9

Chúng ta 95% tin tưởng rằng hiệu của 2 trung bình dân số nằm đâu đó trong khoảng 4,9 và 12,9

Trường hợp phương sai dân số không bằng nhau

(1-α/2)

t’

(1-α/2) =

2 1

2 2 1 1

w w

t w t w

1

2 ) 2 / 1 ( 2 1

n

s n

s x

V KTC CHO TỈ LỆ DÂN SỐ

Thí dụ chứng minh: Tại 1 BV Tâm Thần, trong 1 mẫu 591 người nhập viện có 204 người

đã dùng cần sa ít nhất 1 lần trong đời Thiết lập KTC 95% cho tỉ lệ người dùng cần sa của dân số chọn mẫu này

Số ước lượng điểm của tỉ lệ dân số (p) là p) = 204/591 = 0,3452

Kích thước mẫu và p) đủ lớn để có thể dùng PP Bình thường chuẩn khi thiết lập KTC HSTC tương ứng với KTC 95% là 1,96

Số ước lượng của sai số chuẩn σp) = p( −1 p)/n= (0,3452)(0,6548)/591 = 0,01956

KTC 95% cho p

0,3069 0,3835

Trang 38

VI KTC CHO HIỆU CỦA 2 TỈ LỆ DÂN SỐ

giới hạn trung tâm để dùng PP Bình thường Sai số chuẩn của số ước lượng được ước lượng bằng

2

2 2 1

p p

p p

))))

2

2 2 1

1 1 ) 2 / 1 ( 2 1

)1()1()

(

n

p p n

p p p

)))))

Trang 39

Bài 6

KIỂM ĐỊNH GIẢ THUYẾT

(Hypothesis Testing)

I GIỚI THIỆU

Cũng giống như phép ước lượng, mục đích của kiểm định giả thuyết (KĐGT) nhằm giúp

đạt được một kết luận liên quan đến 1 dân số bằng cách khảo sát 1 mẫu rút ra từ dân số đó

1 Khái niệm cơ bản

Một giả thuyết (hypothesis) có thể được định nghĩa là một phát biểu về một hoặc nhiều

dân số

Giả thuyết thường liên quan với các thông số của những dân số được phát biểu đến Bằng cách KĐGT người ta xác định được là các phát biểu này có phù hợp với số liệu có sẵn hay không

2 Loại giả thuyết: có hai loại giả thuyết: giả thuyết nghiên cứu và giả thuyết thống kê

Giả thuyết nghiên cứu là sự ức đoán hoặc giả định thúc đẩy việc nghiên cứu Giả thuyết nghiên cứu dẫn trực tiếp đến giả thuyết thống kê

Giả thuyết thống kê là những giả thuyết được phát biểu sao cho chúng có thể được lượng giá bằng những kỹ thuật thống kê thích hợp

3 Các bước KĐGT: phương pháp chín bước

3.1 Số liệu (Data) : Bản chất của số liệu làm cơ sở cho phương pháp kiểm định phải được

biết rõ

3.2 Giả định (Assumptions): Các giả định quan trọng trong phép ước lượng cũng quan

trọng trong KĐGT, bao gồm: phân phối bình thường của dân số, phương sai bằng nhau, mẫu độc lập

3.3 Giả thuyết (Hypothesis): Trong KĐGT có 2 giả thuyết thống kê,

Giả thuyết trống (Null hypothesis): là giả thuyết cần được kiểm định Ký hiệu H0

Đôi khi được gọi là giả thuyết về sự không khác biệt, vì là phát biểu đồng ý với (hoặc

không khác biệt) những điều kiện được giả định là đúng trong dân số được quan tâm

Nói chung, giả thuyết trống được thiết lập nhằm mục đích đặc biệt là để bị phủ định

Trong tiến trình kiểm định H 0 hoặc bị từ chối hoặc không bị từ chối Nếu H0 không bị từ chối, chúng ta nói rằng số liệu để tiến hành kiểm định không cung cấp đủ bằng chứng để đưa đến sự từ chối Nếu tiến trình kiểm định đưa đến sự từ chối, chúng ta nói rằng số liệu hiện có không thích hợp với H0, nhưng lại thích hợp với 1 số giả thuyết khác

Giả thuyết thay thế (Alternative hypothesis): ký hiệu HA, là 1 phát biểu về điều chúng ta sẽ tin là đúng nếu số liệu của mẫu làm cho ta phải từ chối H0 Thông thường, giả thuyết thay thế và giả thuyết nghiên cứu giống nhau

Trang 40

Qui tắc phát biểu giả thuyết thống kê

+ Kết quả mà ta hi vọng hoặc mong muốn có được từ phép kiểm thường được đặt

trong HA

+ H0 phải bao gồm 1 phát biểu về đẳng thức (= , ≤ , ≥ )

+ H0 là giả thuyết cần được kiểm định

+ H0 và HA được xem là hai tập hợp phụ của nhau

Thí dụ:

Giả sử chúng ta muốn trả lời câu hỏi:

Có thể kết luận là trung bình dân số không bằng 50 không?

Lưu ý: Khi không thể từ chối H0 (chấp nhận H0), không được nói là H0 đúng, mà chỉ

nói là “có thể đúng”

3.4 Số thống kê kiểm định (Test Statistic): là các số thống kê có thể tính được từ số liệu

của mẫu Số thống kê kiểm định (số TKKĐ) đóng vai trò “ra quyết định”, vì quyết

định từ chối hoặc không từ chối tùy thuộc vào độ lớn của số TKKĐ Một thí dụ của số

TKKĐ là đại lượng

µ0 là giá trị của trung bình dân số theo giả thuyết

Công thức chung để tính số TKKĐ

Số thống kê sát hợp – thông số theo giả thuyết

Số TK kiểm định =

sai số chuẩn của số thống kê sát hợp

3.5 Phân phối của số TKKĐ (Distribution of the Test Statistic): cần phải cho biết rõ phân

phối xác suất của số TKKĐ Thí dụ: phân phối của số TKKĐ

− là PP Bình thường chuẩn nếu H0 đúng và các giả định được thỏa

3.6 Qui tắc quyết định (Decision Rule): Tất cả các giá trị mà số TKKĐ có thể giả định là

những điểm nằm trên trục hoành của đồ thị phân phối số TKKĐ và được chia làm 2

nhóm : một nhóm cấu tạo nên vùng từ chối, và nhóm kia cấu tạo nên vùng không từ chối

Các giá trị của số TKKĐ cấu tạo nên vùng từ chối là những giá trị ít có khả năng xảy ra nếu H0 đúng

Qui tắc quyết định bảo ta :

+ Từ chối H 0 nếu giá trị của số TKKĐ tính được từ mẫu là 1 trong những giá trị nằm trong vùng từ chối

+ Không từ chối H 0 nếu giá trị của số TKKĐ tính được từ mẫu là 1 trong những giá trị nằm trong vùng không từ chối.

Ngày đăng: 20/12/2022, 15:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w