So sánh một số trung bình quan sát với một số trung bình lý thuyết Trường hợp này thường gặp trong so sánh với hằng số sinh học hoặc một nghiên cứu lớn nào trước đó cho ta X lý thuyết v
Trang 1KIỂM ĐỊNH CÁC GIẢ THIẾT THỐNG KÊ VÀ CÁC QUY
LUẬT PHÂN PHỐI TRONG NGHIÊN CỨU
Trong nghiên cứu dù là mô tả hay phân tích người ta đều cần phải so sánh các kết quả nghiên cứu với nhau hoặc với hằng số tương ứng xem có sự trùng lặp hoặc khác nhau hay không? Cũng như xem khả năng can thiệp nào sẽ đem lại hiệu quả tất hơn? Trong nghiên cứu kiểm định người ta thường dùng hai loại test là test t và test χ2 (test khi bình phương)
1 Kiểm định bằng test “t”
Thử nghiệm này thường dùng để kiểm định các trị số trung bình, các tỷ lệ quan sát của mẫu nghiên cứu trên cơ sở các số liệu mang tính chất hệ thống hoặc mẫu lớn
1.1 So sánh hai số trung bình quan sát
Vấn đề này thường gặp trong nghiên cứu y sinh học
Nếu mẫu nghiên cứu có n nhỏ hơn 30 thì công thức tính t sẽ là:
Sau khi tính được trị số “t” ta cần tìm độ tự do rồi tra bảng “t” để tìm giá trị xác suất p Độ tự do được tính bằng tích của từng các dữ liệu so sánh (số cột) trừ 1 nhân
với tổng các số liệu so sánh ở mỗi cột (hàng) trừ 1 Tuy vậy, dù độ tự do bằng bao
nhiêu (→ ∞) thì xác suất đều đạt được p < 0,05 khi t > 1,96 (ít nhất là khi n > 30) Khi đặt vấn đề nghiên cứu, ta có thể đặt giả thuyết H0 (null hypothesis) là giả thiết cho rằng hai số trung bình nằm trong sự chi phối của quần thể, nên không khác nhau hoặc tương tự như nhau
Sau đó nhờ thử nghiệm bằng test “t” hoặc “χ2” ta đi tới phủ nhận hoặc chấp nhận giả thiết H0
Ví dụ: Từ một bài toán đã cho ta tính được các giá trị
Trang 2X A = 21,06 X B = 21,33
nA = 815nB = 200
SA = l,61SB = 1,6
Ứng dụng công thức ta có:
Vậy hai số trung bình quan sát A và B khác nhau có ý nghĩa với P < 0,05 Phủ nhận giả thuyết H0 (tra bảng t)
1.2 So sánh một số trung bình quan sát với một số trung bình lý thuyết
Trường hợp này thường gặp trong so sánh với hằng số sinh học hoặc một nghiên cứu lớn nào trước đó cho ta X lý thuyết và S lý thuyết, công thức tính như sau:
Trong đó:
X qs: X quan sát
X lt: X lý thuyết
Xlt = S lý thuyết
Nếu n < 30 ta có công thức sau:
Sau khi tìm được “t” ta cũng tra bảng và xem xét, đánh giá như test “t” ở phần
“ So sánh hai số trung bình quan sát” Nếu t ≥ 1,96 ⇒ bác bỏ H0 với mức ý nghĩa thống kê P ≤ 0,05 Nếu t < 1,96 ⇒ chấp nhận H0 với mức ý nghĩa thấp, (p > 0,05)
1.3 So sánh hai tỷ lệ quan sát
Khi nghiên cứu bệnh lý có thể cho các tỷ lệ cũng như các nghiên cứu mẫu lớn có
tỷ lệ, ta có thể tính “t” theo công thức sau:
Trang 3* PA và PB là hai tỷ lệ quan sát ở mẫu A và B
Sau khi tính được “t” ta lại tra bảng “t” để tìm P như phần 1.1
1.4 So sánh một tỷ lệ quan sát với một tỷ lệ lý thuyết
công thức sẽ tính là:
Trong đó:
P0 = Tỷ lệ quan sát
P = Tỷ lệ lý thuyết
n = Tổng cá thể ở mẫu quan sát
2 Kiểm định bằng test “χ2 ”
Đây cũng là một kiểm định luật xác suất dự đoán ra sao so với một vấn đề thực
nghiệm hoặc điều tra nghiên cứu quan hệ nhân quả Trên cơ sở những số liệu nghiên
cứu có mẫu không lớn lắm hoặc không sử dụng được test t
Để đánh giá sự phù hợp hay khác biệt của các phân số, Pearson đưa ra công thức:
Muốn tìm χ2 người ta phải lập bảng “tiếp liên” với cấu tạo bằng nhiều hàng và cột Nếu một nghiên cứu có hai loại số liệu tương ứng ta sẽ có bảng “tiếp liên” 4 ô (a,
b, c, d)
Bảng tiếp liên
Bệnh
Tiếp xúc (exp +) a b a + b
Không tiếp xúc (exp -) c d c + d
Σ a + c b + d a + b + c + d (N)
Trang 4Trong công thức oi là các trị số quan sát a, b, c, d Còn ei là các trị số tần số lý
thuyết (trị số mong đợi) tương ứng với các ô: a, b, c, d
Cách tính tần số lý thuyết như sau:
Tổng hàng x tổng cột
e i =
Tổng chung (N)
Ví dụ:
(a+c)x(a+b)
e i =
N
Công thức cụ thể trong trường hợp bảng 4 ô sẽ là:
Nếu có nhiều hàng cột thì phải tính χ2 theo công thức tổng quát ban đầu: Sau khi
tính được giá trị χ2 ta cũng tìm bậc tự do (tổng hàng trừ 1 nhân với tổng cột trừ 1), sau
đó tra bảng χ2 để tìm p
Ví dụ: ở một trại chăn nuôi lợn, người ta đã sử dụng một loại lá cây có giá trị
phòng bệnh lở mồm long móng, dựa theo một bài thuốc dân gian cho vào thức ăn cho
một lô lợn thí nghiệm (Lô I) và một lô khác(Lô II) thì không cho ăn loại lá đó Sau 4
tháng vụ dịch thường niên đã xảy ra người ta tổng kết sự lây lan bệnh và khả năng bảo
vệ bằng cách kiểm định thống kê như sau: (trang bên)
Số lợn nuôi của 2 lô
Lô Khoẻ mạnh Bị bệnh Cộng
(Lô I) a
202
b
23
225
(Lô II) c
340
d
28
368
Để xem xét khả năng bảo vệ đàn lợn của hai lô có khác nhau không ta phải tính
χ2
Trước hết ta tính các trị số (tần sô) lý thuyết và sẽ có:
Trang 5Ở đây bậc tự do bằng 1 nên ta thấy nếu χ2 = 3,841 mới có p = 0,05, do vậy tỷ lệ lợn nuôi khoẻ mạnh và bị bệnh của hai lô giống nhau hoặc là loại lá cây không có giá trị phòng bệnh lở mồm long móng nên tỷ lệ bệnh tương tự như nhau
Nếu tần số lý thuyết ei nhỏ hơn 5 thì công thức tính χ2 có thể ứng dụng ở dạng sau:
3 Số đo kết hợp nhân quả
Để đánh giá nguy cơ phơi nhiễm (expose) với các yếu tố nguy cơ sẽ gây nên hậu quả bệnh lý hay không, qua bảng tiếp liên (expose và disease) ta có thể xác định được các số đo kết hợp nhân quả sau đây:
3.1 Chỉ số nguy cơ tương đối (Relative Risk = RR)
Chỉ số này kiểm định một giả thiết nhân quả, xem có đúng là có sự kết hợp giữa một yếu tố nguy cơ và một bệnh tương ứng Chỉ số này được ứng dụng trong nghiên cứu thuần tập và nếu như có kết hợp thì sự kết hợp đó phải được đánh giá mức độ lớn hay nhỏ Nguy cơ tương đối RR được tính bằng công thức sau:
Tỷ lệ mắc trong nhóm phơi nhiễm I c
RR =
Tỷ lệ mắc trong nhóm không phơi nhiễm = I 0
Nếu RR > 1 thì yếu tố nguy cơ có thể là nguyên nhân gây nên hậu quả bệnh lý tương ứng
Chỉ số này không được ứng dụng trong nghiên cứu khác như nghiên cứu mô tả, bệnh chứng Như vậy, trong nghiên cứu mô tả hoặc nghiên cứu bệnh chứng, đặc biệt khi mà tần suất mắc bệnh trong nhóm chủ cứu thấp hoặc ta không theo dõi được, ta có thể tính xấp xỉ dưới dạng tỷ suất chênh lệch (Odds Radio) viết tắt là OR
Chỉ số này có nghĩa khi OR > 1 Chỉ số này được dùng trong nghiên cứu mô tả theo diện cắt ngang là thông dụng nhất, song cần kiểm định lại bằng test χ2
3.2 Chỉ số nguy cơ quy thuộc (attributable risk = AR)
Chỉ số này dùng để đánh giá yếu tố nguy cơ cao hay thấp hay tính phụ thuộc trong quan hệ nhân quả Chỉ số AR được tính theo công thức sau:
Trang 6Thông qua chỉ số này ta có thể tính được mức độ nguy cơ cao thấp hay xác định được giải pháp ưu tiên trong phép tối ưu hoá Đặc biệt trong nghiên cứu ở cộng đồng xác định nguy cơ quy thuộc trong quần thể (Population Attrthutable Ri8k) được ứng dụng bởi tác giả Le vin 1953, là một phép tính hữu ích đem lại nhiều ý nghĩa trong đánh giá và lượng giá quan hệ nhân quả
Ví dụ: Nguy cơ gây nên bệnh A có thể có rất nhiều yếu tố tiếp xúc X, Y, Z khi tính AR ta được:
ARX = 1,6
ARV = 1,4
ARZ = 0,7
Ta kết luận nguy cơ X là chỉ số cao nhất, tác động mạnh hơn các yếu tố khác còn lại
Nguy cơ quy thuộc phần trăm (AR%) cũng thường được sử dụng
Công thức tính như sau:
Trong một số nghiên cứu, nếu gặp sự nghi ngờ với số liệu mà ta cho là chưa chắc chắn hoặc không theo dõi được, phân biệt được chính xác thì AR% có thể được tính theo công thức sau:
Nguy cơ quy thuộc trong quần thể (Population Attributable Risk) (PAR)
PAR được tính bằng tỷ suất của hiệu số mới mắc ít trong quần thể toàn bộ và số mới mắc ro trong các cá thể không phơi nhiễm và số mới mắc Ii trong quần thể toàn
bộ
Tương tự:
Trong đó ItR là tỷ lệ mới mắc của bệnh trong quẩn thể toàn bộ
Bài tập 1
Một nghiên cứu cắt ngang về hàm lượng hoá chất bảo vệ thực vật Wofatox trong
Trang 7mồ hôi (g/m2 da/ 4giờ lao động) ở những người tiếp xúc trực tiếp thuộc hai nhóm
nông dân (Trồng rau - Nhóm A và Trồng lúa - Nhóm B), các tác giả thu được kết quả
như sau:
xi ni xi ni 0,8 4 0,8 5 1,0 6 1,0 8 1,2 8 1,2 12 1,4 9 1,4 15 1,6 11 1,6 24 1,8 17 1,8 35 2,0 18 2,0 49 2,2 24 2,2 92 2,4 37 2,4 106 2,6 44 2,6 85 2,8 32 2,8 75 3,0 21 3,0 63 3,2 18 3,2 41 3,4 9 3,4 13 2,24 7 2,24 25
Hãy đánh giá xem mức độ độc hại do bị nhiễm hoá chất bảo vệ thực vật Wofatox
ở 2 nhóm có nguy hại như nhau không?
Bài tập 2
Một nghiên cứu về ảnh hưởng của hoá chất bảo vệ thực vật đối với các rối loạn
thần kinh thực vật được tiến hành theo dõi 2 năm từ những người khoẻ mạnh và chia
làm hai nhóm Nhóm thứ nhất có 368 người trực tiếp phun hóa chất bảo vệ thực vật
cho rau màu, sau hai năm xuất hiện 75 người bị bệnh Nhóm thứ hai có 327 người ở
cùng khu vực song tiếp xúc với hóa chất bảo vệ thực vật bất kỳ dạng nào, sau hai năm
chỉ xuất hiện 19 người bị bệnh Phải chăng hóa chất bảo vệ thực vật có phải là nguy cơ
và có mối liên quan đối với các rối loạn thần kinh thực vật ở người tiếp xúc?
Với dữ kiện đã cho ở 2 bài toán trên ta cần phải chọn xem phương pháp kiểm
định nào sẽ giúp ta đánh giá sự khác biệt hoặc có liên quan hay không giữa các nhóm
số liệu nghiên cứu đã thu được? Tuy nhiên dù phương pháp nào ta cũng cần đặt giả
thuyết (Ha) hoặc (Ho) sau đó mới chứng minh Nếu dùng test “t” thì cần thiết phải xác
định các giá trị trung bình, độ phân tán của các số liệu nghiên cứu đã thu được sau đó
lập bảng tính mà trong đó các cột sẽ tương ứng với các thành phần, tổ hợp nhỏ nhất
trong công thức Nếu dùng test χ2 tq thì việc lập bảng tiếp liên đóng vai trò hết sức quan
trọng Nếu lập bảng tiếp liên đúng thì coi như công việc kiểm định đã hoàn thành 30%
Tuy nhiên ở bài toán 2 ta cần xác định chỉ số nguy cơ tương đối trước để kết luận xem:
“Phải chăng hóa chất bảo vệ thực vật có phải là nguy cơ đối với các rối loạn thần kinh
Trang 8thực vật ở người tiếp xúc?”
Kết quả thu được ta sẽ tra bảng “t” hoặc “χ2 ” để xác định xác suất P và kết luận Một điểm cần lưu ý là phải kết luận chính xác song vẫn ở mức an toàn bởi nghiên cứu của chúng ta thường là có cỡ mẫu tối thiểu nên có rất nhiều yếu tố nhiễu xen vào vì thế nên kết luận thận trọng của nhà nghiên cứu trong Y học là điều không bao giờ thừa
Trang 9PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY
1 Một số khái niệm
1.1 Liên hệ hàm số
Là mối liên hệ giữa hai đại lượng có tính chất sau: ứng với mỗi giá trị xác định bất kỳ của đại lượng này (từ tập hợp có nghĩa của nó) có và chỉ có một giá trị xác định của đại lượng kia Ví dụ: Mối liên hệ hàm số: chu vi S và bán kính r của đường tròn là:
S = 2πr
1.2 Liên hệ ngẫu nhiên
Trong nghiên cứu y sinh học có thể gặp một hình thái liên hệ khác đó là liên hệ ngẫu nhiên Môi liên hệ ngẫu nhiên giữa hai đại lượng được xác định khi nó thoả mãn tính chất sau:
Nếu ứng với giá trị bất kỳ của đại lượng này thì đại lượng kia vẫn còn là ngẫu nhiên và có thể nhận những giá trị khác nhau với xác suất nhất định Ví dụ: cùng trong điều kiện môi trường như nhau, năng suất sinh khối của nấm men Sacharomyces cerevisiae là khác nhau ở các ống nghiệm của cùng lô thí nghiệm
Những mối liên hệ tương quan và hồi quy là những trường hợp riêng của hình thái liên hệ ngẫu nhiên
1.2.1 Tương quan
Hai đại lượng ngẫu nhiên được gọi là có một liên hệ tương quan nếu kỳ vọng toán học của một trong hai đại lượng này thay đổi tuỳ thuộc vào sự thay đổi của đại lượng kia Phương pháp thống kê toán học nghiên cứu các mối liên hệ tương quan giữa các hiện tượng gọi là phân tích tương quan
Điều kiện để phân tích tương quan
1- Các đại lượng ngẫu nhiên X1, X2,… Xn có thể xem như mẫu của một tập hợp tổng quát 2 (hoặc n) chiều với luật phân bố chuẩn
2- Giá trị của quan trắc không phụ thuộc vào giá trị những quan trắc trước và sau Chúng là các giá trị độc lập, ngẫu nhiên
3- Khi thay đổi định lượng Xi + 1, phương sai của đại lượng ngẫu nhiên Xi không đổi hoặc tỷ lệ với một hàm số đã xét nào đó của Xi + 1
4- Kỳ vọng toán học nào đó của đại lượng Xi, khi Xi + 1 nhận được một giá trị xác định, có thể biểu diễn dưới dạng hàm Xi = f (xi + 1), tuyến tính đối với những tham số nhất định
1.2.2 Hồi quy
Trang 10Liên hệ hồi quy là mối liên hệ giữa hai đại lượng không ngẫu nhiên Phương pháp toán học phân tích những mối liên hệ ấy gọi là phân tích hồi quy Điều kiện để phân tích hồi quy đã được mô tả ở các mục 2, 3, 4 của (l.2.l - Điều kiện để phân tích tương quan) Như vậy phân tích tương quan thực chất là trường hợp riêng của phân tích hồi quy Khi thoả mãn các điều kiện để phân tích tương quan thì cũng thoả mãn mọi điều kiện để phân tích hồi quy
Lưu ý: Phân tích hồi quy lấy biến ngẫu nhiên làm hàm số (y), còn biến không
ngẫu nhiên làm biến số (x)
2 Phân tích tương quan và hồi quy cặp
2.1 Tương quan
Liên hệ thống kê hay liên hệ tương quan được xác định bởi dạng, hướng và mức
độ tương quan
* Dạng: Tương quan tuyến tính hay tương quan phi tuyến
* Hướng: Tương quan cùng chiều (+) hay tương quan ngược chiều (-)
* Mức độ: Đánh giá bằng giá trị của đại lượng Rxy cho tương quan tuyến tính và đại lượng ηx/y hoặc ηy/x cho tương quan phi tuyến
2.2 Tương quan tuyến tính
2.2.1 Công thức
Khi xét một liên hệ ngẫu nhiên giữa hai đại lượng, chẳng hạn đường kính rễ và chiều cao của cây cao su, giữa hàm lượng mỡ trong sữa bò, hàm lượng Chì trong máu của công nhân kim loại màu ở các xí nghiệp khác nhau được theo dõi nhiều lần trong năm cần đánh giá và kiểm tra giả thiết về sự có mặt một mối liên hệ giữa hai đại lượng, hai quá trình nào đó trong sinh học, về mức độ chặt chẽ của sự liên hệ này, người ta dùng hệ số tương quan Rxy Hệ số này được tính như sau:
Trong đó: n: Kích thước mẫu nghiên cứu
x : Trung bình của đại lượng xi
y : Trung bình của đại lượng yi
Sx, Sy: Độ lệch chuẩn của xi và yi Công thức viết lại để tính bằng máy tính bỏ túi như sau:
Trang 11Hệ số Rxy biến thiên trong khoảng (- 1 → + 1)
* Khi Rxy = ± l, lúc này giữa x và y có một liên hệ hàm số tuyến tính, thuận (+), nghịch (-)
* Rxy = 0, giữa x và y không có mối liên hệ nào cả
* Khi | Rxy | càng gần 1 thì x và y có một liên hệ tương quan tuyến tính càng chặt chẽ hơn
Khi | Rxy | càng gần 0 thì một tương quan tuyến tính giữa x và y càng lỏng lẻo Người ta thường lấy các mốc sau đây để tính một liên hệ tương quan tuyến tính càng chặt chẽ hay không: Rxy < 0,3; Rxy = 0,3 - 0,6; Rxy > 0,6
Giá trị của hệ số tương quan cặp là một đại lượng ngẫu nhiên, phụ thuộc vào kích thước mẫu Khi kích thước mẫu giảm thì độ tin của hệ thống tương quan sẽ giam
2.2.2 Bài toán
Nghiên cứu mỗi tương quan giữa liều độc X với độ sống sót Y của chuột nhắt trắng, khi làm thí nghiệm ta thu được kết quả tính theo đơn vị liều độc và đơn vị thời gian sống như sau:
Bảng: Kết quả thí nghiệm của bài toán
X 0 1 2 3 4 5 6
Y 4,25 3 3 1,75 1,5 05 0 25
Hãy đánh giá một tương quan giữa liều độc X và thời gian sống sót Y theo số liệu trên
Bài giải
Từ công thức trên, ta đặt các biến thiên như sau:
Đối với tử số: * A = n.Σxi.yi
* B2 = Σyi
Đối với mẫu số:
Trang 12Tính cụ thể cho bài toán, được như sau:
Rxy mang giá trị (-), đây là mối tương quan ngược chiều, liều độc càng cao thì thời gian sống sót của chuột càng giảm
2.3 Đánh giá mức xác suất tin cậy của hệ số tương quan:
2.3.1 Công thức
Hệ số tương quan mẫu dùng làm ước lượng cho hệ số tương quan tổng thể Như vậy bản thân Rxy xem như đại lượng ngẫu nhiên Do đó sẽ có một sai số được xác định như sau:
Trường hợp n ≤ 100, ta tính sai số Sr theo công thức sau:
Người ta dùng tỷ số giữa tương quan mẫu và sai số Sr làm tiêu chuẩn để kiểm định giả thiết H0 với mức ý nghĩa α nào đó
Tính được ttn so sánh với ta như sau:
- Nếu ttn > tα Hệ số Rxy được chấp nhận, giữa xi và yi có mối tương quan tuyến
tính, kết luận này tin cậy ở mức ý nghĩa α hay p = 1 - α
- Nếu ttn < tα Hệ số Rxy không được chấp nhận, không có một tương quan tuyến tính giữa xi và yi, kết luận này tin cậy ở mức ý nghĩa α
2.3.2 Ví dụ