1. Trang chủ
  2. » Giáo án - Bài giảng

Bài giảng hồi quy SPSS

47 737 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 732,89 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

pylori theo các nhóm nghề nghiệp Hồi quy tuyến tính: vấn đề Trong chương trước, chúng ta đã bàn luận về mô hình hồi quy tuyến tính linear regression trong việc xem xét mối quan hệ giữ

Trang 1

1

HỒI QUY LOGISTICS Mục tiêu:

Sau khi học xong bài này, học viên có khả năng:

1 Trình bày được nguyên lý của hồi quy logistic

2 Trình bày được các bước xây dựng mô hình hồi quy logistic

3 Kiểm soát được các vấn đề khi thực hiện hồi quy logistic

4 Thực hiện được phân tích trên SPSS và phiên giải kết quả

1.1 Giới thiệu

Nguy cơ và yếu tố nguy cơ

Trong dịch tễ học, chúng ta thường quan tâm đánh giá “cơ hội” một người bị phơi nhiễm với một yếu tố nào đó sẽ dẫn đến bệnh Dễ hiểu hơn, con số đo lường dịch tễ học cơ bản nhất của việc đánh giá này chính là xác suất Đó chính là xác suất một người sẽ bị bệnh khi tiếp xúc với một phơi nhiễm cụ thể nào đó Đo lường này gọi là nguy cơ

Vậy, nguy cơ là xác suất mắc bệnh của một người khi tiếp xúc với một phơi nhiễm nào

đó Yếu tố phơi nhiễm này được gọi là yếu tố nguy cơ

Như vậy, giả sử chúng ta có n đối tượng có tiếp xúc với phơi nhiễm, trong đó, có e đối tượng bị bệnh, chúng ta gọi nguy cơ bị bệnh khi tiếp xúc với phơi nhiễm này là r = e/n

Xác định yếu tố nguy cơ

Trong các nghiên cứu dịch tễ học, chúng ta thường quan tâm đến việc xác định một yếu

tố nguy cơ nào đó có liên quan đến một tình trạng sức khỏe quan tâm như bệnh tật hoặc

tử vong Nếu chúng ta muốn phát triển mô hình thống kê để biểu diễn mối liên quan giữa

yếu tố nguy cơ và bệnh, thông thường chúng ta sẽ xem yếu tố nguy cơ là biến x và bệnh – kết quả quan tâm – là biến y trong mô hình hồi quy Khi đó, có thể hiểu nôm na rằng biến

x là nguyên nhân của biến y, biến kết quả Trong rất nhiều trường hợp, kết quả quan tâm

là có bệnh hoặc không có bệnh, nói cách khác, chỉ có 2 giá trị Biến y được gọi là biến nhị phân Xem xét ví dụ:

Yếu tố nguy cơ x có nhiều mức độ, x 1 , x 2 , …, x l

Tương ứng với từng mức độ của yếu tố nguy cơ, có n 1 , n 2 , …, n l đối tượng phơi nhiễm

Trong đó, tương tự có e 1 , e 2 , …, e l đối tượng bị bệnh Khi đó, chúng ta có tỷ lệ bị bệnh của các đối tượng bị phơi nhiễm tương ứng từng mức độ yếu tố nguy cơ, tỷ lệ này còn gọi là nguy cơ theo khái niệm được nêu ở trên

Trang 2

Bảng 2 là kết quả nghiên cứu về nguy cơ nhiễm Helicobacter pylori của McDonagh và

cộng sự (1997) Hình 1 mô tả sự thay đổi của tỷ lệ nhiễm theo từng mức độ khác nhau

của yếu tố nguy cơ Nhìn chung, nguy cơ nhiễm H pylori dường như gia tăng theo các

nhóm nguy cơ khác nhau Chúng ta có thể nghĩ đến việc định lượng mối liên quan này bằng mô hình hồi quy

Bảng 2 Tỷ lệ nhiễm H pylori theo các nhóm nghề nghiệp

Trang 3

non-3

Hình 1 Tỷ lệ nhiễm H pylori theo các nhóm nghề nghiệp

Hồi quy tuyến tính: vấn đề

Trong chương trước, chúng ta đã bàn luận về mô hình hồi quy tuyến tính (linear regression ) trong việc xem xét mối quan hệ giữa biến phụ thuộc dạng liên tục và các biến độc lập Câu hỏi đặt ra là liệu mô hình hồi quy tuyến tính có phù hợp khi biến phụ thuộc của chúng ta không phải là dạng biến liên tục Hãy xem ví dụ về tỷ lệ tử vong theo tuổi trong nghiên cứu của SHHS (Scottish Heart Health Study)

Bảng 0.1 Tỷ lệ tử vong theo tuổi

Trang 4

Hình 0.1 Tỷ lệ tử vong theo tuổi

Mối liên quan giữa phơi nhiễm và kết quả có thể không phù hợp với liên quan tuyến tính

Tỷ lệ (trong đó có nguy cơ – một dạng đặc biệt của tỷ lệ) có giá trị nằm trong khoảng [0,1] Như quan sát trong hình 3.1, khi các giá trị nằm trong khoảng này, chúng không liên quan với nhau đúng theo mô hình tuyến tính Điều này là do các giá trị có khuynh hướng “chen chúc” nhau để nằm gọn trong khoảng giới hạn [0,1] này

Trang 5

5

Nếu sử dụng mô hình hồi quy tuyến tính, các giá trị ước lượng có thể nằm ra ngoài giá trị ý nghĩa

Xem ví dụ ở bảng 3.1, mô hình hồi quy tuyến tính sẽ có dạng như sau:

Nguy cơ tử vong = -25.394 + 0.654 x tuổi Theo tính toán, mô hình này có ý nghĩa thống kê và có thể giải thích được 78% sự thay đổi của nguy cơ tử vong Điều này có vẻ cho thấy việc sử dụng mô hình hồi quy tuyến tính để giải thích mối liên quan là phù hợp Tuy nhiên, giả định rằng chúng ta sẽ sử dụng

mô hình này để ước lượng nguy cơ tử vong của người 39 tuổi, nguy cơ này sẽ được tính là:

Nguy cơ tử vong = -25.394 + 0.654 x 39 = -0.239 Như vậy, nguy cơ tính được có giá trị âm Điều này là không hợp lý Như vậy, mô hình hồi quy tuyến tính không phù hợp trong việc mô tả mối liên quan giữa phơi nhiễm và bệnh trong trường hợp này

Sai số không có phân phối chuẩn

Mô hình hồi quy tuyến tính có dạng: y = α + βx + ε, trong đó ε là sai số Một lưu ý trong hồi quy tuyến tính là sai số phải có phân phối chuẩn Tuy nhiên, biến y trong trường hợp này (trường hợp biến kết quả là biến nhị phân) không có phân phối chuẩn mà là phân phối nhị thức (binomial) Như vậy, giả định này cũng không phù hợp và mô hình hồi quy tuyến tính không phải là phương pháp phù hợp để mô tả mối quan hệ giữa biến phụ thuộc dạng phân loại và nhiều biến độc lập khác

1.2 Nguyên lý và khái niệm cơ bản

Về mặt nguyên tắc, mô hình hồi quy logistic cũng có dạng tương tự mô hình hồi quy tuyến tính, tuy nhiên, mô hình sử dụng phép biến đổi logit để khắc phục những điểm chưa phù hợp nếu sử dụng mô hình hồi quy tuyến tính

Khi biến đầu ra quan tâm có hai giá trị - ví dụ có hoặc không, mô hình hồi quy tuyến tính không phù hợp vì khi đó, đo lường được sử dụng là tỷ lệ (hoặc nguy cơ)

Giả sử chúng ta phân tích mối liên quan giữa chủng ngừa vaccine A (phơi nhiễm) và bệnh B thông qua xem xét tỷ lệ có chủng ngừa vaccine trong nhóm có bệnh và không có bệnh Một cách đơn giản, bảng 2 x 2 sẽ được xây dựng

Trang 6

Trong dịch tễ học, chúng ta có thể tính số chênh (odds) trong từng nhóm và từ đó tính tỷ

số số chênh (Odds ratio - OR) Thông thường, để tính nhanh, người ta tính OR bằng “tích

chéo” Nghĩa là, khi odds của nhóm bệnh được tính là a/b và odds của nhóm chứng là c/d

thì tỷ số số chênh (OR) được tính:

Tỷ số số chênh (OR) = Odds của nhóm bệnh/ Odds của nhóm không bệnh

= (a/b)/(c/d) = ad/ bc

Tuy nhiên, odds cũng có thể được tính dựa trên tỷ lệ Ví dụ odds của nhóm bệnh được tính là tỷ lệ có chủng ngừa trong nhóm bệnh so với tỷ lệ không chủng ngừa trong nhóm bệnh, tức là:

Odds của nhóm bệnh = (a/a+b)/(b/a+b)

Gọi p là tỷ lệ có chủng ngừa trong nhóm bệnh, công thức trên trở thành

Phiên giải mô hình

Vì mô hình hồi quy tuyến tính như trên có giả định là ε tuân theo quy luật của phân phối chuẩn giá trị kỳ vọng của logit cho bất kỳ giá trị nào của x sẽ là α + βx Khi đó:

Trang 7

7

Khi đó, Odds của x = 0 sẽ là:

và Odds của x = 1 sẽ là:

Vậy, OR được tính như sau :

Điều này có nghĩa là lũy thừa cơ số e của hệ số biến số độc lập x là OR

Như vậy, bằng việc sử dụng biến đổi logit như trên, chúng ta có thể xây dựng được mô hình hồi quy logistic – vẫn dựa trên nguyên lý của hồi quy tuyến tính – và tính toán được

OR – một đo lường dịch tễ quan trọng trong việc xác định mối liên quan giữa phơi nhiễm

và kết quả

1.3 Xây dựng mô hình hồi quy logistic trong SPSS

Trong phần này, chúng ta sẽ sử dụng bộ số liệu Chilumba để minh họa xây dựng mô hình hồi quy logistic trong SPSS Bộ số liệu Chilumba.sav bao gồm số liệu của một nghiên cứu bệnh chứng được tiến hành ở thành phố Chilumba nhằm tìm hiểu việc chủng ngừa BCG có bảo vệ đối với bệnh phong hay không Nghiên cứu này được tiến hành trên 1260 đối tượng bao gồm 252 trường hợp mắc bệnh phong và 1008 trường hợp chứng không mắc bệnh phong

Bảng 0.3 Bảng mã số liệu của bộ số liệu Chilumba

Tên biến Giải thích Mã giá trị của biến

Trang 8

8

(có nhiều vi khuẩn) phongcu Tiếp xúc với phong củ

(có ít vi khuẩn)

0 = không 1= có

Trong phần này, chúng ta sẽ xem xét làm thế nào xây dựng mô hình hồi quy logistic để trả lời các câu hỏi nghiên cứu dịch tễ Mô hình hồi quy này sử dụng cho biến kết quả là biến nhị phân, do đó chúng ta sẽ lần lượt xem xét với các loại biến độc lập khác nhau: nhị phân, thứ bậc, danh định, và định lượng

1.3.1 Hồi quy logistic đơn biến

Một số nguyên lý chung

Tương tự trong phần phiên giải trên, mô hình hồi quy logistic đơn biến có dạng như sau:

y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε Trong nghiên cứu, các giá trị của biến độc lập hoặc phụ thuộc được quy ước như sau:

1 có phơi nhiễm

Sử dụng biến đổi như trên khi x = 0 và x = 1, chúng ta tính được OR:

Nói cách khác, lũy thừa cơ số e của hệ số biến số độc lập x là OR Độ lớn của OR cung cấp thông tin về mức độ liên quan giữa biến số phơi nhiễm và bệnh

OR > 1: phơi nhiễm là yếu tố nguy cơ

OR = 1: không có mối liên quan giữa phơi nhiễm và bệnh

OR < 1: phơi nhiễm là yếu tố bảo vệ

Tuy nhiên, OR có được từ mô hình hồi quy này là OR tính được của mẫu nghiên cứu, chúng ta không biết được OR thật trong quần thể Như vậy, chúng ta cần ước lượng OR

thật này để trả lời chính xác hơn có hay không có mối liên quan giữa phơi nhiễm và

bệnh

Như vậy, câu hỏi đặt ra là mối liên quan được tìm thấy trong nghiên cứu có ý nghĩa thống

kê hay không Nói một cách dễ hiểu, ý nghĩa thống kê trong ngữ cảnh này chính là OR

thật trong quần thể là như thế nào và liệu OR này có khác 1 hay không Điều này đòi hỏi

x =

y =

Trang 9

9

chúng ta phải tính toán sai số chuẩn (standard error - SE) cho OR và khoảng tin cậy của

OR Vì OR là một tỷ số nên việc tính toán khoảng tin cậy phức tạp hơn thông qua phương pháp gián tiếp Một trong những phương pháp đó là phương pháp Woolf tiến hành như sau:

Sử dụng lnOR

Sai số chuẩn của lnOR là

Theo quy luật của phân phối chuẩn, khoảng tin cậy của lnOR là

95% CI của lnOR: lnOR ± 1.96xSE Sau khi đã tính được khoảng tin cậy của lnOR, chúng ta sẽ tính được khoảng tin cậy của OR

95% CI của OR : elnOR ± 1.96xSE

Từ những biến đổi trên, có thể tính nhanh KTC 95% của OR là : OR 1.96SE và OR x 1.96SE

Trên thực tế, tất cả các tính toán này đều được các phần mềm phân tích thống kê hỗ trợ Chúng ta sẽ tham khảo cách phân tích trên SPSS ngay sau đây

Ví dụ trong SPSS

Trong ví dụ nghiên cứu Chilumba, biến phụ thuộc quan tâm là biến bệnh – có bệnh hay không có bệnh Giả định chúng ta muốn xem mối liên quan giữa việc chủng ngừa vaccine BCG và bệnh phong hay không, chỉ số thống kê quan trọng để trả lời câu hỏi này là OR Như đã phân tích ở trên, chúng ta có thể tính toán chỉ số này thông qua bảng 2 x 2, hoặc bằng hồi quy logistic

Thực hiện tính toán qua bảng 2 x 2 bằng cách sử dụng menu Analyze  Descriptive

Statistics  Crosstabs Đưa biến phụ thuộc là bệnh vào Row và biến độc lập là chủng

ngừa vào Column Lưu ý rằng đây không phải là nguyên tắc bắt buộc, chúng ta có thể đưa các biến số vào hàng và cột tùy ý, tuy nhiên cần hiểu rõ chúng ta muốn tính toán theo mẫu số nào để có các lựa chọn tỷ lệ chính xác

a b c d

Trang 10

10

Chọn Cells Vì đây là nghiên cứu bệnh chứng và chúng ta đang muốn xem xét tỷ lệ phơi nhiễm trong nhóm bệnh và không bệnh nên chúng ta sẽ lấy phần trăm theo biến phụ thuộc (ở Row)

Chọn tiếp Statistics và chọn Chi-square và Risk trong cửa sổ này

Kết quả như sau:

Trang 11

% within 1=benh, 0=khong

Count

% within 1=benh, 0=khong

khong benh

benh 1=benh, 0=khong

(khong benh / benh)

For cohort 0=khong

1=co = khong tiem

For cohort 0=khong

1=co = co tiem

N of Valid Cases

95% Confidence Interval

Kết quả là OR của chủng ngừa BCG là 0.225 (95%CI là 0.158 – 0.321), và giá trị kiểm định Khi bình phương theo Likelihood Ratio là rất nhỏ (<0.001) chứng tỏ sự liên quan giữa phơi nhiễm và bệnh trong nghiên cứu này có ý nghĩa thống kê Nói cách khác, chúng ta có 95% cơ sở để tin rằng chủng ngừa BCG là yếu tố bảo vệ đối với bệnh phong Thực hiện tính toán bằng hồi quy logistic như sau:

Sử dụng menu Analyze  Regression  Binary Logistic

Trang 12

12

Đưa biến bệnh vào ô Dependent (nghĩa là biến phụ thuộc) và biến chủng ngừa bcg vào ô Covariates, giữ nguyên phương pháp xây dựng mô hình là Enter trong ô Method

Chọn Options để vào cửa sổ Logistic regression: Option Chọn At last step ở khung

Display (lựa chọn này để tránh SPSS tạo ra nhiều kết quả không cần thiết) Chọn CI for exp(B) để có khoảng tin cậy 95% của OR

Trang 13

13

Nhấp Continue và OK để hoàn tất Kết quả như sau:

Case Processing Summary

kỳ thông tin gì khác, thì cách tốt nhất để tiên đoán với bất kỳ đối tượng nào, là đối tượng

đó không bị bệnh Khi đó, chúng ta có khả năng đúng trong 80% trường hợp (overall percentage)

Classification Table a,b

Overall Percentage

Step 0

khong benh benh

1=benh, 0=khong Percentage

Correct Predicted

Constant is included in the model.

a

The cut value is 500

b

Trang 14

14

Bảng Variables in the Equation cho chúng ta kết quả của mô hình khi chỉ có hằng số (constant) Với B = -1.386, chúng ta có ln(odds) = - 1.386  Odds = exp[ln(odds)] = exp(- 1.386) = 0.25 Điều này có nghĩa là số chênh ước tính (predicted odds) của bệnh/không bệnh là 0.25 Kết quả này cũng đúng khi chúng ta tính toán trực tiếp với số liệu quan sát (observed odds) là tỷ số giữa người có bệnh/người không bệnh = 252/1008

Tuy nhiên, mô hình chúng ta quan tâm là mô hình giữa 1 biến phụ thuộc và 1 biến độc lập Xem xét kết quả của Block 1 Kết quả Khi bình phương trong bảng Omnibus Test of Model Coefficients có giá trị 84.352 và p < 0.001 (để ý rằng giá trị 84.352 này cũng chính là giá trị kiểm định Khi bình phương theo phương pháp likelihood ratio ở trên bảng

2 x 2 được phân tích ở trên) Đây là kiểm định của giả thuyết Ho cho rằng “việc bổ sung

biến độc lập – chủng ngừa BCG vào mô hình không làm gia tăng khả năng ước

lượng/tiên đoán bệnh phong”, nói cách khác, việc đưa biến chủng ngừa vào mô hình là

Trong bảng Model summary chúng ta có kết quả kiểm định -2log likelihood là 1176.663 Đây là kiểm định nhằm xem xét mô hình này có thể tiên đoán/giải thích cho biến phụ

thuộc không tốt như thế nào Giá trị -2log likelihood càng lớn thì mô hình càng tốt Tuy

nhiên, bản thân giá trị này không quan trọng, chính hiệu số của nó giữa hai mô hình mới

có ý nghĩa Chúng ta sẽ thảo luận về điều đó trong phần sau của bài này

Giá trị R2 của Cox & Snell và Nagelkerke có thể được phiên giải như trong mô hình hồi quy tuyến tính, tuy nhiên chúng ta không cần sử dụng các thông tin này

Trang 15

Estimation terminated at iteration number 5 because

parameter estimates changed by less than 001.

a

Bảng Variable in the Equation cho kết quả của mô hình:

Variables in the Equation

Giả định một người không chủng ngừa BCG (x = 0), chúng ta có:

Từ hai kết quả trên, giá trị OR của chủng ngừa BCG là:

OR = Odds có chủng ngừa Odds không chủng ngừa = 0.089/0.393 = 0.225 Đây cũng chính là kết quả Exp(B) trong bảng trên Nói cách khác, chúng ta có thể tính toán để hiểu

và có thể sử dụng các thông tin Odds của từng nhóm tương ứng, hoặc chúng ta sử dụng kết quả Exp(B) để trình bày giá trị OR và khoảng tin cậy 95% của nó Kiểm định Wald trong Variables in the equation là kiểm định cho biết ý nghĩa của từng biến số trong mô hình – kiểm định hệ số hồi quy B

Kiểm định hệ số hồi quy B

Trang 16

16

Như đã phân tích ở trên, lũy thừa cơ số e của hệ số hồi quy là OR Do đó, kiểm định Wald sẽ kiểm định hệ số hồi quy B có khác 0 hay không (tức OR có thực sự khác 1 hay không)

Kiểm định Wald – được gọi là kiểm định Khi bình phương Wald (Wald chi-square) với giá trị kiểm định 2

= (B/se)2 với 1 bậc tự do để kiểm chứng khoảng tin cậy 95% của OR

có chứa giá trị 1 hay không (nếu khoảng tin cậy 95% chứa giá trị 1, hệ số B không có ý nghĩa trong mô hình)

Cần lưu ý là kiểm định Wald mặc dù dễ tính toán nhưng ít tin cậy, đặc biệt khi cỡ mẫu nhỏ

Kết quả kiểm định trong ví dụ này cho thấy, mô hình với biến phụ thuộc là bệnh và biến độc lập là chủng ngừa BCG có ý nghĩa (với mức ý nghĩa p<0.001) Nói cách khác, chủng ngừa BCG có liên quan đến bệnh phong

Bởi vì bệnh phong là bệnh hiếm nên OR là ước lượng xấp xỉ của nguy cơ tương đối Như vậy, người được tiêm chủng BCG có nguy cơ mắc bệnh phong chỉ vào khoảng 22,5% so với người không tiêm BCG

Ngoài ra, như đã bàn luận ở phần trên, chúng ta có Odds = p/(1 - p) Như vậy, p = Odds/(1 + Odds) Nói cách khác, chúng ta có thể suy luận tỷ lệ từ giá trị Odds tính được

- Với Odds = 0.393 chúng ta có p = 0.393/1.393 = 0.282 Điều này cho thấy mô hình giúp tiên đoán rằng có 28.2% người không chủng ngừa BCG sẽ mắc bệnh phong

- Với Odds = 0.089 chúng ta có p = 0.089/1.089 = 0.082 Điều này cho thấy mô hình giúp tiên đoán rằng chỉ có 8.2% người có chủng ngừa BCG sẽ mắc bệnh phong

Kết quả của hồi quy logistic có thể được sử dụng để phân nhóm các đối tượng có khả năng bị bệnh hoặc không bị bệnh Như đã tính toán ở trên, mô hình cho phép tiên đoán rằng xác suất bị bệnh của người không chủng ngừa là 28.2% và của người có chủng ngừa

là 8.2% Để có thể sử dụng các thông tin trên để phân nhóm đối tượng, chúng ta cần có 1 nguyên tắc Nguyên tắc được sử dụng như sau: nếu xác suất của một sự kiện lớn hơn hoặc bằng một giá trị quy ước nào đó, chúng ta có thể tiên đoán rằng sự kiện ấy sẽ xảy ra Trong SPSS, chương trình mặc định giá trị đó là 0.5 (hoặc 50% - giá trị cut value trong bảng Classification table) Sử dụng mặc định này, chương trình sẽ xếp các đối tượng vào nhóm bệnh nếu xác suất tiên đoán là ≥ 0.5

Trang 17

Overall Percentage

Step 1

khong benh benh

1=benh, 0=khong Percentage

Correct Predicted

The cut value is 500

a

Bảng trên cho kết quả rằng xác suất mắc bệnh tiên đoán là thấp, và tương tự kết luận trong Block 0, khi không có thêm thông tin gì khác, cách tốt nhất để tiên đoán là đối tượng không bị bệnh, và chúng ta có khả năng đúng trong 80% trường hợp Lưu ý trên thực tế phân tích và phiên giải kết quả, chúng ta không cần lý giải quá chi tiết các thông tin này

Yếu tố nguy cơ là biến thứ bậc

Giả định chúng ta muốn quan tâm mối liên quan giữa bệnh phong và tuổi Trong bộ số liệu này, biến tuổi được phân thành 5 nhóm 1 = 1/14 2=15/24 3 = 25/34 4 = 35-44 5 = 45+, như vậy, biến tuổi là biến thứ bậc

Mô hình giả định biến độc lập có tính khuynh hướng

Bây giờ chúng ta xem xét mô hình hồi quy giữa biến phụ thuộc là bệnh phong và biến

độc lập là tuổi trong đó có giả định về tính khuynh hướng của OR Điều này có nghĩa là

chúng ta giả định rằng sự khác biệt giữa các lớp tuổi kế cận nhau (thí dụ lớp tuổi 15/24 so với lớp 1/15 và lớp tuổi 25/34 so với lớp 15/24) là giống nhau, do đó chỉ cần một tham số (hay nói khác đi là có độ tự do =1)

Với giả định tính khuynh hướng, mô hình tổng quát có dạng:

y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε Khi đó:

Trang 19

Estimation terminated at iteration number 5 because

parameter estimates changed by less than 001.

hình nên giả thuyết Ho của kiểm định này là “mô hình có ý nghĩa” Do đó, khi p>0.05

(trong trường hợp này p = 0.161) chúng ta có thể chấp nhận giả thuyết này

Như vậy, so với nhóm tuổi 1/14, nhóm tuổi 15/24 có nguy cơ mắc bệnh tăng gấp 1.463 lần So với nhóm tuổi 15/24, nhóm tuổi 25/34 có nguy cơ tăng gấp 1.463 lần Như vậy, nguy cơ của nhóm tuổi 25/34 so với nhóm tuổi 1/14 là tăng gấp 1.4632 = 2.140

Trang 20

20

Bảng 0.4 Nguy cơ mắc bệnh của các nhóm tuổi so với nhóm tuổi 1/14

Nhóm tuổi Mô hình logistic (nhóm tuổi là biến thứ tự)

Mô hình không giả định tính khuynh hướng

Bây giờ chúng ta sẽ thực hiện tính toán khi không sử dụng giả định tính khuynh hướng Nói cách khác, chúng ta sẽ cần 4 tham số để ước lượng của 4 lớp tuổi (15/24; 25/34; 35/44; 45+) so với lớp tuổi nền (1/14) và có độ tự do =4

Với giả định tính khuynh hướng, mô hình tổng quát có dạng:

y = logit = ln(Odds) = ln[p/(1 - p)] = α + β1x1 + β2x2 + β3x3 + β4x4 + β5x5 + ε

Trong đó x1 … x5 lần lượt là các nhóm tuổi, chúng nhận giá trị:

0 không nằm trong nhóm tuổi i

1 nằm trong nhóm tuổi i Như vậy, trên thực tế chúng ta cũng chỉ có 1 biến phụ thuộc là bệnh phong và biến độc lập là nhóm tuổi, tuy nhiên theo mô hình trên, chúng ta có 5 biến số, như vậy chúng ta có thêm 4 biến số - 4 biến số này được gọi là biến số giả (dummy variables)

Vẫn sử dụng menu Analyze  Regression  Binary Logistic, để xác định mối liên hệ giữa nhóm tuổi và nguy cơ bị bệnh phong, đưa biến phụ thuộc – dependent - là bệnh (có bệnh hay không) và biến độc lập – covariate - là nhóm tuổi Lưu ý nhấn vào nút lệnh Option để đánh dấu hộp kiểm CI for exp(B) (tính khoảng tin cậy của OR) Chọn tiếp nút Categorical để mở cửa sổ Logistic regression: Define categorical variable (điều này có nghĩa là chúng ta mặc định biến nhóm tuổi là biến định danh – không có khuynh hướng/thứ bậc) Đưa biến nhóm tuổi vào ô Categorical covariates, trong mục Constract, chọn Indicator và chọn nhóm so sánh (Reference category) là nhóm đầu tiên (first), có nghĩa là nhóm tuổi 1/14 sẽ là nhóm nền để so sánh

xi =

Trang 21

Estimation terminated at iteration number 5 because

parameter estimates changed by less than 001.

Kết quả sử dụng hồi quy logistic không giả định tính khuynh hướng của OR, chúng ta có

được các OR như sau

Bảng 0.5 OR của các nhóm tuổi khi không giả định tính khuynh hướng

Trang 22

22

Kết quả kiểm định Wald cho thấy, OR của nhóm tuổi 15/24 và nhóm tuổi 24/34 là không

có ý nghĩa thống kê (hay hệ số hồi quy B trong 2 nhóm này không có ý nghĩa) Điều này cũng phù hợp với kết quả của KTC 95% của OR trong hai nhóm này có chứa 1

Yếu tố nguy cơ là biến phân loại

Với biến độc lập là biến phân loại, các thao tác phân tích và phiên giải được thực hiện tương tự như trên (khi giả định biến thứ bậc không có tính khuynh hướng)

Yếu tố nguy cơ là biến định lượng

Xem xét lại ví dụ tỷ lệ tử vong theo tuổi trong ví dụ ở bảng 3 Khi sử dụng tỷ lệ tử vong

để mô tả mối liên quan với tuổi như trong hình 2, mô hình hồi quy tuyến tính là không phù hợp Bảng 8 đã sử dụng biến đổi logit và hình 3 mô tả mối liên quan giữa logit và tuổi Mối liên quan này phù hợp với hồi quy tuyến tính hơn

Bảng 0.6 Biến đổi logit

Trang 23

23

Hình 0.2 Biểu đồ chấm điểm biểu diễn mối liên quan giữa tuổi và logit của tử vong

Hình minh họa trên cho thấy việc sử dụng biến đổi logit làm mô hình trở nên phù hợp hơn khi các điểm liên kết với nhau có khuynh hướng trên 1 đường thẳng tuyến tính Tuy nhiên phiên giải kết quả vẫn dựa vào tỷ lệ vì logit được tính toán dựa trên định nghĩa của Odd và tỷ lệ

Xem xét ví dụ trong bộ số liệu nghiên cứu về bệnh mạch vành (bộ số liệu benhMV)

Hàm lượng Cholesterol trong máu được xem như là một yếu tố nguy cơ của bệnh này

Sử dụng hồi quy logistic tương tự như các thao tác trên, trong đó biến phụ thuộc là bệnh mạch vành, biến độc lập là Cholesterol máu Lựa chọn Options để chọn CI for exp(B), Hosmer-Lemeshow goodness-of-fit và At last step

Estimation terminated at iteration number 5 because

parameter estimates changed by less than 001.

a

Ngày đăng: 16/11/2016, 15:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Belsley, D.A., Kuh, E. and Welsch, R.E (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. John Wiley &amp; Sons: New York Sách, tạp chí
Tiêu đề: Regression Diagnostics: "Identifying Influential Data and Sources of Collinearity
Tác giả: Belsley, D.A., Kuh, E. and Welsch, R.E
Năm: 1980
2. Hosmer, D.W. and Lemeshow, S. (1989). Applied Logistic Regression. John Wiley &amp; Sons: New York Sách, tạp chí
Tiêu đề: Applied Logistic Regression
Tác giả: Hosmer, D.W. and Lemeshow, S
Năm: 1989
3. Joseph F. Hair, Jr et al, Multivariate data analysis, Fifth edition Sách, tạp chí
Tiêu đề: Multivariate data analysis
4. Marcello pagano, Kimberlee Gauvreau, Principles of Biostatistics, 1992, California: An Imprint of Wadsworth publishing Sách, tạp chí
Tiêu đề: Principles of Biostatistics
5. Mark Woodward (1999). Epidemiology study design and data analysis, Chapman &amp; Hall texts in statistics science series Sách, tạp chí
Tiêu đề: Epidemiology study design and data analysis
Tác giả: Mark Woodward
Năm: 1999
6. Shen J. and Gao S. (2008). “A solution to separation and multicollinearity in multiple logistic regression”. Journal of Data Science 6: 515-31Tài liệu tiếng Việt Sách, tạp chí
Tiêu đề: A solution to separation and multicollinearity in multiple logistic regression
Tác giả: Shen J. and Gao S
Năm: 2008
3. Phạm Việt Cường và cs. Thống kê Y tế - Phân tích số liệu sử dụng SPSS, Nhà xuất bản Y học, 2009 Sách, tạp chí
Tiêu đề: Thống kê Y tế - Phân tích số liệu sử dụng SPSS
Nhà XB: Nhà xuất bản Y học

HÌNH ẢNH LIÊN QUAN

Bảng 2 là kết quả nghiên cứu về nguy cơ nhiễm  Helicobacter pylori của McDonagh và - Bài giảng hồi quy SPSS
Bảng 2 là kết quả nghiên cứu về nguy cơ nhiễm Helicobacter pylori của McDonagh và (Trang 2)
Bảng 2. Tỷ lệ nhiễm H. pylori theo các nhóm nghề nghiệp - Bài giảng hồi quy SPSS
Bảng 2. Tỷ lệ nhiễm H. pylori theo các nhóm nghề nghiệp (Trang 2)
Hình 1. Tỷ lệ nhiễm H. pylori theo các nhóm nghề nghiệp - Bài giảng hồi quy SPSS
Hình 1. Tỷ lệ nhiễm H. pylori theo các nhóm nghề nghiệp (Trang 3)
Bảng  0.1 Tỷ lệ tử vong theo tuổi - Bài giảng hồi quy SPSS
ng 0.1 Tỷ lệ tử vong theo tuổi (Trang 3)
Bảng  0.2 Minh họa bảng 2 x 2 mô tả mối liên quan giữa phơi nhiễm và bệnh - Bài giảng hồi quy SPSS
ng 0.2 Minh họa bảng 2 x 2 mô tả mối liên quan giữa phơi nhiễm và bệnh (Trang 6)
Bảng  Variables  in  the  Equation  cho  chúng  ta  kết  quả  của  mô  hình  khi  chỉ  có  hằng  số  (constant) - Bài giảng hồi quy SPSS
ng Variables in the Equation cho chúng ta kết quả của mô hình khi chỉ có hằng số (constant) (Trang 14)
Bảng  trên  cho  kết  quả  rằng  xác  suất  mắc  bệnh  tiên  đoán  là  thấp,  và  tương  tự  kết  luận  trong  Block  0,  khi  không  có  thêm  thông  tin  gì  khác,  cách  tốt  nhất  để  tiên  đoán  là  đối  tượng không bị bệnh, và chúng ta có khả năng đ - Bài giảng hồi quy SPSS
ng trên cho kết quả rằng xác suất mắc bệnh tiên đoán là thấp, và tương tự kết luận trong Block 0, khi không có thêm thông tin gì khác, cách tốt nhất để tiên đoán là đối tượng không bị bệnh, và chúng ta có khả năng đ (Trang 17)
Bảng  0.4 Nguy cơ mắc bệnh của các nhóm tuổi so với nhóm tuổi 1/14 - Bài giảng hồi quy SPSS
ng 0.4 Nguy cơ mắc bệnh của các nhóm tuổi so với nhóm tuổi 1/14 (Trang 20)
Bảng  0.5 OR của các nhóm tuổi khi không giả định tính khuynh hướng - Bài giảng hồi quy SPSS
ng 0.5 OR của các nhóm tuổi khi không giả định tính khuynh hướng (Trang 21)
Bảng  0.6  Biến đổi logit - Bài giảng hồi quy SPSS
ng 0.6 Biến đổi logit (Trang 22)
Hình  0.2 Biểu đồ chấm điểm biểu diễn mối liên quan giữa tuổi và logit của tử vong - Bài giảng hồi quy SPSS
nh 0.2 Biểu đồ chấm điểm biểu diễn mối liên quan giữa tuổi và logit của tử vong (Trang 23)
Hình hồi quy logistic để đánh giá nguy cơ của tình trạng bệnh mạch vành hay không. - Bài giảng hồi quy SPSS
Hình h ồi quy logistic để đánh giá nguy cơ của tình trạng bệnh mạch vành hay không (Trang 39)
Bảng  0.7 Ví dụ về chia cắt số liệu - Bài giảng hồi quy SPSS
ng 0.7 Ví dụ về chia cắt số liệu (Trang 40)

TỪ KHÓA LIÊN QUAN

w