1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu kỹ thuật thống kê Hồi quy Logistic

23 168 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 1,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Báo cáo trình bày về mô hình hồi quy logistic. Nội dung chính bao gồm: Lý thuyết về mô hình hồi quy logistic như khái niệm, mục đích sử dụng, cách kiểm định giả thuyết, ưu điểm nhược điểm; Hướng dẫn thực hành mẫu với phần mềm SPSS và phân tích kết quả thu được.

Trang 1

TÌM HIỂU KỸ THUẬT THỐNG KÊ

HỒI QUY LOGISTIC

Trang 2

CHƯƠNG 1

Trang 3

LÝ THUYẾT MÔ HÌNH HỒI QUY LOGISTIC

1.1 Khái niệm

Hồi quy logistic là một phương pháp thống kê để phân tích một tập dữ liệu trong

đó có một hoặc nhiều biến độc lập xác định kết quả Kết quả được đo bằng một biếnnhị phân (trong đó chỉ có hai kết quả có thể xảy ra)

Trang 4

Trên thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng kinh tế, xã hội,…màchúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhậnhay không, người vay có trả được nợ hay không, công ty có phá sản hay không, kháchhàng có mua sản phẩm hay không,… Những biến nghiên cứu có 2 biểu hiện như vậyđược mã hóa thành 2 giá trị 0 và 1 (được gọi là biến nhị phân).

Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích ở dạng hồi quy thôngthường vì nó sẽ vi phạm các giả định, dễ thấy nhất là khi biến phụ thuộc chỉ có 2 biểuhiện thị không phù hợp khi giả định rằng phần dư có phân phối chuẩn, mà thay vào đó

sẽ có phân phối nhị thức, điều này sẽ làm mất hiệu lực thống kê của các kiểm địnhtrong phép hồi quy thông thường

Hồi quy logistic hoạt động rất giống với hồi quy tuyến tính, nhưng với biến phảnứng nhị thức Ưu điểm lớn nhất khi so sánh với Mantel-Haenszel OR là có thể sửdụng các biến giải thích liên tục và việc xử lý đồng thời nhiều hơn hai biến giải thích

dễ dàng hơn

Hồi quy logistic sẽ mô hình hóa cơ hội kết quả dựa trên các đặc điểm cánhân Bởi vì kết quả là một tỷ lệ, những gì sẽ được mô hình hóa thực sự là logarit củakết quả được đưa ra bởi:

log ( π1 - π) =β0+ β1x1+ β2x2+ βmxm

Trong đó π chỉ ra xác suất của một sự kiện và β i là các hệ số hồi quy liên quan

đến nhóm tham chiếu và các biến giải thích x i Tại thời điểm này, một khái niệm quan

trọng phải được làm nổi bật Nhóm tham chiếu, được biểu thị bằng β 0, được tạo thành

bởi những cá nhân trình bày mức tham chiếu của mỗi và mọi biến x 1 m

Phương trình hồi quy Binary Logistic:

Trong hồi quy tuyến tính đơn, các biến độc lập Xi và phụ thuộc Y là biến số liêntục liên hệ qua phương trình:

Trong hồi quy Logistic, biến phụ thuộc Y chỉ có 2 trạng thái 1 và 0 Muốn đổi rabiến số liên tục người ta tính xác suất của 2 trạng thái này Nếu gọi P là xác suất đểmột biến cố xảy ra, thì 1-P là xác suất để biến cố không xảy ra Phương trình hồi quyLogistic phát biểu:

Trong đó:

Trang 5

P(Y=1) = P0: Xác suất xảy ra sự kiện.

P(Y=0) = 1- P0: Xác suất xảy ra sự kiện

Xi: Các biến độc lập

Ý nghĩa:

Giả định X1: số năm đi học của chủ hộ (năm); hệ số hồi quy B1 = 0.308

Nếu chủ hộ gia đình tăng thêm 1 năm đi học, với điều kiện các yếu tố kháckhông đổi, thì Log của tỷ lệ xác suất cải thiện thu nhập so với xác suất không cải hiệnthu nhập tăng thêm 0.308 lần

Cách giải thích này không rõ nghĩa lắm, trong phân tích kinh tế có cách giải thíchthay thế như sau;

Đặt P0: Xác suất ban đầu; P1: Xác suất thay đổi P1 được tính theo công thức sau:

Khi B = 0.308; P0 = 10%; e = 2.714 thế vào tính P1 kết quả như sau:

Như vậy, khi chủ hộ gia đình tăng thêm 1 năm đi học, xác suất cải thiện thu nhậpcủa hộ sẽ tăng lên 13.1% tức là tăng thêm 3.1% so với xác suất ban đầu là 10%

Khái quát:

Khi yếu tố Xk tăng lên một đơn vị thì xác suất cải thiện thu nhập của một hộ giađình sẽ chuyển dịch từ P0 sang P1

Tham số tỷ số nguy cơ (Odds Ratio - OR)

Chỉ số thống kê quan trọng trong hồi qui Logistics là tỷ số nguy cơ (Odds Ratio –OR) Trong tiếng anh odd có nghĩa là nguy cơ hay khả năng Nói cách khác odd là tỷ

số của 2 giá trị của một biến nhị phân Do đó, OR là tỷ số của hai odds

Ví dụ : Bảng dữ liệu dưới đây thu thập để nghiên cứ mối tương quan giữa tình

trạng phơi nhiễm chất độc gia cam (Agent Orange – AO) và ung thư tuyến tiền liệt

Ung thư (47) Đối chứng (144)

Trang 6

Không phơi nhiễm AO 36 127 Trong bảng dữ liệu trên, ta có:

odd mắc ung thư trong nhóm từng phơi nhiễm AO là 11/17 = 0.647

odd mắc ung thư trong nhóm không từng bị phơi nhiễm AO là 36/127 = 0.283

Và Odds Ratio (OR) mắc ung thư trong nhóm từng bị phơi nhiễm AO so vớinhóm không từng bị phơi nhiễm là 0.647/0.283= 2.28

Trong hồi qui logistic thì các đối tượng nghiên cứu thường được thể hiện qua cácbiến số nhị phân (binary) như xảy ra/ không xảy ra; chết/sống; có/không,… còn cácyếu tố nguy cơ có thể được thể hiện qua các biến số liên tục (tuổi, huyết áp,…) hoặccác biến nhị phân (giới tính) hay các biến thứ bậc (thu nhập : Cao, trung bình, thấp).Vấn đề đặt ra cho nghiên cứu dạng này là là sao để ước tính độ tương quan của cácyếu tố nguy cơ và đối tượng phân tích Các phương pháp phân tích như hồi qui tuyếntích không áp dụng được vì biến phụ thuộc không phải là biến liên tục mà là biến nhịphân Nhà thống kê học David R Cox đã phát triển mô hình có tên LogisticRegression Model (1970s) để phân tích các biến nhị phân

1.3 Các lưu ý khi sử dụng

Trong hồi qui logistic thì các đối tượng nghiên cứu thường được thể hiện qua cácbiến số nhị phân (binary) như xảy ra/ không xảy ra : chết/sống ; có/không,… còn cácyếu tố nguy cơ có thể được thể hiện qua các biến số liên tục (tuổi, huyết áp,…) hoặccác biến nhị phân (giới tính) hay các biến thứ bậc (thu nhập: Cao, trung bình, thấp)

Trang 7

Tỷ lệ và xác suất được sử dụng đồng nghĩa nhưng chúng không giống nhau Xácsuất là tỷ lệ giữa số lượng sự kiện có lợi cho một số kết quả và tổng số sự kiện Mặtkhác, tỷ lệ cược là tỷ lệ giữa các xác suất: xác suất của một sự kiện có lợi cho kết quả

và xác suất của một sự kiện so với kết quả tương tự Xác suất bị ràng buộc giữa 0 vàmột và tỷ lệ cược bị ràng buộc giữa 0 và vô cùng Và tỷ lệ cược là tỷ lệ giữa các tỷ lệcược Tầm quan trọng của điều này là tỷ lệ chênh lệch lớn (OR) có thể đại diện chomột xác suất nhỏ và ngược lại OR lớn chỉ có nghĩa là cơ hội của một nhóm cụ thể lớnhơn nhiều so với nhóm tham chiếu Nhưng nếu cơ hội của nhóm tham chiếu là nhỏ,ngay cả một OR lớn vẫn có thể chỉ ra một xác suất nhỏ

Một vấn đề lớn khi xây dựng mô hình logistic là chọn các biến cần đưa vào Khinghiên cứu thì họ thường đưa thật nhiều biến vào và sau đó đưa tất cả chúng vào môhình và cố gắng tìm thứ gì đó có ý nghĩa Cách tiếp cận này làm tăng sự xuất hiện củahai tình huống Đầu tiên, một hoặc nhiều biến số có ý nghĩa thống kê về mức độ quantrọng, nhưng nhà nghiên cứu không có lý thuyết nào để liên kết biến số có ý nghĩa vềmối quan hệ với sự kiện được mô hình hóa Tình huống thứ hai là một mô hình cónhiều biến thể hiện sức mạnh thống kê ít hơn Vì vậy, nếu có mối liên quan giữa mộtbiến giải thích và sự xuất hiện của một sự kiện, nhà nghiên cứu có thể bỏ lỡ hiệu ứngnày vì các mô hình bão hòa (những mô hình chứa tất cả các biến giải thích có thể)không đủ nhạy cảm để phát hiện ra nó Vì vậy, phải rất thận trọng với việc lựa chọncác biến để đưa vào mô hình

Phải chú ý đến việc thiết lập các mức tham chiếu Nếu không có quy tắc rõ ràngxuất phát từ chính dữ liệu hoặc bởi kiến thức trước đó về các giá trị biến, một khuyếnnghị còn lại là chọn mức tham chiếu với cỡ mẫu tối thiểu, để cho phép công suất thống

kê đầy đủ Một khuyến nghị khác sẽ giúp việc giải thích dễ dàng hơn là chọn các danhmục có cùng mối quan hệ với sự kiện quan tâm

Vấn đề đặt ra cho nghiên cứu dạng này là làm sao để ước tính độ tương quan củacác yếu tố nguy cơ và đối tượng phân tích

Các phương pháp phân tích như hồi qui tuyến tích không áp dụng được vì biếnphụ thuộc không phải là biến liên tục mà là biến nhị phân

1.4 Cách thức kiểm định các giả thuyết

Hồi quy Binary Logistic cũng đòi hỏi kiểm định giả thuyết hệ số hồi quy khác 0.Nếu hệ số hồi quy đều bằng 0 thì tỷ lệ chênh lệch giữa các xác suất sẽ bằng 1, tức xácsuất để sự kiện xảy ra hay không xảy ra như nhau, lúc đó mô hình hồi quy sẽ vô dụngtrong việc dự đoán

Trang 8

Trong hồi quy tuyến tính chúng ta sử dụng kiểm định t để kiểm định giả thuyết

H0 Còn với hồi quy Binary Logistic, đại lượng Wald Chi Square được sử dụng đểkiểm định ý nghĩa thống kê của hệ số hồi quy tổng thể Cách thức sử dụng, mức ýnghĩa Sig cho kiểm định Wald cũng theo quy tắc thông thường Wald Chi Square đượctính bằng cách lấy ước lượng của hệ số hồi quy của biến độc lập trong mô hình (hệ sốhồi quy mẫu) Binary Logistic chia cho sai số chuẩn của hệ số hồi quy này sau đó bìnhphương lên

Ở hồi quy Binary Logistic, tổ hợp liên hệ tuyến tính của toàn bộ hệ số trong moohình ngoại trừ hằng số cũng được kiểm định xem có thực sự có ý nghĩa trong việc giảithích cho biến phụ thuộc không Với hồi quy tuyến tính bội ta dùng thống kê F đểkiểm định giả thuyết H0: p1=p1=…=0, còn với hồi quy Binary Logistic ta dùng kiểmđịnh Chi bình phương Căn cứ vào mức ý nghĩa mà SPSS đưa ra trong bảng OmnibusTests of model Coefficients để quyết định bác bỏ hay chấp nhận H0

1.4.1 Kiểm định hệ số hồi quy

Trong kiểm định này ta sử dụng kiểm dịnh Wald để kiểm tra xem các biến độclập có ảnh hưởng tới biến phụ thuộc hay nói cách khác hay nói cách khác các biếntương quan có ý nghĩa với biến phụ thuộc hay không ?

Ta chú ý vào cột Sig, ta xét giá trị sig này với mức ý nghĩa 5%, nếu sig ≥ 0.05 thì

ta loại biến, và ngược lại

Trang 9

Ví dụ ta có Biến TNGHIEP có sig = 0.382 và nó thì > 0.05 Do đó, biếnTNGHIEP tương quan không có ý nghĩa với biến QDINH Vì vậy trong ví dụ này do

có thất nghiệp hay không, thì quyết định mua bảo hiểm y tế không ảnh hưởng gì, ta cóthể mở rộng, khoảng tiền bảo hiểm y tế không cao nên nó phụ hợp với nhiều người,ngay cả những người thất nghiệp (thất nghiệp ở VN là những người làm lao động phổthông, công việc không ổn đinh….)

Tiếp, ta xét biến HVAN có sig= 0.00 và nó thì < 0.005 Do đó, biến HVAN tươngquan có ý nghĩa với biến QDINH với độ tin cậy 95% Tương tự với những biến cònlại

1.4.2 Kiểm định mức độ phù hợp của mô hình (Kiểm định Omnibus)

a Mức độ dự báo chính xác

Kiểm định mức độ dự báo chính xác được dựa trên bảng phân loại (Clasificationtable) do SPSS đưa ra, bảng này sẽ so sánh số trị số thực và trị số dự đoán cho từngbiểu hiện và tính tỷ lệ dự đoán đúng sự kiện

Theo kết quả của ví dụ trên, những người không mua là 78 người, trong đó môhình dự báo đúng là 67 người nên ta có tỉ lệ dự báo chính xác là 84,8 % và những

Trang 10

người mua là 122 người trong đó mô hình dự báo đúng là 110 tức chiếm 90.9% Và

mô hình chúng ta dự báo chính xác là 88.5% (Mô hình chỉ cần trên 50% là chấp nhậnđược, còn bên sức khỏe thì cần phải cao hơn)

b Mức độ phù hợp của mô hình

Đối với kiểm định

Omnibus, ta xét sig của

model là 0.00, nó < 0.01 (với

độ tin cậy 99%) Như vậy

các biến độc lập đó có quan

hệ tuyến tính với biến phụ

thuộc trong tổng thể hoặc ngược lại Nói cách khác, mô hình lựa chọn là phù hợp.Ngoài ra kiểm định mức độ giải thích của mô hình còn được còn được thể hiệnqua bảng Model Summary Đo lường được dựa trên chỉ tiêu -2LL (viết tắt của -2 loglikelihood) Quy tắc đánh giá độ phù hợp căn cứ trên -2LL ngược với quy tắc dựa trên

hệ số xác định mô hình R bình phương, nghĩa là giá trị -2LL càng nhỏ càng thể hiện độphù hợp cao Giá trị nhỏ nhất của -2LL là 0 (tức là không có sai số), khi đó mô hình cómột độ phù hợp hoàn hảo

1.4.3 Ước tính khả năng tối đa

Có thể sẽ sử dụng gói thống kê để tính toán các ước tính, đây là một mô tả ngắngọn về quy trình cơ bản Hàm khả năng cho n viết sai rồi quan sát nhị thức độc lập làmột sản phẩm của mật độ được đưa ra bởi phương trình

logL(β)=∑{yilog(πi)+(ni−yi)log(1−πi)}

Trong đó πi phụ thuộc vào hiệp phương sai xi là một vectơ của thông số βthông qua chuyển đổi logit của phương trình

Tại thời điểm này, có thể thực hiện các công cụ phái sinh thứ hai và dự kiến để

có được ma trận điểm và thông tin và phát triển quy trình chấm điểm của Fisher để tối

đa hóa khả năng đăng nhập Như được thể hiện trong Phụ lục B, quy trình này tươngđương với bình phương tối thiểu có trọng số lặp lại (IRLS) Với một ước tính hiệnnay β^ các thông số, có thể tính toán dự đoán tuyến tính η^=x′iβ và các giá trị đượctrang bị μ^= =logit-1(η) Với các giá trị này, tính toán biến phụ thuộc làm việc z, cóyếu tố:

zi=η^i+[[(yi−μ^i)/(ni−μ^i)] x ni]

Trang 11

Trong đó ni là mẫu số nhị thức, sau đó hồi quy z trên các phép tính tính toán ướclượng bình phương nhỏ nhất có trọng số.

β^=(X′WX)−1X′WzTrong đó W là một ma trận chéo của các trọng số với các mục

wii=μ^i(ni−μ^i)/niƯớc tính kết quả của β được sử dụng để thu được các giá trị phù hợp được cảithiện và quy trình được lặp lại để hội tụ

Các giá trị ban đầu phù hợp có thể thu được bằng cách áp dụng liên kết đến dữliệu Để tránh các vấn đề với số lượng 0 hoặc ni viết sai rồi (mà luôn luôn là trườnghợp với cá nhân zero-một dữ liệu), chúng tôi tính toán logits thực nghiệm thêm ½ cho

Trong đó w là ma trận các trọng số được đánh giá trong lần lặp cuối cùng

Các lựa chọn thay thế cho ước tính khả năng tối đa bao gồm bình phương tốithiểu có trọng số, có thể được sử dụng với dữ liệu được nhóm và phương pháp giảmthiểu thống kê chi bình phương của Pearson, có thể được sử dụng với cả dữ liệu đượcnhóm và riêng lẻ

1.5 Các chỉ số chính cần quan tâm khi sử dụng hồi quy logistic

Sau khi lắp mô hình, có khả năng các nhà nghiên cứu sẽ muốn kiểm tra sự đónggóp của các yếu tố dự đoán riêng lẻ Để làm như vậy, họ sẽ muốn kiểm tra các hệ sốhồi quy Trong hồi quy tuyến tính, các hệ số hồi quy đại diện cho sự thay đổi trong tiêuchí cho từng thay đổi đơn vị trong bộ dự báo Tuy nhiên, trong hồi quy logistic, các hệ

số hồi quy đại diện cho sự thay đổi trong logit cho mỗi thay đổi đơn vị trong bộ dựbáo Cho rằng logit không trực quan, các nhà nghiên cứu có khả năng tập trung vàohiệu ứng của yếu tố dự đoán đối với hàm số mũ của hệ số hồi quy - tỷ lệ chênhlệch Trong hồi quy tuyến tính, tầm quan trọng của hệ số hồi quy được đánh giá bằngcách tính toán kiểm tra Trong hồi quy logistic, có một số thử nghiệm khác nhau đượcthiết kế để đánh giá tầm quan trọng của một yếu tố dự đoán riêng lẻ, đáng chú ý nhất

là thử nghiệm tỷ lệ khả năng và thống kê Wald

Trang 12

• Thu nhập hộ gia đình (Thu nhập; làm tròn đến $ 1.000,00 gần nhất)

• Giới tính (IsFirting = 1 nếu người đó là nữ, 0 nếu không)

• Tình trạng hôn nhân (IsMarried = 1 nếu kết hôn, 0 nếu không)

• Giáo dục đại học (HasCol phe = 1 nếu có một hoặc nhiều năm học đại học, 0nếu không)

• Được tuyển dụng trong một nghề nghiệp (IsProf Professional = 1 nếu đượctuyển dụng trong một nghề nghiệp, 0 nếu không)

• Đã nghỉ hưu (IsRetired = 1 nếu đã nghỉ hưu, 0 nếu không)

• Không được tuyển dụng (Thất nghiệp = 1 nếu không được tuyển dụng, 0 nếukhông)

• Thời gian cư trú tại thành phố hiện tại (Độ dài; tính bằng năm)

• Thu nhập kép nếu kết hôn (Dual = 1 nếu thu nhập kép, 0 khác)

• Trẻ em (Trẻ vị thành niên = 1 nếu trẻ em dưới 18 tuổi trong gia đình, 0 nếukhông)

• Quyền sở hữu nhà (Sở hữu = 1 nếu cư trú riêng, 0 nếu không)

• Loại cư trú (Nhà = 1 nếu nơi cư trú là nhà ở một gia đình, 0 nếu không)

• Chủng tộc (Trắng = 1 nếu cuộc đua màu trắng, 0 nếu không)

• Ngôn ngữ (Tiếng Anh = 1 là ngôn ngữ chính trong gia đình là tiếng Anh, 0 nếukhông)

1.6 Ưu điểm và nhược điểm của hồi quy logistic

1.6.1 Ưu điểm:

Đây là một kỹ thuật được sử dụng rộng rãi vì nó rất hiệu quả, không đòi hỏi quánhiều tài nguyên tính toán, nó rất dễ hiểu, nó không yêu cầu các tính năng đầu vàophải được thu nhỏ, nó không yêu cầu điều chỉnh, dễ dàng thường xuyên và đầu ra xácsuất dự đoán hiệu chuẩn tốt

Hồi quy logistic hoạt động tốt hơn khi bạn loại bỏ các thuộc tính không liên quanđến biến đầu ra cũng như các thuộc tính rất giống nhau (tương quan) với nhau Do đó,Engineering Engineering đóng một vai trò quan trọng liên quan đến hiệu suất củaLogistic và hồi quy tuyến tính

Ngày đăng: 07/05/2021, 20:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w