BỘ Y TẾĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ BÁO CÁO TỔNG HỢP KẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC Hồi qui Logistic Logistic Regression Cơ quan
Trang 1BỘ Y TẾ
ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ
BÁO CÁO TỔNG HỢP KẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
Hồi qui Logistic ( Logistic Regression)
Cơ quan chủ trì nhiệm vụ: KHOA KHOA HỌC CƠ BẢN Chủ trì nhiệm vụ: Chu Văn Thọ
Thành phố Hồ Chí Minh - 2019
.
Trang 2ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ
BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ
Hồi qui Logistic ( Logistic Regression)
Cơ quan chủ quản
Trang 3CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Tp HCM, ngày 14 tháng 6 năm 2019.
BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
I THÔNG TIN CHUNG
1 Tên đề tài: Phân biệt phân phối Chuẩn và phân phối Laplace
Thuộc lĩnh vực : Toán ứng dụng
2 Chủ nhiệm nhiệm vụ:
Họ và tên: Chu Văn Thọ
Ngày, tháng, năm sinh: 23/07/1956 Nam/ Nữ: Nam
Học hàm, học vị: Tiến sĩ
Chức danh khoa học: Chức vụ: Giảng viên
Điện thoại: Tổ chức: Nhà riêng: Mobile: 0908707990Fax: E-mail:
Tên tổ chức đang công tác: Bộ môn Toán, Khoa Khoa Học Cơ Bản
Địa chỉ tổ chức: 217 Hồng Bàng, Phường 11, Quận 5, Tp HCM
Địa chỉ nhà riêng:
:
Tên tổ chức chủ trì nhiệm vụ: Khoa Khoa Học Cơ Bản
Điện thoại: Fax:
E-mail:
Website:
Địa chỉ: 217 Hồng Bàng, Phường 11, Quận 5, Tp HCM
4 Tên cơ quan chủ quản đề tài: Đại học Y Dược thành phố Hồ Chí Minh
II TÌNH HÌNH THỰC HIỆN
1 Thời gian thực hiện nhiệm vụ:
1 Tên Khoa hoặc Trung tâm, đơn vị - nơi quản lý trực tiếp cá nhân làm chủ nhiệm đề tài.
.
Trang 4- Theo Hợp đồng đã ký kết: từ tháng 5 năm 2017 đến tháng 5 năm 2019
- Thực tế thực hiện: từ tháng 5 năm 2017 đến tháng 6 năm 2019
- Được gia hạn (nếu có): gia hạn 1 tháng
Từ tháng 5 năm 2019 đến tháng 6 năm 2019
2 Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 0 tr.đ, trong đó:
+ Kính phí hỗ trợ từ ngân sách khoa học của nhà trường: ……….tr.đ
Thời gian
(Tháng, năm)
Kinh phí(Tr.đ)
Thời gian(Tháng, năm)
Kinh phí(Tr.đ)1
- Lý do thay đổi (nếu có):
3 Tổ chức phối hợp thực hiện nhiệm vụ:
Nội dung tham gia chủ yếu
Sản phẩm chủ yếu đạt được
Ghi chú*
.
.
Trang 52
- Lý do thay đổi (nếu có):
4 Cá nhân tham gia thực hiện nhiệm vụ:
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 người kể cả chủ nhiệm)
Nội dung tham gia chính
Sản phẩm chủ yếu đạt được
Ghi chú*
(Nội dung, thời gian, kinh phí,
địa điểm, tên tổ chức hợp tác,
số đoàn, số lượng người tham
1
2
- Lý do thay đổi (nếu có):
6 Tình hình tổ chức hội thảo, hội nghị:
- Lý do thay đổi (nếu có):
7 Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục của đề cương, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)
.
Trang 6Theo kếhoạch Thực tế đạtđược1
2
- Lý do thay đổi (nếu có):
III SẢN PHẨM KH&CN CỦA ĐỀ TÀI
1 Sản phẩm KH&CN đã tạo ra:
Thực tế đạt được
Theo
kế hoạch đạt đượcThực tế1
Trang 7d) Kết quả đào tạo:
Theo kế hoạch Thực tế đạt
được
- Lý do thay đổi (nếu có):
đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp:
Theo
kế hoạch đạt đượcThực tế1
2
- Lý do thay đổi (nếu có):
e) Thống kê danh mục sản phẩm KHCN đã được ứng dụng vào thực tế
Kết quả
sơ bộ
1
2
2 Đánh giá về hiệu quả do đề tài mang lại:
a) Hiệu quả về khoa học và công nghệ:
(Nêu rõ danh mục công nghệ và mức độ nắm vững, làm chủ, so sánh với trình độ công nghệ so với khu vực và thế giới…)
b) Hiệu quả về kinh tế xã hội:
(Nêu rõ hiệu quả làm lợi tính bằng tiền dự kiến do nhiệm vụ tạo ra so với các sản phẩm cùng loại trên thị trường…)
3 Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài:
Số
Ghi chú
(Tóm tắt kết quả, kết luận chính, người chủ trì…)
I Báo cáo tiến độ
Lần 1
.
Trang 9ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
HỒI QUI LOGISTIC ĐA BIẾN The Multiple Logistic Regression
TS CHU VĂN THỌ
Abstract
Logistic regression has proven to be one of the most versatile techniques in the class of generalized linearmodels Whereas linear regression models equate the expected value of the dependent variable to a linearcombination of independent variables and their corresponding parameters, generalized linear models equatethe linear component to some function of the probability of a given outcome on the dependent variable Inlogistic regression, that function is the logit transform: the natural logarithm of the odds that some eventwill occur
What distinguishes a logistic regression model from the linear regression model is that the outcome
variable in logistic regression model is binary or dichotomous This difference between logistic regressionand linear regression is reflected both in the choice of a parametric model and in the assumptions
In linear regression, parameters are estimated using the method of least squares by minimizing the sum ofsquared deviations of predicted values from observed values In logistic regression, least squares estimation
is not capable of producing minimum variance unbiased estimators for the actual parameters In its place,maximum likelihood estimation is used to solve for the parameters that best fit the logistic regressionequation
We have proved the asymptotic properties of the maximum likelihood estimator: Consistency, AsymptoticNormality, and Asymptotic Efficiency We have found that the best unbiased estimator has a variance that
is equal to The Cramer-Rao Lower Bound Finally, we have applied the estimated asymptotic variance ofthe maximum likelihood estimator in the logistic regression model
A - PHẦN NGHIÊN CỨU CƠ BẢN
1 Ƣớc lƣợng Cực đại Khả năng (The Maximum Likelihood Estimator – MLE)
2 Hồi qui Logistic Đa biến (The Multiple Logistic Regression)
B - PHẦN NGHIÊN CỨU ỨNG DỤNG
3 Một số bài toán ứng dụng Hồi qui Logistic
Bài toán 1: Tuổi và Bệnh Động mạch vành (Age and Coronary Heart Disease - CHD)
Bài toán 2: Nghiên cứu về Trọng lƣợng trẻ sơ sinh thấp (The Low Birth Weight Study - LOW)
David W.Hosmer and Stanley Lemeshow (2000) Applied Logistic Regression.
Second Edition A Wiley Interscience Publication John Wiley & Sons, Inc, Newyork.
4 Kiểm định giả thiết (Hypothesis Testing)
.
Trang 10ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
A - PHẦN NGHIÊN CỨU CƠ BẢN
1 Ƣớc lƣợng Cực đại Khả năng (The Maximum Likelihood Estimator – MLE)
1.1 Hàm Likelihood
Gọi ,…, là một mẫu các biến ngẫu nhiên độc lập và có cùng phân phối (an independent and
identically distributed sample - iid sample) với hàm mật độ xác suất (probability density function - pdf) làf( ; ), trong đó là vectơ tham số, = .
Thí dụ 1: Phân phối Bernoulli
Gọi ,…, là một mẫu iid, với ~ Bernoulli( ) = 1 với xác suất and = 0 với xác suất 1 – ,trong đó 0 ≤ ≤ 1 Hàm pdf cho là f( ; ) = , = 0,1
Hàm Likelihood theo biến tham số , với mẫu quan sát cho trước = ( ), là
Thí dụ 2: Phân phối chuẩn
Gọi ,…, là một mẫu iid, với ~ N(μ; ), μ R, R+
Hàm pdf cho là f( ; ) =
√ exp(−
) và vectơ tham số = (μ; ), R
Hà t cho trước = ( ), là
.
.
Trang 11ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
mẫu quan sát x nào đó, sao cho
L( |x) ≠ L( |x).
1.3 Ƣớc lƣợng Cực đại Khả năng - MLE
Gọi ,…, là một mẫu các biến ngẫu nhiên độc lập và có cùng phân phối, với hàm mật độ xác suất làf( ; ), trong đó là vectơ tham số, = .
Định nghĩa:
Ƣớc lƣợng cực đại khả năng, ký hiệu ̂ , là giá trị của làm cực đại L( |x).
Thông thường rất khó tìm giá trị của làm cực đại L( |x), sẽ dể hơn nếu ta tìm giá trị của làm cực đạihàm log-likelihood lnL( |x) Do đó, ta cũng có định nghĩa khác:
Hàm log-likelihood lnL( |x) được viết dưới dạng:
lnL( |x) = ln∏ = ∑
Bài toán xác định ước lượng cực đại khả năng là bài toán tìm cực đại (maximization problem), nên ta cần
biết các điều kiện để đủ thỏa bài toán tìm cực đại
1.4 Điều kiện Chính qui (Regularity Conditions)
Gọi ,…, là một mẫu các biến ngẫu nhiên độc lập và có cùng phân phối, với hàm mật độ xác suất làf( ; ), trong đó là vectơ tham số, = .
(Điều kiện này bảo đảm sự tồn tại của xấp xỉ trong khai triển Taylor và phương sai hữu hạn của các đạohàm theo của lnL( |x))
(Điều kiện này cho phép ta rút gọn chuỗi Taylor)
.
Trang 12ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
1 Giá của biến ngẫu nhiên X, = {x: f(x; ) > 0}, không phụ thuộc
khi vế phải hữu hạn:
∫ = ∫ 1.5 Vectơ Score
Vectơ Score, ký hiệu S( |x), là vectơ :
Thí dụ 3: Phân phối Bernoulli
Hàm likelihood theo biến tham số , mẫu quan sát cho trước = ( ):
Hàm log-likelihood:
lnL( |x) = ∑ + ∑ Phương trình likelihood:
Trang 13ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
ML
, nên ̂ = ̅
Thí dụ 4: Phân phối chuẩn
Hàm likelihood theo biến tham số , mẫu quan sát cho trước = ( ):
Ma trận Hessian tương ứng với , ký hiệu H( | ), là ma trận , với l, j = 1,2,…,k: .
Trang 14ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
Ma trận Thông tin, ký hiệu I( |x), là ma trận −E[H( |x)]:
Ma trận Thông tin tương ứng với , ký hiệu I( | ), là ma trận −E[H( | )]:
Trang 15ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
Trang 16ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
= ∫ .Giá trị tích phân trên không đổi khi ta thay trong mẫu quan sát = ( ) Do đó,
Trang 17ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
Trang 18ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
1) Sự nhất quán (Consistency):
2) Tiệm cận theo phân phối chuẩn (Asymptotic normality):
√ ( ̂ ) → N(0; ) Nghĩa là
hoặc
̂ N( ; ).
3) Tiệm cận hiệu quả (Asymptotic efficiency):
là
1.9.1 Tính nhất quán của MLE ̂ (Consistency):
Gọi ,…, là một mẫu iid, với hàm chính qui pdf f( ), mẫu quan sát = ( ) và vectơ tham
số , với = Gọi là giá trị thực chưa biết của số Ký hiệu [.] là kỳ vọng theo
Trang 19ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
Vì mẫu là iid và hàm pdf f( ) là hàm chính qui, nên ta có thể sử dụng Định luật Yếu của Số lớn
(The Weak Law of Large Numbers - WLLN), hay định luật Khinchin, phát biểu như sau:
Trung bình mẫu hội tụ theo xác suất (converges in probability) về giá trị kỳ vọng khi mẫu lớn,
Nghĩa là, với mọi ε > 0, → P( ̅ µ| > ε) = 0.
Do đó, với mọi , ) → ( ) Nghĩa là, với mọi , với mọi ε > 0, → P( ( )| > ε) = 0
1.9.1.2 Định lý về Likelihood Inequality
, ( ) đạt giá trị lớn nhất duy nhất tại =
Bất đẳng thức Thông tin Shannon-Komogorov (The Shannon-Komogorov Information Inequality)
cho kết quả sau:
Giả thiết tham số có thể định dạng, nghĩa là, nếu ≠ thì K > 0,
.
Trang 20ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
Vậy, nếu thì K > 0, , nghĩa là, ), và ( ) đạt giá trị lớn nhất duy nhất tại =
1.9.1.3 Định lý về Consistency of MLE
CM: (định hướng)
Ta có các kết quả sau:
• Theo các điều kiện chính qui, hàm likelihood liên tục và khả vi
• là điểm cực đại duy nhất của hàm ( ) (theo định lý trên)
• ̂ là điểm cực đại của hàm (theo định nghĩa)
• ) → ( ) đều theo , nghĩa là, với mọi , với mọi ε > 0, → P( ( )| > ε) = 0 Suy ra, ̂ ) → ( ̂ ), nghĩa là, với mọi ε > 0, → P( ( ̂ ) ( ̂ )| > ε) = 0
Định lý:
√ ( ̂ ) → N(0;
Nghĩa là, Avar(√ ( ̂ )) = ,
̂ N( ; ).
CM: Kh :
.
.
Trang 21ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
trong đó ̅ nằm trên đoạn thẳng nối ̂ và , ̅ = λ ̂ + (1 λ) , với λ (0,1)
̅ ( ̂ ) = Suy ra
Theo kết quả của tính nhất quán của ̂ ,
Trang 22ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
̂ N( ; )
1.9.3.1 Bất đẳng thức Chận dưới Cramer - Rao (The Cramer - Rao Lower Bound Inequality)
Định lý:
Var(̂ ) ≥
Nếu là vectơ, thì Var( ̂ ) ≥ có nghĩa là Var(̂ ) là ma trận nửa-xác định
dương (matrix positive semi-definite).
Chú ý:
được gọi là Chận dưới Cramér - Rao, vì là chận dưới của các phương sai củaước lượng tham số thỏa tính chất nhất quán và tiệm cận theo phân phối chuẩn (Cramer - Rao Lower Boundexpresses a lower bound on the variance of a consistent, asymptotically normally distributed estimators)
MLE ̂ có phân phối ở tiệm cận là phân phối chuẩn:
M hương sai tiệm cận nhỏ nhất (MLE is an
Bản quyền tài liệu thuộc về Thư viện Đại học Y Dược TP.Hồ Chí Minh.
.
Trang 23ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
unbiased estimator, with the smallest asymptotic variance)
Thí dụ 7: Phân phối Bernoulli
là giá trị thực của tham số CRLB = =
MLE ̂ = ̅ for Ta có E[ ̂ ] = E[ ̅] = và Var( ̂) = Var( ̅) = = CRLB
Vậy MLE ̂ là ước lượng không chệch của và ̂ là ước lượng tiệm cận hiệu quả
Thí dụ 8: Phân phối chuẩn
Mặt khác, Var( ̂ ) = Var( ̅) = = CRLB Vậy ̂ = ̅ là ước lượng tiệm cận hiệu quả của
Ta có MLE ̂ = ∑ ̅ và E[ ̂ ] = ≠ Do đó ̂ là ước lượng chệch của
Bản quyền tài liệu thuộc về Thư viện Đại học Y Dược TP.Hồ Chí Minh.
Trang 24ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
1.10 Ước lượng Phương sai Tiệm cận của MLE (Estimating the Asymptotic Variance of the MLE)
Ma trận phương sai-hiệp phương sai tiệm cận (the asymptotic variance-covariance matrix) của MLE ̂ là
ma trận gồm những phần tử là hàm của giá trị thực chưa biết :
1.10.3 Ước lượng Phương sai Tiệm cận của MLE
Tùy theo cách ước lượng ma trận phương sai-hiệp phương sai tiệm cận của MLE, khi đó ước lượng của
tiệm cận theo phân phối chuẩn của MLE ̂ là:
)) = ̂ ̂
Bản quyền tài liệu thuộc về Thư viện Đại học Y Dược TP.Hồ Chí Minh.
.
Trang 25ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ
Nghĩa là ̂ N( ; ̂ ̂ )
Ước lượng của ma trận phương sai-hiệp phương sai tiệm cận của MLE ̂ là ̂ ( ̂ ) = ̂ ̂
2 Hồi qui Logistic Đa biến (The Multiple Logistic Regression)
2.1 Mô hình Hồi qui Logistic Đa biến (The Multiple Logistic Regression Model)
Gọi ,…, là các biến ngẫu nhiên độc lập, trong đó mỗi biến là một vectơ hàng, gồm k phần tử làcác biến độc lập , , , , với i = 1,2,…,n
Biến có giá trị là , với là một vectơ hàng, gồm k phần tử là , , , R và i = 1, 2, …, n.Coi biến ngẫu nhiên Y là vectơ cột, gồm n phần tử là các biến nhị phân , có giá trị là = 1 để biểu thị sự
“có mặt” (hay “thành công”), hoặc có giá trị là = 0 để biểu thị sự “vắng mặt” (hay “thất bại”), tương ứngvới
Gọi là vectơ cột, gồm n phần tử là các xác suất = , trong đó = P( = 1| ).