BỘ Y TẾ ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ BÁO CÁO TỔNG HỢP KẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC PHÂN BIỆT PHÂN PHỐI CHUẨN VÀ PHÂN PHỐI LAP
Trang 1BỘ Y TẾ
ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ
BÁO CÁO TỔNG HỢP KẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC PHÂN BIỆT PHÂN PHỐI CHUẨN VÀ PHÂN PHỐI LAPLACE
Cơ quan chủ trì nhiệm vụ: KHOA KHOA HỌC CƠ BẢN Chủ trì nhiệm vụ: BÙI ANH TÚ
Thành phố Hồ Chí Minh - 2019
Trang 22
ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ
BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ
PHÂN BIỆT PHÂN PHỐI CHUẨN VÀ PHÂN PHỐI LAPLACE
Cơ quan chủ quản
Trang 3CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Tp HCM, ngày 14 tháng 6 năm 2019
BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
I THÔNG TIN CHUNG
1 Tên đề tài: Phân biệt phân phối Chuẩn và phân phối Laplace
Thuộc lĩnh vực : Toán ứng dụng
2 Chủ nhiệm nhiệm vụ: Họ và tên: BÙI ANH TÚ Ngày, tháng, năm sinh: 14/01/1983 Nam/ Nữ: Nam Học hàm, học vị: Thạc Sỹ Chức danh khoa học: Chức vụ: Giảng viên Điện thoại: Tổ chức: Nhà riêng: Mobile:
Fax: E-mail:
Tên tổ chức đang công tác: Bộ môn Toán, Khoa Khoa Học Cơ Bản Địa chỉ tổ chức:
Địa chỉ nhà riêng: D18.03 Chung cư Hạnh phúc, xã Bình Hưng, H Bình Chánh 3 Tổ chức chủ trì nhiệm vụ (1) : Tên tổ chức chủ trì nhiệm vụ: Khoa Khoa Học Cơ Bản Điện thoại: Fax:
E-mail:
Website:
Địa chỉ:
4 Tên cơ quan chủ quản đề tài: Đại học Y Dược thành phố Hồ Chí Minh
II TÌNH HÌNH THỰC HIỆN
1 Thời gian thực hiện nhiệm vụ:
- Theo Hợp đồng đã ký kết: từ tháng 6 năm 2017 đến tháng 1 năm 2019
- Thực tế thực hiện: từ tháng 6 năm 2017 đến tháng 6 năm 2019
Trang 4- Được gia hạn (nếu có): gia hạn 5 tháng
Từ tháng 1 năm 2019 đến tháng 6 năm 2019
2 Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 0 tr.đ, trong đó:
+ Kính phí hỗ trợ từ ngân sách khoa học của nhà trường: ……….tr.đ + Kinh phí từ các nguồn khác: ……….tr.đ
b) Tình hình cấp và sử dụng kinh phí từ nguồn ngân sách khoa học:
Số
TT
(Số đề nghị quyết toán)
Thời gian (Tháng, năm)
Kinh phí (Tr.đ)
Thời gian (Tháng, năm)
Kinh phí (Tr.đ)
- Lý do thay đổi (nếu có):
3 Tổ chức phối hợp thực hiện nhiệm vụ:
Số
TT
Tên tổ chức đăng ký theo Thuyết minh
Tên tổ chức đã tham gia thực hiện
Nội dung tham gia chủ yếu
Sản phẩm chủ yếu đạt được
Ghi chú*
1
2
- Lý do thay đổi (nếu có):
4 Cá nhân tham gia thực hiện nhiệm vụ:
Trang 5(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá
10 người kể cả chủ nhiệm)
Số
TT
Tên cá nhân đăng ký theo Thuyết minh
Tên cá nhân
đã tham gia thực hiện
Nội dung tham gia chính
Sản phẩm chủ yếu đạt được
Ghi chú*
(Nội dung, thời gian, kinh phí,
địa điểm, tên tổ chức hợp tác,
số đoàn, số lượng người tham
1
2
- Lý do thay đổi (nếu có):
6 Tình hình tổ chức hội thảo, hội nghị:
(Nội dung, thời gian,
kinh phí, địa điểm )
Ghi chú*
1
2
- Lý do thay đổi (nếu có):
7 Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục của đề cương, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)
Theo kế hoạch Thực tế đạt được
1
2
Trang 6
1 Sản phẩm KH&CN đã tạo ra:
- Lý do thay đổi (nếu có):
d) Kết quả đào tạo:
Theo kế hoạch Thực tế đạt
được
- Lý do thay đổi (nếu có):
đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp:
Số
TT
Tên sản phẩm đăng ký
(Thời gian kết
đạt được
Trang 71
2
- Lý do thay đổi (nếu có):
e) Thống kê danh mục sản phẩm KHCN đã được ứng dụng vào thực tế
Kết quả
sơ bộ
1
2
2 Đánh giá về hiệu quả do đề tài mang lại:
a) Hiệu quả về khoa học và công nghệ:
(Nêu rõ danh mục công nghệ và mức độ nắm vững, làm chủ, so sánh với trình độ công nghệ so với khu vực và thế giới…)
b) Hiệu quả về kinh tế xã hội:
(Nêu rõ hiệu quả làm lợi tính bằng tiền dự kiến do nhiệm vụ tạo ra so với các sản phẩm cùng loại trên thị trường…)
3 Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài:
I Báo cáo tiến độ
Trang 8MỤC LỤC
Chương 1 – TỔNG QUAN TÀI LIỆU 9
Chương 2 – PHƯƠNG PHÁP VÀ NỘI DUNG NGHIÊN CỨU 10
2.1 Kiến thức chuẩn bị - Logarit tỷ lệ hợp lý cực đại 10
2.2 Phân phối tiệm cận logarit của tỷ lệ hợp lý cực đại 12
2.3 Cỡ mẫu tối thiểu và bài toán kiểm định 13
2.3.1 Cỡ mẫu tối thiểu 13
2.3.2 Bài toán kiểm định 14
2.4 Thực nghiệm - ví dụ minh họa 15
2.4.1 Thực nghiệm số 15
2.4.2 Ví dụ 29
KẾT LUẬN VÀ KIẾN NGHỊ 35
Tài liệu tham khảo 36
Trang 9CHƯƠNG 1: TỔNG QUAN TÀI LIỆU
Cả hai phân phối Chuẩn và phân phối Laplace đều được dùng để phân tích những dữ liệu có tính đối xứng Trong đề tài này, tôi trình bày phương pháp sử dụng logarit của tỷ lệ hợp lý cực đại để phân biệt giữa hai phân phối
Giả sử chúng ta có n quan sát và chúng ta biết được nó thuộc một phân phối đối xứng Chúng ta muốn xem xét phân phối Chuẩn hay phân phối Laplace, phân phối nào phù hợp hơn để phân tích dữ liệu
Chúng ta biết rằng phân phối Chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực Phân phối Chuẩn thường được dùng để phân tích những dữ liệu đối xứng với phần đuôi ngắn Ngược lại, phân phối Laplace ít phổ biến hơn, cũng được dùng để phân tích dữ liệu đối xứng nhưng với phần đuôi dài hơn Mặc dù cả hai phân phối đều có thể phù hợp để phân tích những mẫu cỡ nhỏ, tuy nhiên ta vẫn mong muốn chọn được mô hình phân phối phù hợp hơn, chính xác hơn, nhất là khi các suy luận liên quan đến phần đuôi của phân phối
Với một bộ dữ liệu có sẵn, xác định xem nó thuộc phân phối Chuẩn hay phân phối Laplace là một bài toán phổ biến Rất nhiều tác giả đã nghiên cứu như Atkinson [1], [2], Cox [7], [8], Chamber and Cox [5], Dyer [10] , Chen [6] , Kundu [14], [15] và Gokarna Raj Aryal [19]
Dumonceaux, Antle và Hass [8], [9] sử dụng tỷ lệ hợp lý để phân biệt hai phân phối Đặc biệt Kundu [12], [13] cũng dùng tỷ lệ hợp lý cực đại để phân biệt hai phân phối, hơn nữa sử dụng cách tiếp cận của White [18], [19], Kundu đạt được phân phối tiệm cận của logarit tỷ lệ hợp lý cực đại và một số tính chất của nó Trong đề tài này, chúng tôi cũng sử dụng logarit của tỷ lệ hợp lý cực đại để phân biệt hai phân phối đồng thời lấy hai ví dụ tính số cụ thể
Trang 10CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGUYÊN CỨU
2.1 Kiến thức chuẩn bị - Logarit tỷ lệ hợp lý cực đại
Định Nghĩa 2.1.1 Cho biến ngẫu nhiên X , với hai tham số , 0 X
2 2
Ta có những tính chất cơ bản của hai phân phối
Trang 11Hình 2.1: Đồ thị hàm mật độ của phân phối chuẩn chính tắc và phân phối Laplace chính tắc
Định Nghĩa 2.1.3 Cho mẫu X , X , , X1 2 n từ phân phối chuẩn hoặc phân phối Laplace Hàm hợp lý khi dữ liệu tuân theo phân phối chuẩn hoặc phân phối Laplace lần lượt là
1
1 2 2
2
n i i
Trang 12Định nghĩa 2.1.4 Cho mẫu X , X , , X1 2 n theo phân phối chuẩn 2
;
N
L
l T
X n
X n
X n
Dựa vào T, cách phân biệt sau có thể được dùng, chọn phân phối chuẩn nếu T > 0 và chọn phân phối Laplace nếu T < 0 Nếu dữ liệu tuân theo phân
N ; thì phân phối của T sẽ độc lập với , Tương tự, nếu
dữ liệu tuân theo phân phối Laplace L ; thì T sẽ độc lập với ,
Tiếp theo, một số tính chất của Logarit của tỷ lệ hợp lý cực đại T
2.2 Phân phối tiệm cận logarit của tỷ lệ hợp lý cực đại
Định lý 2.2.1 Nếu mẫu X , X , , X1 2 n tuân theo phân phối 2
N n
N n
Trang 13Định lý 2.2.2 Nếu mẫu X , X , , X1 2 n tuân theo phân phối L ; thì T sẽ có phân phối tiệm cận chuẩn với trung bình và phương sai lần lượt là
L n
L n
Chứng minh Chứng minh chi tiết có trong white [18] và Kundu [12]
Tiếp theo là xác định cỡ mẫu và bài toán kiểm định
2.3 Cỡ mẫu tối thiểu và bài toán kiểm định
2.3.1 Cỡ mẫu tối thiểu
Chúng ta đi xác định cỡ mẫu tối thiểu để có thể kiểm định phân biệt hai phân phối Chuẩn và Laplace
Giả sử mẫu theo phân phối Chuẩn, theo định lý 2.2.1 thì T có phân phối tiệm cận Chuẩn với trung bình và phương sai lần lượt là E N T , V N T Ta có
N N
Trang 14Giả sử mẫu theo phân phối Laplace, theo định lý 2.2.2 thì T có phân phối tiệm cận Chuẩn với trung bình và phương sai lần lượt là E L T , V T L Khi đó
L L
Nếu H0 đúng thì T có phân phối tiệm cận chuẩn với trung bình và phương sai lần lượt là E N T , V N T Khi đó
N N
Trang 15Nếu H0 đúng thì T có phân phối tiệm cận chuẩn với trung bình và phương sai lần lượt là E L T , V T L Khi đó
L L
và nên ta chọn 0, 1 Ta tạo ra các mẫu có kích thước n ( n = 80, 100, 150) từ phân phối chuẩn N (0;1)
Với n = 80, để khảo sát tính chất của T, ta tạo ra 100 mẫu ngẫu nhiên
có kích thước 80 từ phân phối Chuẩn chính tắc, tính ra các giá trị của T tương ứng, ta được:
7.566263 1.969696 5.025731 3.947427 0.946837 2.033313 7.193405 6.077551 0.746886 6.752438 0.441611 3.472533 4.791525 -2.86022 0.932365
2.098658 6.905844 4.313414 1.048759 2.369747 0.719834 -0.80427 1.472695 6.048985 4.273256
Trang 166.603551 0.653261 2.233839 5.179981 4.173286
2.490191 4.369941 8.215745 -1.72474 5.745081 6.724297 5.955094 1.674008 4.591882 5.559403 3.912094 6.502113 6.242825 3.299413 5.566208 2.937453 4.215167 6.974361 3.750043 8.019776 7.113594 7.415801 6.355225 -0.20958 5.743013 2.846018 3.610114 1.072119 -2.51526 2.126661 3.403991 5.555292 3.033166 4.819692 7.266231
2.297061 2.797254 2.467877 4.511483 4.97173 4.474192 0.093821 6.825833 6.140081 -1.98437
Ta có
Trang 17Lower Bound 3.2632 Upper
a Lilliefors Significance Correction
Với kích thước mẫu n = 80, ta thấy biến ngẫu nhiên T có thể nói T không theo phân phối chuẩn, dựa vào phép kiểm Shapỉo – Wilk Tuy nhiên, nếu dựa vào phép kiểm Kolmogorov-Smirnov thì ta nói chưa đủ bằng chứng
để nói T không có phân phối chuẩn Do đó, ta cần lấy cỡ mẫu lớn hơn để khẳng định T có phân phối Chuẩn hay không Tiếp theo, ta lấy cỡ mẫu lớn hơn
Với n = 100, ta cũng tạo ra 100 mẫu ngẫu nhiên có kích thước 100 từ phân phối Chuẩn chính tắc, tính các giá trị của T tương ứng, ta được
Trang 187.462017 7.62188 -3.08752 -0.33323 9.158411
2.258034 2.957459 8.706143 4.666467 7.29624 5.745321 3.597129 5.544052 3.912283 3.08518 0.489232 1.943758 1.414585 2.669739 1.628301 6.467762 5.085133 10.59607 5.271677 7.649087 4.490571 2.381464 4.172819 8.162025 5.534039 4.013174 3.333684 5.112039 6.219335 6.770172
8.304956 5.121989 6.320082 2.486859 5.162262 2.015972 7.484515 0.909162 1.446928 1.284667 4.958322 1.394254 2.099521 -0.53598 0.76093 7.376364 4.864429 5.824458 5.878221 7.148658
4.257079 1.115071 3.001534 6.595905 3.047249
Ta có
Trang 19Lower Bound 3.7839 Upper
Bound 4.8819
Trang 20Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig Statistic df Sig
* This is a lower bound of the true significance
a Lilliefors Significance Correction
Từ bảng trên, ta thấy cả hai phép kiểm Kolmogorov-Smirnov và Shapiro-Wilk đều không có cơ sở để kết luận T không có phân phối chuẩn
Để chắc chắn hơn, ta lấy cỡ mẫu lớn hơn để có cơ sở khẳng định T có phân phối Chuẩn
Với n = 150, tương tự trên, ta được
6.064589 5.397067 10.75666 6.692664 7.905257
Trang 21Lower Bound 6.7034 Upper
Bound 8.0311
Trang 22Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig Statistic df Sig
N.15
*
* This is a lower bound of the true significance
a Lilliefors Significance Correction Với cỡ mẫu lớn thế này, ta hoàn toàn khẳng định được không bác bỏ được giả thuyết không, ta hoàn toàn chấp nhận Có nghĩa là ta khẳng định được T có phân phối chuẩn Chú ý rẳng, với cõ mẫu mà chúng tôi vừa chọn,
và nên ta chọn 0, 1 Ta tạo ra các mẫu có kích thước n ( n = 80, 100, 150) từ phân phối Laplace L (0;1)
Với n = 80, để khảo sát tính chất của T, ta tạo ra 100 mẫu ngẫu nhiên
có kích thước 80 từ phân phối Laplace chính tắc, tính ra các giá trị của T tương ứng, ta được:
-2.0914 -5.2562 -0.7412 -4.3347 -11.015 -8.3352 -3.6128 -5.4051 -2.6912 -2.9958 -0.3438 -1.2499 -1.8594 -4.6786 -5.3699
-5.6397 1.8614 -3.9015 -9.6715 -0.4106 -7.3722 -1.1804 -10.583 -15.154 -9.2906 -7.0816 -6.1525 -7.1512 -5.3135 2.6568 2.2758 -5.6277 -5.7981 -6.1261 -1.0835
Trang 23-6.164 -8.2178 -3.9066 -4.4168 -9.1931 -1.1999 -7.3616 -4.3735 -3.3299 1.7026
0.2137 -5.8299 -1.4789 -10.663 -6.977 5.6474 -12.683 -2.4884 -1.0323 -5.6019
Trang 24Lower Bound -6.2925 Upper
a Lilliefors Significance Correction
Với kích thước mẫu n = 80, ta thấy biến ngẫu nhiên T có thể nói T không theo phân phối Chuẩn Do đó, ta cần lấy cỡ mẫu lớn hơn để khẳng định
T có phân phối Chuẩn hay không Tiếp theo, ta lấy cỡ mẫu lớn hơn
Với n = 100, ta cũng tạo ra 100 mẫu ngẫu nhiên có kích thước 100 từ phân phối Laplace chính tắc, tính các giá trị của T tương ứng, ta được
-0.63351 -3.62628 -4.73154 -13.1803 -8.60477 -7.80064 -5.58607 -4.09669 -6.64598 -6.27738 -13.4522 -7.15968 -4.77936 -5.98177 -14.4393 -11.7915 -6.08182 -18.0576 0.380212 -5.49054 -7.64513 -2.17061 -2.06647 -5.78558 -4.70686 -7.57303 -0.76617 -8.02256 -3.80965 -10.3714
Trang 25-7.53021 -5.20656 -6.10181 -9.09858 -6.19595 -5.52839 -7.70967 -11.0471 -8.64514 -4.35561 -2.40099 -7.63677 -5.23321 -4.84391 -16.8044
Ta có
Trang 26Lower Bound -7.6813 Upper
a Lilliefors Significance Correction
Với kích thước mẫu n = 100, ta có thể nói T không theo phân phối chuẩn, dựa vào phép kiểm Shapỉo – Wilk Tuy nhiên, nếu dựa vào phép kiểm Kolmogorov-Smirnov thì ta nói chưa đủ bằng chứng để nói T không có phân phối chuẩn Do đó, ta cần lấy cỡ mẫu lớn hơn để khẳng định T có phân phối Chuẩn hay không Tiếp theo, ta lấy cỡ mẫu lớn hơn
Với n = 150, tương tự trên, ta được
-0.99717 -4.75803 -13.6354 -14.3865 -12.6083
-12.6074 -7.99173 -11.2916 -2.80566 -19.5272 -10.2409 -1.78642 -8.03508 -13.5259 -9.21488
-9.98786 -9.31533 -6.32673 -6.47248 -13.2668
Trang 27Ta có
Trang 28Lower Bound
10.7408 Upper
* This is a lower bound of the true significance
a Lilliefors Significance Correction
Ta hoàn toàn khẳng định được không bác bỏ được giả thuyết không, ta hoàn toàn chấp nhận Có nghĩa là ta khẳng định được T có phân phối chuẩn Chú ý rẳng, với cõ mẫu mà chúng tôi vừa chọn, thỏa mãn với ước lượng cỡ mẫu chúng tôi ban đầu n 128
Như vậy, rõ ràng ta thấy đối với dữ liệu tuân theo phân phối Laplace thì
ta cần cỡ mẫu lớn hơn 128 thì đại lượng ngẫu nhiên T có phân phối Chuẩn Điều này hoàn toàn phù hợp với ước lượng cỡ mẫu chúng tôi ban đầu Do đó, việc sử dụng dữ liệu mẫu mà chúng ta không biết nó có tuân theo phân phối Chuẩn hay không thì chúng tôi nghĩ các bạn nên lấy cỡ mẫu lớn hơn 128 thì đại lượng ngẫu nhiên T sẽ tuân theo phân phối Chuẩn
Trang 30xứng
Trang 31Với độ nhọn của mẫu ( Kurtosis) là G2 1, 623, dữ liệu có độ nhọn nhọn hơn phân phối chuẩn có cùng độ lệch chuẩn
Như vậy dữ liệu được xem như đối xứng Tiếp theo ta sẽ làm phép kiểm định để xem phân phối Laplace hay phân phối chuẩn phân phối nào phù hợp hơn
Ta có
0, 01266 1,14104
0, 005 0,8372
Nếu H0 đúng thì T có phân phối tiệm cận chuẩn với trung bình và phương sai lần lượt là E N T , V N T Khi đó
N N
Ví dụ 2 Ta xét tập số liệu ngẫu nhiên được tạo ra từ phần mềm SPSS như
sau: