BỘ Y TẾĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ BÁO CÁO TỔNG HỢPKẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC PHÂN BIỆT PHÂN PHỐI CHUẨN VÀ PHÂN PHỐI LAPLACE
Trang 1BỘ Y TẾ
ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ
BÁO CÁO TỔNG HỢPKẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC PHÂN BIỆT PHÂN PHỐI CHUẨN VÀ PHÂN PHỐI LAPLACE
Cơ quan chủ trì nhiệm vụ: KHOA KHOA HỌC CƠ BẢN Chủ trì nhiệm vụ: BÙI ANH TÚ
Thành phố Hồ Chí Minh - 2019
Trang 2ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ
BÁO CÁO TỔNG HỢPKẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ
PHÂN BIỆT PHÂN PHỐI CHUẨN VÀ PHÂN PHỐI LAPLACE
Cơ quan chủ quản
Trang 3CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Tp HCM, ngày 14 tháng 6 năm 2019.
BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
I THÔNG TIN CHUNG
1 Tên đề tài: Phân biệt phân phối Chuẩn và phân phối Laplace
Thuộc lĩnh vực : Toán ứng dụng
2 Chủ nhiệm nhiệm vụ:
Họ và tên: BÙI ANH TÚ
Ngày, tháng, năm sinh: 14/01/1983 Nam/ Nữ: Nam
Học hàm, học vị: Thạc Sỹ
Chức danh khoa học: Chức vụ: Giảng viên
Điện thoại: Tổ chức: Nhà riêng: Mobile: .
Fax: E-mail:
Tên tổ chức đang công tác: Bộ môn Toán, Khoa Khoa Học Cơ Bản Địa chỉ tổ chức:
Địa chỉ nhà riêng: D18.03 Chung cư Hạnh phúc, xã Bình Hưng, H Bình Chánh 3 Tổ chức chủ trì nhiệm vụ (1) : Tên tổ chức chủ trì nhiệm vụ: Khoa Khoa Học Cơ Bản Điện thoại: Fax:
E-mail:
Website:
Địa chỉ:
4 Tên cơ quan chủ quản đề tài: Đại học Y Dược thành phố Hồ Chí Minh II TÌNH HÌNH THỰC HIỆN
Trang 4- Được gia hạn (nếu có): gia hạn 5 tháng.
Từ tháng 1 năm 2019 đến tháng 6 năm 2019
2 Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 0 tr.đ, trong đó:
+ Kính phí hỗ trợ từ ngân sách khoa học của nhà trường: ……….tr.đ + Kinh phí từ các nguồn khác: ……….tr.đ.
b) Tình hình cấp và sử dụng kinh phí từ nguồn ngân sách khoa học:
Số
TT
Theo kế hoạch Thực tế đạt được Ghi chú
(Số đề nghị quyết toán)
Thời gian (Tháng, năm)
Kinh phí (Tr.đ)
Thời gian (Tháng, năm)
Kinh phí (Tr.đ) 1
Theo kế hoạch Thực tế đạt được
- Lý do thay đổi (nếu có):
3 Tổ chức phối hợp thực hiện nhiệm vụ:
Số
TT
Tên tổ chức đăng ký theo Thuyết minh
Tên tổ chức đã tham gia thực hiện
Nội dung tham gia chủ yếu
Sản phẩm chủ yếu đạt được
Ghi chú*
1
2
- Lý do thay đổi (nếu có):
4 Cá nhân tham gia thực hiện nhiệm vụ:
Trang 5
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá
10 người kể cả chủ nhiệm)
Số
TT
Tên cá nhân đăng ký theo Thuyết minh
Tên cá nhân
đã tham gia thực hiện
Nội dung tham gia chính
Sản phẩm chủ yếu đạt được
Ghi chú*
(Nội dung, thời gian, kinh phí,
địa điểm, tên tổ chức hợp tác,
số đoàn, số lượng người tham
1
2
- Lý do thay đổi (nếu có):
6 Tình hình tổ chức hội thảo, hội nghị:
- Lý do thay đổi (nếu có):
7 Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục của đề cương, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)
Theo kế hoạch Thực tế đạtđược
Trang 61 Sản phẩm KH&CN đã tạo ra:
(Tạp chí, nhà xuất bản)
Theo
kế hoạch đạt đượcThực tế1
2
- Lý do thay đổi (nếu có):
d) Kết quả đào tạo:
Theo kế hoạch Thực tế đạt
được
- Lý do thay đổi (nếu có):
đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp:
Số
TT
Tên sản phẩm đăng ký
Trang 72
- Lý do thay đổi (nếu có):
e) Thống kê danh mục sản phẩm KHCN đã được ứng dụng vào thực tế
Kết quả
sơ bộ
1
2
2 Đánh giá về hiệu quả do đề tài mang lại:
a) Hiệu quả về khoa học và công nghệ:
(Nêu rõ danh mục công nghệ và mức độ nắm vững, làm chủ, so sánh với trình độ công nghệ so với khu vực và thế giới…)
b) Hiệu quả về kinh tế xã hội:
(Nêu rõ hiệu quả làm lợi tính bằng tiền dự kiến do nhiệm vụ tạo ra so với các sản phẩm cùng loại trên thị trường…)
3 Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài:
I Báo cáo tiến độ
Trang 8MỤC LỤC
Chương 1 – TỔNG QUAN TÀI LIỆU 9
Chương 2 – PHƯƠNG PHÁP VÀ NỘI DUNG NGHIÊN CỨU 10
2.1 Kiến thức chuẩn bị - Logarit tỷ lệ hợp lý cực đại 10
2.2 Phân phối tiệm cận logarit của tỷ lệ hợp lý cực đại 12
2.3 Cỡ mẫu tối thiểu và bài toán kiểm định 13
2.3.1 Cỡ mẫu tối thiểu 13
2.3.2 Bài toán kiểm định 14
2.4 Thực nghiệm - ví dụ minh họa 15
2.4.1 Thực nghiệm số 15
2.4.2 Ví dụ 29
KẾT LUẬN VÀ KIẾN NGHỊ 35
Tài liệu tham khảo 36
Trang 9
CHƯƠNG 1: TỔNG QUAN TÀI LIỆU
Cả hai phân phối Chuẩn và phân phối Laplace đều được dùng để phântích những dữ liệu có tính đối xứng Trong đề tài này, tôi trình bày phươngpháp sử dụng logarit của tỷ lệ hợp lý cực đại để phân biệt giữa hai phân phối
Giả sử chúng ta có n quan sát và chúng ta biết được nó thuộc một phânphối đối xứng Chúng ta muốn xem xét phân phối Chuẩn hay phân phốiLaplace, phân phối nào phù hợp hơn để phân tích dữ liệu
Chúng ta biết rằng phân phối Chuẩn, còn gọi là phân phối Gauss, làmột phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực Phân phốiChuẩn thường được dùng để phân tích những dữ liệu đối xứng với phần đuôingắn Ngược lại, phân phối Laplace ít phổ biến hơn, cũng được dùng để phântích dữ liệu đối xứng nhưng với phần đuôi dài hơn Mặc dù cả hai phân phốiđều có thể phù hợp để phân tích những mẫu cỡ nhỏ, tuy nhiên ta vẫn mongmuốn chọn được mô hình phân phối phù hợp hơn, chính xác hơn, nhất là khicác suy luận liên quan đến phần đuôi của phân phối
Với một bộ dữ liệu có sẵn, xác định xem nó thuộc phân phối Chuẩn hayphân phối Laplace là một bài toán phổ biến Rất nhiều tác giả đã nghiên cứunhư Atkinson [1], [2], Cox [7], [8], Chamber and Cox [5], Dyer [10] , Chen[6] , Kundu [14], [15] và Gokarna Raj Aryal [19]
Dumonceaux, Antle và Hass [8], [9] sử dụng tỷ lệ hợp lý để phân biệthai phân phối Đặc biệt Kundu [12], [13] cũng dùng tỷ lệ hợp lý cực đại đểphân biệt hai phân phối, hơn nữa sử dụng cách tiếp cận của White [18], [19],Kundu đạt được phân phối tiệm cận của logarit tỷ lệ hợp lý cực đại và một sốtính chất của nó Trong đề tài này, chúng tôi cũng sử dụng logarit của tỷ lệhợp lý cực đại để phân biệt hai phân phối đồng thời lấy hai ví dụ tính số cụ
Trang 10
CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGUYÊN CỨU
2.1 Kiến thức chuẩn bị - Logarit tỷ lệ hợp lý cực đại
Định Nghĩa 2.1.1 Cho biến ngẫu nhiên X , với hai tham số , 0 X
có phân phối Chuẩn, ký hiệu 2
X N khi hàm mật độ của nó có dạng
2 2
2 1
2
x N
Ta có những tính chất cơ bản của hai phân phối
Trang 11
Hình 2.1: Đồ thị hàm mật độ của phân phối chuẩn chính tắc và phân phối Laplace chính tắc.
Định Nghĩa 2.1.3 Cho mẫu X , X , , X1 2 n từ phân phối chuẩn hoặc phân phốiLaplace Hàm hợp lý khi dữ liệu tuân theo phân phối chuẩn hoặc phân phốiLaplace lần lượt là
1
1 2 2
2
n i i X
Trang 12Định nghĩa 2.1.4 Cho mẫu X , X , , X1 2 n theo phân phối chuẩn 2
N ; hoặcphân phối L ; Logarit của tỷ lệ hợp lý cực đại là
2
; ln
;
N
L
l T
X n
X n
X n
N ; thì phân phối của T sẽ độc lập với , Tương tự, nếu
dữ liệu tuân theo phân phối Laplace L ; thì T sẽ độc lập với ,
Tiếp theo, một số tính chất của Logarit của tỷ lệ hợp lý cực đại T
2.2 Phân phối tiệm cận logarit của tỷ lệ hợp lý cực đại
Định lý 2.2.1 Nếu mẫu X , X , , X1 2 n tuân theo phân phối 2
Trang 13Định lý 2.2.2 Nếu mẫu X , X , , X1 2 n tuân theo phân phối L ; thì T sẽ cóphân phối tiệm cận chuẩn với trung bình và phương sai lần lượt là
Chứng minh Chứng minh chi tiết có trong white [18] và Kundu [12].
Tiếp theo là xác định cỡ mẫu và bài toán kiểm định
2.3 Cỡ mẫu tối thiểu và bài toán kiểm định
2.3.1 Cỡ mẫu tối thiểu
Chúng ta đi xác định cỡ mẫu tối thiểu để có thể kiểm định phân biệt haiphân phối Chuẩn và Laplace
Giả sử mẫu theo phân phối Chuẩn, theo định lý 2.2.1 thì T có phân phốitiệm cận Chuẩn với trung bình và phương sai lần lượt là E N T , V N T Ta có
Trang 14Giả sử mẫu theo phân phối Laplace, theo định lý 2.2.2 thì T có phânphối tiệm cận Chuẩn với trung bình và phương sai lần lượt là E L T , V T L .Khi đó
0;1
N N
Trang 15 0;1
L L
Khi mẫu tuân theo phân phối Chuẩn Vì T độc lập với các tham số
và nên ta chọn 0, 1 Ta tạo ra các mẫu có kích thước n ( n = 80, 100,150) từ phân phối chuẩn N (0;1)
Với n = 80, để khảo sát tính chất của T, ta tạo ra 100 mẫu ngẫu nhiên
có kích thước 80 từ phân phối Chuẩn chính tắc, tính ra các giá trị của T tươngứng, ta được:
7.566263 1.969696 5.025731 3.947427 0.9468372.033313 7.193405 6.077551 0.746886 6.7524380.441611 3.472533 4.791525 -2.86022 0.9323652.064881 -0.7074 5.274743 5.205179 4.042602
Trang 166.603551 0.653261 2.233839 5.179981 4.1732867.765514 -2.12275 4.547049 -0.9481 4.8647622.490191 4.369941 8.215745 -1.72474 5.7450816.724297 5.955094 1.674008 4.591882 5.5594033.912094 6.502113 6.242825 3.299413 5.5662082.937453 4.215167 6.974361 3.750043 8.0197767.113594 7.415801 6.355225 -0.20958 5.7430132.846018 3.610114 1.072119 -2.51526 2.1266613.403991 5.555292 3.033166 4.819692 7.2662315.912839 5.583104 2.283903 5.29144 5.2499042.297061 2.797254 2.467877 4.511483 4.971734.474192 0.093821 6.825833 6.140081 -1.98437
Ta có
Trang 17
a Lilliefors Significance Correction
Với kích thước mẫu n = 80, ta thấy biến ngẫu nhiên T có thể nói Tkhông theo phân phối chuẩn, dựa vào phép kiểm Shapỉo – Wilk Tuy nhiên,nếu dựa vào phép kiểm Kolmogorov-Smirnov thì ta nói chưa đủ bằng chứng
để nói T không có phân phối chuẩn Do đó, ta cần lấy cỡ mẫu lớn hơn đểkhẳng định T có phân phối Chuẩn hay không Tiếp theo, ta lấy cỡ mẫu lớnhơn
Với n = 100, ta cũng tạo ra 100 mẫu ngẫu nhiên có kích thước 100 từ
Trang 187.462017 7.62188 -3.08752 -0.33323 9.1584115.721751 6.438871 3.06717 5.339949 2.0014622.258034 2.957459 8.706143 4.666467 7.296245.745321 3.597129 5.544052 3.912283 3.085180.489232 1.943758 1.414585 2.669739 1.6283016.467762 5.085133 10.59607 5.271677 7.6490874.490571 2.381464 4.172819 8.162025 5.5340394.013174 3.333684 5.112039 6.219335 6.7701725.102815 7.98251 2.111284 4.38845 6.031511.787386 7.776131 1.746542 4.56917 6.8695180.282494 -1.1167 5.272576 3.337899 3.7147348.304956 5.121989 6.320082 2.486859 5.1622622.015972 7.484515 0.909162 1.446928 1.2846674.958322 1.394254 2.099521 -0.53598 0.760937.376364 4.864429 5.824458 5.878221 7.1486583.566837 6.720704 0.665218 8.5819 1.8488463.857419 3.929044 8.29829 5.410197 7.2830784.257079 1.115071 3.001534 6.595905 3.047249
Ta có
Trang 19
Statistic
Std Error
95% Confidence Interval for Mean
Lower Bound 3.7839Upper
Bound 4.8819
Trang 20
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig Statistic df Sig.
* This is a lower bound of the true significance
a Lilliefors Significance Correction
Từ bảng trên, ta thấy cả hai phép kiểm Kolmogorov-Smirnov vàShapiro-Wilk đều không có cơ sở để kết luận T không có phân phối chuẩn
Để chắc chắn hơn, ta lấy cỡ mẫu lớn hơn để có cơ sở khẳng định T có phânphối Chuẩn
Với n = 150, tương tự trên, ta được
7.959288 6.053872 4.26096 8.397287 7.6414126.319733 10.81748 4.659461 4.163103 9.54367210.39562 9.434014 11.62087 1.68958 6.8531054.592581 9.816193 2.422814 9.337886 1.3186957.698303 3.72059 5.152776 10.74495 3.65041811.60149 7.827853 6.36708 1.214734 10.498213.60565 5.339547 9.76821 6.902059 14.672066.684634 0.607036 9.371881 4.021075 6.4878263.687873 5.76769 5.973991 12.30223 8.8318367.201512 3.555295 9.408968 8.298692 12.039788.817322 14.4431 12.38053 2.175178 8.0106435.622931 8.979769 8.983166 7.923586 0.5898939.182273 5.410879 4.828058 5.619258 8.45246213.08988 9.498817 3.075057 13.70425 7.1394937.003747 8.993196 11.32543 5.872378 10.8004814.22788 4.692817 7.91418 8.53945 7.5102646.064589 5.397067 10.75666 6.692664 7.905257
Trang 2110.25049 6.464288 7.56488 9.19736 5.7118392.504013 9.20381 5.076841 4.691024 7.5178444.651369 -2.105 7.366118 11.79622 4.911228
Lower Bound 6.7034
Trang 22Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig Statistic df Sig.
N.15
*
* This is a lower bound of the true significance
a Lilliefors Significance CorrectionVới cỡ mẫu lớn thế này, ta hoàn toàn khẳng định được không bác bỏđược giả thuyết không, ta hoàn toàn chấp nhận Có nghĩa là ta khẳng địnhđược T có phân phối chuẩn Chú ý rẳng, với cõ mẫu mà chúng tôi vừa chọn,thỏa mãn với ước lượng cỡ mẫu chúng tôi ban đầu n 128
Khi mẫu tuân theo phân phối Laplace Vì T độc lập với các tham số
và nên ta chọn 0, 1 Ta tạo ra các mẫu có kích thước n ( n = 80, 100,150) từ phân phối Laplace L (0;1)
Với n = 80, để khảo sát tính chất của T, ta tạo ra 100 mẫu ngẫu nhiên
có kích thước 80 từ phân phối Laplace chính tắc, tính ra các giá trị của Ttương ứng, ta được:
-13.333 -1.4636 -5.833 -9.4063 -5.472-2.0914 -5.2562 -0.7412 -4.3347 -11.015-8.3352 -3.6128 -5.4051 -2.6912 -2.9958-0.3438 -1.2499 -1.8594 -4.6786 -5.3699-5.8036 0.269 -0.5136 -5.0974 -8.9658-8.6976 -2.177 -7.6559 -12.942 -12.37-5.6397 1.8614 -3.9015 -9.6715 -0.4106-7.3722 -1.1804 -10.583 -15.154 -9.2906-7.0816 -6.1525 -7.1512 -5.3135 2.65682.2758 -5.6277 -5.7981 -6.1261 -1.0835
Trang 23-6.164 -8.2178 -3.9066 -4.4168 -9.1931-1.1999 -7.3616 -4.3735 -3.3299 1.7026-3.9655 -2.1403 -1.7655 -27.33 -0.05580.2137 -5.8299 -1.4789 -10.663 -6.9775.6474 -12.683 -2.4884 -1.0323 -5.6019-6.1748 -2.442 -6.3317 -4.1893 -4.5616-7.1856 -4.5387 -8.5144 2.2568 -6.5396-8.073 -6.1406 -14.901 -1.8164 -10.294-4.296 -0.5794 -1.749 -3.5183 -4.1981-7.0588 -17.021 -11.47 -2.8574 -10.03
Ta có
Trang 24
a Lilliefors Significance Correction
Với kích thước mẫu n = 80, ta thấy biến ngẫu nhiên T có thể nói Tkhông theo phân phối Chuẩn Do đó, ta cần lấy cỡ mẫu lớn hơn để khẳng định
T có phân phối Chuẩn hay không Tiếp theo, ta lấy cỡ mẫu lớn hơn
Với n = 100, ta cũng tạo ra 100 mẫu ngẫu nhiên có kích thước 100 từphân phối Laplace chính tắc, tính các giá trị của T tương ứng, ta được
-0.63351 -3.62628 -4.73154 -13.1803 -8.60477-7.80064 -5.58607 -4.09669 -6.64598 -6.27738-13.4522 -7.15968 -4.77936 -5.98177 -14.4393-11.7915 -6.08182 -18.0576 0.380212 -5.49054-7.64513 -2.17061 -2.06647 -5.78558 -4.70686-7.57303 -0.76617 -8.02256 -3.80965 -10.3714-8.39131 -9.13952 -10.8331 -9.4808 -2.90949
Trang 25-2.22336 -13.0499 -14.9686 -4.48982 -0.87522-4.65308 -16.016 -0.42802 -10.9904 -11.8039-1.93114 -4.30448 -5.10165 -8.62106 -11.4033-3.08797 -7.21442 -9.0504 -17.038 -9.57682-12.2088 -15.5171 0.958054 -2.52129 -2.408580.468751 -2.63928 -17.3795 -6.74714 -5.95488-2.26178 -7.85625 -1.79293 -8.27241 -3.05888-7.05199 -3.51026 0.022582 -6.19189 -4.7962-16.3875 -9.7475 -2.45636 -6.0934 -9.47487-7.53021 -5.20656 -6.10181 -9.09858 -6.19595-5.52839 -7.70967 -11.0471 -8.64514 -4.35561-2.40099 -7.63677 -5.23321 -4.84391 -16.80442.88065 -2.92237 -5.17995 -4.56482 -8.78003
Ta có
Trang 26
a Lilliefors Significance Correction
Với kích thước mẫu n = 100, ta có thể nói T không theo phân phốichuẩn, dựa vào phép kiểm Shapỉo – Wilk Tuy nhiên, nếu dựa vào phép kiểmKolmogorov-Smirnov thì ta nói chưa đủ bằng chứng để nói T không có phânphối chuẩn Do đó, ta cần lấy cỡ mẫu lớn hơn để khẳng định T có phân phốiChuẩn hay không Tiếp theo, ta lấy cỡ mẫu lớn hơn
Với n = 150, tương tự trên, ta được
-0.99717 -4.75803 -13.6354 -14.3865 -12.6083-9.154 -7.22821 -16.0636 -11.3034 -17.1626-12.6074 -7.99173 -11.2916 -2.80566 -19.5272-10.2409 -1.78642 -8.03508 -13.5259 -9.21488-9.3578 -5.63585 -18.5452 -20.6346 -13.1392-9.98786 -9.31533 -6.32673 -6.47248 -13.2668