Trong kiểm định giả thiết thống kê thì kiểm định phi tham số là loại kiểm định ít đòi hỏi các giả thiết về phân phối của dữ liệu.. Vì vậy, trong đề tài khóa luận này tôi tìm hiểu các phư
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM
Giáo viên hướng dẫn : TS Lê Văn Dũng
Sinh viên thực hiện : Phạm Thị Thu Huyền
Khóa : 2012-2016
Lớp : 12ST
Đà Nẵng, tháng 5 năm 2016
Trang 2LỜI CẢM ƠN
Trong suốt quá trình học tập tại trường Đại Học Sư Phạm – Đại Học Đà Nẵng, với
sự nổ lực của bản thân cùng sự giúp đỡ của các thầy cô giáo trong trường, đặc biệt là các thầy cô giáo trong khoa Toán đã giúp em có một vốn tri thức vững vàng để hoàn thành tốt luận văn tốt nghiệp Trong thời gian làm luận văn, được sự giúp đỡ của giáo
viên hướng dẫn TS Lê Văn Dũng về mọi mặt, em đã hoàn thành đúng trong thời gian
qui định
Em xin dành trang đầu tiên này để bày tỏ lòng biết ơn chân thành đến quý thầy, cô trong khoa Toán, trường Đại Học Sư Phạm – Đại Học Đà Nẵng, những người
đã hết lòng dạy dỗ truyền đạt những kiến thức khoa học và kinh nghiệm quý báu để
em có được ngày hôm nay
Đặc biệt, em xin chân thành cảm ơn thầy giáo TS Lê Văn Dũng, người đã gợi ý
và hướng dẫn đề tài khóa luận “Phương pháp kiểm định phi tuyến tính - Phần mềm minitab” Thầy đã nhiệt tình và hết lòng giúp đỡ trong suốt thời gian qua để em
có thể hoàn thành khóa luận này
Cuối cùng, cho phép em được cảm ơn thầy chủ tịch hội đồng, các thầy cô phản biện và các ủy viên hội đồng đã giành thời gian quý báu để đọc, nhận xét, đánh giá và tham gia hội đồng chấm khóa luận này
Mặc dù em đã rất cố gắng song luận văn không tránh khỏi những sai sót và hạn chế, em mong nhận được sự chỉ dẫn và đóng góp ý kiến của các thầy cô giáo và các bạn đồng nghiệp để luận văn được hoàn thiện hơn
Đà Nẵng, ngày 24 tháng 04 năm 2016
Sinh viên
Phạm Thị Thu Huyền
Trang 3SVTH: Phạm Thị Thu Huyền Trang 1
MỤC LỤC
1 Lí do chọn đề tài 3
2 Mục đích của khóa luận 3
3 Đối tượng và phạm vi nghiên cứu của khóa luận 3
3.1 Đối tượng 3
3.2 Phạm vi 4
4 Phương pháp nghiên cứu 4
5 Ý nghĩa khoa học và thực tiễn 4
5.1 Ý nghĩa khoa học 4
5.2 Ý nghĩa thực tiễn 4
6 Cấu trúc khóa luận 4
CHƯƠNG I 6
KIẾN THỨC CƠ SỞ 6
1.1 Một số phân phối xác suất quan trọng 6
1.1.1 Phân phối nhị thức 6
1.1.2 Phân phối chuẩn 6
1.2 Mẫu số liệu 7
1.3 Các đại lượng đặc trưng của mẫu số liệu 7
1.4 Mẫu ngẫu nhiên 8
1.5 Các khái niệm trong kiểm định giả thiết 8
1.5.1 Giả thiết thống kê và kiểm định giả thiết thống kê 8
1.5.2 Sai lầm loại I và sai lầm loại II 9
1.5.3 P - giá trị 9
1.6 Phần mềm Minitab 10
1.6.1 Giới thiệu về phần mềm Minitab 10
1.6.2 Vai trò của phần mềm Minitab trong kiểm định phi tham số 10
1.6.3 Cách cài đặt phần mềm 10
1.6.4 Một số công cụ để kiểm định phi tham số 11
CHƯƠNG 2 12
Trang 4SVTH: Phạm Thị Thu Huyền Trang 2
CÁC PHƯƠNG PHÁP KIỂM ĐỊNH PHI THAM SỐ 12
ỨNG DỤNG PHẦN MỀM MINITAB 12
2.1 Kiểm định dấu 12
2.1.1 Trường hợp cỡ mẫu lớn n 10 13
2.1.2 Trường hợp cỡ mẫu nhỏ n10 15
2.1.3 Kiểm định dấu cho các cặp dữ liệu 16
2.2 Kiểm định dấu theo hạng Wilcoxon 18
2.2.1 Giả thiết gốc: H0: 0 19
2.2.2 Trường hợp cỡ mẫu lớn 25
2.2.3 So sánh cặp 28
2.2.4 So sánh hai kì vọng 30
2.3 Kiểm định Kruskal- Wallis 33
2.4 Kiểm định Friedman 37
2.5 Kiểm định Ngẫu nhiên 39
CHƯƠNG 3 43
BÀI TẬP VẬN DỤNG 43
KẾT LUẬN 56
TÀI LIỆU THAM KHẢO 57
Trang 5SVTH: Phạm Thị Thu Huyền Trang 3
MỞ ĐẦU
1 Lí do chọn đề tài
Ngày nay, xác suất thống kê là môn học cơ sở được giảng dạy trong các trường Đại học, Cao đẳng Không những thế nó còn được ứng dụng nhiều trong các nghành như kinh tế, kĩ thuật, sinh học, y học, Nó giúp chúng ta cách tổ chức chỉ đạo, sản xuất, phân phối lưu thông, góp phấn dự báo kinh tế, đánh giá chất lượng sản phẩm, năng suất lao động, thu nhập và xử lí một số khối lượng lớn thông tin,
Kiểm định giả thiết thống kê là một phần không thể thiếu trong phân môn này Nó không chỉ giúp chúng ta kiểm định sự đúng sai của những giả thiết đặt ra mà còn giúp
ta quyết định đúng đắn trước một vấn đề Trong đời sống, kiểm định là một công việc tất yếu trong kinh doanh, y khoa, sản xuất, học tập, Chính vì vậy, kiểm định không chỉ quan trọng trong lý thuyết mà còn rất hữu dụng trong thực tế
Trong kiểm định giả thiết thống kê thì kiểm định phi tham số là loại kiểm định ít đòi hỏi các giả thiết về phân phối của dữ liệu Thông thường, kiểm định phi tham số phù hợp nhất trong các trường hợp chúng ta không thể dùng các kiểm định tham số ví
dụ dữ liệu mà chúng ta thu thập là loại dữ liệu định tính (biểu danh hay thứ tự) hoặc khi các dữ liệu thuộc thang đo lường khoảng cách (interval) nhưng khi kiểm định phân phối chuẩn không thỏa Trong những trường hợp như vậy, chúng ta thường sử dụng phương pháp kiểm định phi tham số
Bên cạnh đó, sinh viên chưa có thói quen sử dụng kiểm định thống kê như một công cụ khoa học hữu ích trong việc giải và nghiên cứu các bài toán thực tế hay
sử dụng nó nhằm tìm kiếm các quy luật ẩn chứa đằng sau các hiện tượng ngẫu nhiên Vì việc thiết lập được mô hình toán học không phải là khó nhưng đó thường là những mô hình có quy mô tương đối lớn (những bài toán có thể lên tới hàng trăm biến số, số lượng phép tính có thể lên tới hàng nghìn), việc giải chúng bằng tay là cực kỳ khó khăn và mất nhiều thời gian
Vì vậy, trong đề tài khóa luận này tôi tìm hiểu các phương pháp kiểm định phi tham số và sử dụng phần mềm Minitab vào một số phương pháp kiểm định phi tham
số
2 Mục đích của khóa luận
Đề tài nghiên cứu các vấn đề sau:
- Các phương pháp kiểm định phi tham số
- Các định lí của các phương pháp kiểm định phi tham số
- Ứng dụng của phần mềm Minitab trong kiểm định phi tham số
3 Đối tượng và phạm vi nghiên cứu của khóa luận
3.1 Đối tượng
- Các phương pháp kiểm định phi tham số và ứng dụng của nó trong thực tế
Trang 6SVTH: Phạm Thị Thu Huyền Trang 4
- Phần mềm Minitab trong bài toán kiểm định phi tham số
3.2 Phạm vi
- Đề tài không nghiên cứu về các phương pháp kiểm định nói chung mà chỉ tập trung nghiên cứu về các phương pháp kiểm định phi tham số
- Trong đề tài này chỉ nêu những phương pháp kiểm định phi tham số
- Đề tài chỉ nghiên cứu về ứng dụng của phần mềm Minitab các phương pháp: Kiểm định dấu; Kiểm định dấu theo hạng Wilcoxon; Kiểm định Kruskal- Wallis, Kiểm định Friedman
4 Phương pháp nghiên cứu
- Thu thập các bài báo cáo khoa học, các tài liệu liên quan đến đề tài
- Để thuận tiện cho việc soạn thảo luận văn này, em đã sử dụng phần mềm MathType để thực hiện vì MathType là một phần mềm gõ công thức Toán học rất nhanh và dễ sử dụng Bên cạnh đó, em còn sử dụng phần mềm Excel để tính toán
- Nghiên cứu các bài tập toán để thấy rõ ứng dụng của kiểm định phi tham số
5 Ý nghĩa khoa học và thực tiễn
6 Cấu trúc khóa luận
Ngoài phần mở đầu và kết luận, khóa luận gồm các chương:
Chương 1: Kiến thức cơ sở
1.1 Một số phân phối xác suất quan trọng
1.1.1 Phân phối nhị thức
1.1.2 Phân phối chuẩn
1.2 Mẫu số liệu
1.3 Các đại lượng đặc trưng của mẫu số liệu
1.4 Mẫu ngẫu nhiên
1.5 Các khái niệm trong kiểm định giả thiết
1.5.1 Giả thiết thống kê và kiểm định giả thiết thống kê
1.5.2 Sai lầm loại I và sai lầm loại II
1.5.3 P-giá trị
Trang 7SVTH: Phạm Thị Thu Huyền Trang 5
1.6 Phần mềm Minitab
1.6.1 Giới thiệu về phần mềm Minitab
1.6.2 Vai trò của phần mềm Minitab
1.6.3 Cách cài đặt phần mềm
1.6.4 Một số công cụ để kiểm định phi tham số
Chương 2: Các phương pháp kiểm định phi tham số - Ứng dụng phần mềm
Minitab
2.1 Kiểm định dấu
2.1.1 Trường hợp cỡ mẫu lớn (n10)
2.1.2 Trường hợp cỡ mẫu nhỏ (n10)
2.1.3 Kiểm định dấu cho các cặp dữ liệu
2.2 Kiểm định dấu theo hạng Wilcoxon
Trang 8SVTH: Phạm Thị Thu Huyền Trang 6
CHƯƠNG I KIẾN THỨC CƠ SỞ
1.1 Một số phân phối xác suất quan trọng
1.1.1 Phân phối nhị thức
Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với tham số n, p
nếu miền giá trị của X là 0,1, , n vàP X kC p n k k1pn k , k 0,1, ,n,
Khi đó: E X np và Var X np1p
Kí hiệu: X Bn p,
1.1.2 Phân phối chuẩn
Biến ngẫu nhiên liên tục X gọi là có phân phối chuẩn nếu có hàm mật độ :
2 2 2
1
,2
x t
Phân vị của phân phối chuẩn tắc
Cho 0;1 và Z N 0;1 Ta gọi giá trị z là phân vị mức của phân phối chuẩn tắc Z nếu P Z z
Xấp xỉ phân phối nhị thức bằng phân phối chuẩn
Định lí 1.1.1 (Định lí giới hạn trung tâm) Nếu X n,n1 là dãy các biến ngẫu nhiên
độc lập, cùng phân phối xác suất với biến ngẫu nhiên X có kì vọng E X và phương sai 2
Var X hữu hạn thì
,lim
Trang 9SVTH: Phạm Thị Thu Huyền Trang 7
Ý nghĩa của định lí giới hạn trung tâm: Nếu X X1, 2, ,X n là các biến ngẫu nhiên
độc lập, cùng phân phối xác suất (không cần thiết có phân phối chuẩn) thì với n đủ lớn
n p; N np np ; 1 p
1.2 Mẫu số liệu
Tiến hành quan sát ngẫu nhiên n lần độc lập về biến ngẫu nhiên X thu được n giá
trị của X là x x1, 2, ,xn Khi đó x x1, 2, , xn được gọi là mẫu số liệu của biến ngẫu nhiên X và n được gọi là kích thước mẫu
1.3 Các đại lượng đặc trưng của mẫu số liệu
Cho x x1 , 2 , ,x n là mẫu số liệu kích thước n
1) Trung bình mẫu, kí hiệu là x, được tính theo công thức:
1 2
1
1 n n
i i
n i i
x x n
n i i
n i i
Trang 10SVTH: Phạm Thị Thu Huyền Trang 8
n x n
n x nx n
1.4 Mẫu ngẫu nhiên
Mẫu ngẫu nhiên là một bộ gồm các biến ngẫu nhiên X X1, 2, ,X n độc lập cùng phân phối xác suất với biến ngẫu nhiênX ,
Nhƣ vậy ta có thể xem mẫu số liệu x x1, 2, , xn là một giá trị của mẫu ngẫu nhiênX X1, 2, ,X n
1.5 Các khái niệm trong kiểm định giả thiết
1.5.1 Giả thiết thống kê và kiểm định giả thiết thống kê
Với mỗi biến ngẫu nhiên đều gắn với một hàm mật độ xác suất nào đó và mỗi hàm mật độ xác suất lại chứa một hay nhiều tham số mà nhiều khi ta chƣa thể xác định đƣợc các tham số này
Giả thiết thống kê là một khẳng định về giá trị tham số của biến ngẫu nhiên hoặc giá
trị các số đặc trƣng của một tổng thể, về phân phối xác suất của một biến ngẫu nhiên hoặc của một tổng thể
Trang 11SVTH: Phạm Thị Thu Huyền Trang 9
Ví dụ:
(1) là tuổi thọ trung bình của người Việt Nam Giả thiết thống kê có thể là 60
(tuổi), hoặc là60, hoặc60,
(2) p là tỉ lệ phế phẩm của nhà máy A Giả thiết thống kê có thể là: p0,1 hoặc 0,1
p ,
Kiểm định giả thiết thống kê là phương pháp ra quyết định sử dụng dữ liệu, hoặc
từ thí nghiệm hoặc từ nghiên cứu quan sát Trong thống kê một kết quả được gọi là đủ
độ tin cậy mang tính thống kê nếu nó ít có khả năng diễn ra theo một ngưỡng xác suất cho trước Kiểm định giả thiết đôi khi được gọi là phân tích dữ liệu để khẳng định, để
so sánh với phân tích dữ liệu để khám phá
Trong bài toán kiểm định giả thiết, có hai giả thiết mâu thuẫn nhau được đưa ra để xem xét Chẳng hạn, giả thiết tỉ lệ phế phẩm của nhà máy là p0,1 và p0,1, giả thiết tuổi thọ trung bình 60 và 60 1 trong 2 giả thiết đó được gọi là giả thiết gốc được kí hiệu là H0 và giả thiết còn lại gọi là đối thiết được kí hiệu là H1 Giả thiết
0
H được xem là giả thiết đúng, thủ tục kiểm định giả thiết là phương pháp sử dụng dữ liệu thu thập được để bác bỏ H0 Giả thiết gốc H0 bị bác bỏ và chấp nhận đối thiết
1
H khi có đủ cơ sở để cho rằng H0 sai Nếu mẫu thuẫn số liệu thu thập được không đủ
mạnh để chứng tỏ H0sai thì ta sẽ tiếp tục chấp nhận H0 đúng Việc công nhậnH0
đúng ở đây cần hiểu là các chứng cứ và số liệu thu thập được chưa có cơ sở để bác
bỏ H0
1.5.2 Sai lầm loại I và sai lầm loại II
Khi tiến hành kiểm định giả thiết tống kê theo cách trên ta sẽ phạm phải một trong
hai sai lầm sau:
- Bác bỏ H0 trong khi thực tế H0 đúng Sai lầm này gọi là sai lầm loại I
- Chấp nhận H0 trong khi thực tế H0 sai Sai lầm này gọi là sai lầm loại II
P
(sai lầm loại I)P(bác bỏ H0/H0 đúng) được gọi là mức ý nghĩa của kiểm định Trong bài toán kiểm định ta thường cho trước mức ý nghĩa để kiểm soát mắc sai lầm loại I
1.5.3 P - giá trị
Trong thống kê, người ta quy ước như sau:
+ P - giá trị 0.05 : không có đủ cơ sở để bác bỏ H0
+ 0.01 P - giá trị 0.05 : có đủ cơ sở để bác bỏ H0
+ P - giá trị 0.01 : có cơ sở mạnh, hùng hồn để bác bỏ H0
Trong trường hợp cho trước mức ý nghĩa thì:
Bác bỏ H0 nếu P - giá trị và chấp nhận H0 nếu P -giá trị
Trang 12SVTH: Phạm Thị Thu Huyền Trang 10
Nói cách khác, P - giá trị là mức ý nghĩa thấp nhất mà ta có thể bác bỏ H0 Test thống kê là một hàm đối với mẫu số liệu được sử dụng để tính P –giá trị nhằm mục
đích ra quyết định chọn H0 hay H1
1.6 Phần mềm Minitab
1.6.1 Giới thiệu về phần mềm Minitab
Minitab là phần mềm thống kê ứng dụng được phát triển ở Đại học Pennsylvania bởi Barbara F Ryan, Thomas A Ryan, Jr và Brian L Joiner năm 1972 Minitab là phiên bản thu gọn của phần mềm OMNITAB, phần mềm phân tích thống kê của NIST
Từ thành công của phần mềm này, những người phát triển phần mềm đã sang lập
ra công ty Minitab Inc vào năm 1983 Công ty này đặt trụ sở chính tại đại học Pennsylvania, có chi nhánh tại Coventry, Anh (Minitab Ltd.), Paris, Pháp (Minitab SARL) và Sydney, Úc (Minitab Pty.), đồng thời duy trì mạng lưới bán lẻ và văn phòng đại diện tại các nước khác
Ngày nay, Minitab được sử dụng khi áp dụng hệ thống 6 sigma và các phương pháp cải tiến quá trình khác sử dụng các công cụ thống kê Theo số liệu của công ty, Minitab được sử dụng tại hơn 4.000 trường đại học và cao đẳng trên thế giới và là phần mềm hàng đầu ứng dụng trong việc giảng dạy
Với chương trình này, bạn có thể giải những bài toán từ đơn giản nhất chỉ yêu cầu các tham số thống kê, tới các bài toán phức tạp hơn như việc xác định ảnh hưởng của các yếu tố khác nhau đến các tình trạng bằng các phương pháp phân tích hồi quy, phương sai Các bạn cũng có thể xây dựng cho mình các thí nghiệm hữu hiệu
Minitab cũng cho chúng ta hàng loạt cách vẽ đồ thị mang tính phân tích khoa học
1.6.2 Vai trò của phần mềm Minitab trong kiểm định phi tham số
Phần mềm Minitab giúp chúng ta giải những bài toán nhanh hơn, chính xác và tiết kiệm thời gian Đặc biệt là các bài toán với số liệu lớn
- Bước 2: Mở tệp ra và kích vào setup.ex để tiến hành các thao tác cài đặt
- Bước 3: Vào mục Crack để Crack phần mềm
Trang 13SVTH: Phạm Thị Thu Huyền Trang 11
1.6.4 Một số công cụ để kiểm định phi tham số
Trong kiểm định phi tham số bằng phần mềm Minitab người ta thường sử dụng các lệnh sau:
- Tính toán: Nháy đúp chuột Calc => Calculator cho phép tính toán số liệu
- Kiểm định phi tham số: Nháy đúp chuột vào Stat => chọn Nonparametrics,
trong Nonparametrics có các lệnh:
+ Sample sign: kiểm định dấu
+ Sample Wilcoxon: kiểm định dấu theo hạng Wilcoxon
+ Kruskal- Wallis: kiểm định Kruskal- Wallis
+ Friedman: kiểm định Friedman
Trang 14SVTH: Phạm Thị Thu Huyền Trang 12
CHƯƠNG 2 CÁC PHƯƠNG PHÁP KIỂM ĐỊNH PHI THAM SỐ
ỨNG DỤNG PHẦN MỀM MINITAB
2.1 Kiểm định dấu
Có lẽ là đơn giản nhất và chung của hầu hết tất cả các kiểm định phi tham số là các bài kiểm định dấu Trong số rất nhiều các ứng dụng của nó, thử nghiệm các giả thiết gốc rằng trung vị của một phân phối bằng một giá trị cụ thể rất quan trọng
0 1
0 0
::
H H
Giả sử Y Y1, 2, ,Y n là một mẫu ngẫu nhiên kích thước n của biến ngẫu nhiên liên
tục X Nếu giả thiết gốc H0: 0 là đúng, số quan sát trong mẫu ngẫu nhiên
Y Y1 , 2 , ,Y n vượt quá 0 là một biến ngẫu nhiên nhị thức ;1
với n đủ lớn là một xấp xỉ phân bố chuẩn
tắc (áp dụng định lý De Moivre-Laplace), với n đủ lớn Bằng trực giác, số quan sát
của mẫu ngẫu nhiên X nhỏ hơn quá nhiều hoặc lớn hơn quá nhiều so với n 2 sẽ là bằng chứng cho thấy 0
Trang 15SVTH: Phạm Thị Thu Huyền Trang 13
n k z n
Kiểm định giả thiết thống kê:
độ pH của hoạt dịch Ở người trưởng thành khỏe mạnh, độ pH trung bình của hoạt dịch
là 7,39 Trong bảng 2.1.1 là những giá trị pH đo được từ các chất lỏng được rút từ đầu gối của 43 bệnh nhân viêm khớp Với mức ý nghĩa 0,01, hãy kiểm định giả thiết
Trang 16SVTH: Phạm Thị Thu Huyền Trang 14
2 5, 3443
Vậy: Viêm khớp nên được bổ sung vào danh sách các bệnh có thể phát hiện bằng
độ pH của chất lỏng hoạt dịch của một người
Thực hiện bằng phần mềm Minitab:
Sử dụng câu lệnh:
MTB > STest 7,39 C1;
SUBC> Alternative 0
Trong đó: C1 là cột biểu thị số liệu của bài toán
Kết quả trong Minitab:
Sign Test for Median: C1
Sign test of median = 7,390 versus not = 7,390
N Below Equal Above P Median
C1 43 39 0 4 0,0000 7,310
Dựa vào kết quả ta thấy: P-giá trị0, 05 Do đó, H0 bị từ chối
Trang 17SVTH: Phạm Thị Thu Huyền Trang 15
Vậy: Viêm khớp nên được bổ sung vào danh sách các bệnh có thể phát hiện bằng độ
pH của chất lỏng hoạt dịch của một người
Ta thấy: P-giá trị =0,070>0,05 Suy ra không có đủ cơ sở để bác bỏ H 0
Vậy: Chưa thể kết luận rằng cà phê được sản xuất theo phương pháp phun khô có lượng cafeine dư trung bình khác với cà phê sản xuất theo phương pháp đông khô
Trang 18SVTH: Phạm Thị Thu Huyền Trang 16
Sign Test for Median: C1
Sign test of median = 3,550 versus not = 3,550
N Below Equal Above P Median
C1 8 1 0 7 0,0703 3,950
Nhìn vào ta thấy Pgiá trị 0, 0703 0, 05 Suy ra không đủ cơ sở để bác bỏ H0 Vậy: Chưa thể kết luận rằng cà phê được sản xuất theo phương pháp phun khô có lượng cafeine dư trung bình khác với cà phê sản xuất theo phương pháp đông khô
2.1.3 Kiểm định dấu cho các cặp dữ liệu
Cho X và Y là hai biến ngẫu nhiên liên tục có trung vị lần lượt là x và y Xét giả thiết gốc: H0: x y
Giả sử U biểu thị số lượng x y thỏa mãn , i d i x i –y i 0
Giả sử H0 đúng, khi đó U có phân phối nhị thức ;1
U b b
Z
Định lí 2.1.2: Cho x y1, 1 , x y2, 2, ,x y n, n là các mẫu số liệu được chọn ngẫu nhiên của X Y; X và Ylà hai biến ngẫu nhiên liên tục có trung vị lần lượt là x và y Giả thiết gốc: H0 :x y
Kí hiệu u là số giá trị quan sát yi xi
Giá trị kiểm định thống kê: 2
4
u b b
Trang 19SVTH: Phạm Thị Thu Huyền Trang 17
Thuốc đã được trao cho 11 đối tượng trên một cơ sở hàng ngày Để đo lường hiệu quả sinh lí của nó, chất đánh dấu phóng xạ được sử dụng để xác định thời gian lưu thông trung bình của mỗi chủ đề (MCT) vào lúc bắt đầu của thí nghiệm và 4 tháng sau
đó, khi các chế độ đã được ngưng [ MCT là chiều dài của thời gian (tính theo giây) phải mất để máu đi từ động mạch cảnh đến tĩnh mạch cổ]
Nếu cyclandelate không có tác dụng trên tuần hoàn não thì 1
2
bị giảm, mà sản xuất nhiều hơn những bệnh nhân mà x i lớn hơn y i
Trang 20SVTH: Phạm Thị Thu Huyền Trang 18
Sign Test for Median: C3
Sign test of median = 0,00000 versus > 0,00000
N Below Equal Above P Median
C3 11 2 0 9 0,0327 1,000
Dựa vào kết quả ta thấy: Pgiá trị 0,0327 0,05 Do đó, bác bỏ H0
Vậy: Cyclandelate làm tăng tốc độ lưu lượng máu não
2.2 Kiểm định dấu theo hạng Wilcoxon
Mặc dù các bài toán kiểm định dấu là một kiểm định phi tham số cực kì đơn giản nhưng làm cho nó có một chút không điển hình Các kiểm định dấu theo hạng Wilcoxon được giới thiệu trong phần này là đại diện cho các kiểm định phi tham số Giống như các bài kiểm định dấu, nó có thể thích nghi được với các cấu trúc dữ liệu khác nhau Nó có thể được sử dụng, ví dụ như một kiểm định một mẫu cho vị trí , nơi
mà nó trở thành một kiểm định hai mẫu cho vị trí và kiểm định hai mẫu để phân tán (với điều kiện phải có vị trí tương đương)
Trang 21SVTH: Phạm Thị Thu Huyền Trang 19
2.2.1 Giả thiết gốc: H0: 0
Cho y y1, 2, ,y n là một tập hợp quan sát thu được từ các mẫu ngẫu nhiên
Y Y1 , 2 , ,Y n của biến ngẫu nhiên liên tục Y không nhất thiết có phân bố chuẩn
Kí hiệu E Y( )i Xét bài toán kiểm định giả thiết:
có hai hoặc nhiều hơn độ lệch tuyệt đối bằng nhau thì lấy trung bình của các giá trị đó Với mỗi r i ta đặt:
Nhận xét: Chú ý rằng w dựa vào bậc của các độ lệch từ 0 và không dựa vào độ lệch của chính nó Đối với ví dụ này, giá trị của w sẽ không thay đổi nếu y2bằng 4,9; 3, 6hoặc 10000 Trong mỗi trường hợp r2 sẽ bằng 3 và z2sẽ bằng 0 Nếu kiểm định thống kê đã phụ thuộc vào độ lớn của các độ lệch thì cần thiết xác định một phân phối đặc biệt cho f Y( )y và các thủ tục dẫn đến không có sẽ còn là phi tham số
Trang 22SVTH: Phạm Thị Thu Huyền Trang 20
Định lí 2.1.3: Cho y y1, 2, ,y n là một một tập hợp quan sát thu được từ mẫu ngẫu nhiên Y Y1 , 2 , ,Y n của biến ngẫu nhiên liên tục Y có E Y Nếu
e
Chứng minh: Những tuyên bố và chứng minh của Định lí 2.1.3 là điển hình của nhiều
kết quả phi tham số Biểu hiện hình thức đóng cho các phân phối lấy mẫu là hiếm khi
có thể: Các tính chất tổ hợp của các kiểm định thống kê phi tham số cho vay chính nó
n
it n
kê dấu theo hạng Trong sự hình thành của w r, 1 có thể được bắt đầu bằng một dấu cộng hoặc bằng 0; tương tự cho r r2, , ,3 r n Vì mỗi r i có thể mất trên hai giá trị khác nhau nên tổng số cách để xây dựng dấu của hạng là 2n Theo H 0, tất cả những dự đoán này đều có khả năng, vì vậy hàm mật độ xác suất của các số liệu thống kê dấu theo hạng nhất thiết phải có hình thức:
W
(w)
2w) (W w) c n
r z
Trang 23SVTH: Phạm Thị Thu Huyền Trang 21
2.2.1.2 Bảng pW w
Xác suất tích lũy:
W 1
0: 0
H với đối thiết H1: 0
Trang 24SVTH: Phạm Thị Thu Huyền Trang 22
Các khu vực quan trọng là * + Tiếp theo kiểm tra của Bảng A, W
w
0, 023 0, 023 0, 05w
Cá mập Swell (Cephaloscyllium ventriosum) là cá mập nhỏ, sống trong các rạn san
hô ở các vùng nước ven biển California phía nam của vịnh Monterey Có một số những con cá sống gần đó trong vùng lân cận của đảo Catalina, nhưng nó đã được đưa
ra giả thuyết rằng hai quần đảo trộn lẫn Trong giữa Santa Catalina và đất liền là một lưu vực sâu, trong đó, theo giả thiết "tách", là một rào cản không thể vượt qua đối với những con cá đặc biệt
Một cách để kiểm tra lý thuyết này sẽ được so sánh hình thái của cá mập bị bắt trong hai khu vực Nếu không có pha trộn, chúng tôi mong chờ một số lượng nhất định của sự khác biệt đã tiến hóa Bảng 2.2.2 danh sách tổng chiều dài (TL), chiều cao của vây lưng đầu tiên (HDI), và tỷ lệ TL/HDI cho mười cá mập Swell đánh bắt gần Santa Catalina
Nó đã được ước tính trên cơ sở dữ liệu quá khứ rằng tỷ lệ trung bình TL/HDI cho
cá mập Swell bắt ngoài khơi bờ biển là 14, 60 có phải là con số phù hợp với các dữ liệu của Bảng 2.2.2 ? Trong điều kiện chính thức hơn, nếu µ biểu thị tỷ lệ TL/HDI trung bình cho cá mập ở vùng Santa Catalina, chúng tôi có thể từ chối H0: µ=14,60,
và do đó nó giúp sức hỗ trợ cho lý thuyết tách hay không?
Trang 25SVTH: Phạm Thị Thu Huyền Trang 23
Bảng 2.2.2:
Tổng chiều dài (mm)
Chiều cao của lưng
Bảng 2.2.3 cho các giá trị của TL/HDI y i, y i 14, 60, y i 14, 60 , r z i; i và r z i i
trong mười cá mập Swell ở Santa Catalina Nhớ lại rằng khi hai hoặc nhiều số được xếp hạng bằng nhau, mỗi số được gán với mức trung bình của các giá trị đó; ở đây
6 14, 60
y và y10 14, 60 được cả cạnh tranh vị trí thứ 4 và 5, vì vậy mỗi số được gán một hạng 4,54 5 / 2
Cách tổng hợp các cột cuối cùng của Bảng 2.2.3, chúng ta thấy rằng w4,5
Bảng 2.2.3 Tính toán cho Wilcoxon thử nghiệm dấu theo hạng
H µ với đối thiết H1: 14, 60
H0 bị từ chối nếu w8 hoặc w47
Trang 26SVTH: Phạm Thị Thu Huyền Trang 24
(Lưu ý: Mức độ chính xác có ý nghĩa gắn liền với C {w: w8 hoặc w47 } là
Wilcoxon Signed Rank Test: C1
Test of median = 14,60 versus median not = 14,60
N for Wilcoxon Estimated
N Test Statistic P Median
C1 10 10 4,5 0,022 13,75
Dựa vào kết quả ta thấy P-giá trị=0,022<0,05 nên bác bỏ H 0
Vậy: Kết luận của giả thuyết “tách” là đúng
Thông tin về các dữ liệu: Nếu dữ liệu đã được trang bị với chuông báo động, các phép đo trong Bảng 2.2.2 sẽ được gọi lên một cơn bão Các nguyên nhân cho mối quan tâm là một thực tế rằng nó được phân tích là thương số của các biến ngẫu nhiên (TL/HDI) Một thương có thể khó khăn để giải thích Nếu giá trị của nó là lớn bất thường, ví dụ, không có nghĩa là tử số là lớn bất thường hoặc mẫu số là nhỏ một cách bất thường, hay cả hai? Và những gì một giá trị "trung bình" cho một thương hàm ý? Ngoài ra khó khăn là thực tế các bản phân phối của thương số đôi khi vi phạm các giả định quan trọng mà chúng ta thường cho các cấp Ở đây, ví dụ, cả TL và HDI có thể xem là phân phối bình thường Nếu nó là tiêu chuẩn độc lập biến ngẫu nhiên bình thường (trường hợp đơn giản nhất có thể), thương số của họ Q = TL/HDI sẽ có một phân phối với hàm mật độ xác suất Cauchy:
Trang 27SVTH: Phạm Thị Thu Huyền Trang 25
có sự phân bố giống như bất kỳ quan sát duy nhất, Q i Làm cho vấn đề tồi tệ hơn, các
dữ liệu trong Bảng 2.2.3 thậm chí không đại diện cho các trường hợp đơn giản nhất của một thương của biến-đây ngẫu nhiên bình thường các phương tiện và phương sai của hai TL và HDI là chưa biết, và hai biến ngẫu nhiên có thể không được độc lập
Đối với tất cả những lý do này, sử dụng một thủ tục phi tham số về những dữ liệu được chỉ định rõ ràng, và kiểm định dấu theo hạng Wilcoxon là một lựa chọn tốt (vì các giả định về tính liên tục và đối xứng có thể sẽ hài lòng) Bài học rộng lớn hơn, suy nghĩ, cho thí nghiệm để học hỏi từ ví dụ này là để suy nghĩ hai lần có thể ba lần, trước khi dữ liệu trong các hình thức của thương số
V U V U
V
, với U i độc lập
Trang 28SVTH: Phạm Thị Thu Huyền Trang 26
Định lí 2.2.2 Cho w là số liệu thống kê dấu theo hạng dựa trên n quan sát độc lập
rút ra từ hàm mật độ xác suất liên tục và đối xứng, trong đó n12
bộ câu hỏi so sánh cảm xúc của người đàn ông đó khi ông đã sử dụng Heroin Các kết quả Q-điểm dao động từ mức tối thiểu có thể từ 11 đến tối đa có thể của 55, như thể hiện trong Bảng 2.2.4
Trang 29SVTH: Phạm Thị Thu Huyền Trang 27
Kể từ Q-điểm cao đại diện cho ít phụ thuộc vào Heroin (và giả cyclazocine sẽ không có xu hướng xấu đi tình trạng của một người nghiện), giả thiết thay thế nên có một mặt đúng Đó là, chúng tôi muốn kiểm định giả thiết:
0
H : 28 với đối thiết H1: 28
Bảng 2.2.5 cho thấy chi tiết các tính toán số liệu thống kê thứ hạng, w -đó là, tổng
các i i r z bằng 95,0 Khi n14, E W 14 14 1 / 4 52,5
Và Var W 14 14 1 28 1 / 24 253,75, do đó tỷ lệ gần đúng của Z là:
95,0 52,5
2,67253,75