Đối tƣợng và phạm vi nghiên cứu của khóa luận
Đối tƣợng
- Các phương pháp kiểm định phi tham số và ứng dụng của nó trong thực tế
SVTH: Phạm Thị Thu Huyền Trang 4
- Phần mềm Minitab trong bài toán kiểm định phi tham số.
Phạm vi
- Đề tài không nghiên cứu về các phương pháp kiểm định nói chung mà chỉ tập trung nghiên cứu về các phương pháp kiểm định phi tham số
- Trong đề tài này chỉ nêu những phương pháp kiểm định phi tham số
This article focuses on the application of Minitab software for various statistical methods, including the Sign Test, Wilcoxon Rank-Sum Test, Kruskal-Wallis Test, and Friedman Test.
Phương pháp nghiên cứu
- Thu thập các bài báo cáo khoa học, các tài liệu liên quan đến đề tài
Để thuận tiện cho việc soạn thảo luận văn, tôi đã sử dụng phần mềm MathType, một công cụ gõ công thức Toán học nhanh chóng và dễ sử dụng Ngoài ra, tôi cũng sử dụng phần mềm Excel để thực hiện các phép tính cần thiết.
- Nghiên cứu các bài tập toán để thấy rõ ứng dụng của kiểm định phi tham số.
Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học
Luận văn được tổ chức một cách hệ thống với các mục tiêu rõ ràng về phương pháp kiểm định phi tham số và ứng dụng của phần mềm Minitab trong lĩnh vực này Điều này giúp tạo ra tài liệu tham khảo hữu ích cho sinh viên ngành Toán.
Ý nghĩa thực tiễn
Bài viết hỗ trợ sinh viên và giáo viên trong việc nghiên cứu về kiểm định giả thiết, đồng thời cung cấp các ví dụ thực tiễn về ứng dụng của phương pháp này.
Cấu trúc khóa luận
Ngoài phần mở đầu và kết luận, khóa luận gồm các chương:
Chương 1: Kiến thức cơ sở
1.1 Một số phân phối xác suất quan trọng
1.3 Các đại lƣợng đặc trƣng của mẫu số liệu
1.5 Các khái niệm trong kiểm định giả thiết
1.5.1 Giả thiết thống kê và kiểm định giả thiết thống kê
1.5.2 Sai lầm loại I và sai lầm loại II
SVTH: Phạm Thị Thu Huyền Trang 5
1.6.1 Giới thiệu về phần mềm Minitab
1.6.2 Vai trò của phần mềm Minitab
1.6.3 Cách cài đặt phần mềm
1.6.4 Một số công cụ để kiểm định phi tham số
Chương 2: Các phương pháp kiểm định phi tham số - Ứng dụng phần mềm
2.1.1 Trường hợp cỡ mẫu lớn (n10)
2.1.2 Trường hợp cỡ mẫu nhỏ (n10)
2.1.3 Kiểm định dấu cho các cặp dữ liệu
2.2 Kiểm định dấu theo hạng Wilcoxon
2.2.2 Trường hợp cỡ mẫu lớn
2.2.4 So sánh hai kì vọng
Chương 3: Bài tập vận dụng
SVTH: Phạm Thị Thu Huyền Trang 6
Một số phân phối xác suất quan trọng
Các khái niệm trong kiểm định giả thiết
1.5.1 Giả thiết thống kê và kiểm định giả thiết thống kê
1.5.2 Sai lầm loại I và sai lầm loại II
SVTH: Phạm Thị Thu Huyền Trang 5
Phần mềm Minitab
1.6.1 Giới thiệu về phần mềm Minitab
1.6.2 Vai trò của phần mềm Minitab
1.6.3 Cách cài đặt phần mềm
1.6.4 Một số công cụ để kiểm định phi tham số
2.1.1 Trường hợp cỡ mẫu lớn (n10)
2.1.2 Trường hợp cỡ mẫu nhỏ (n10)
2.1.3 Kiểm định dấu cho các cặp dữ liệu
2.2 Kiểm định dấu theo hạng Wilcoxon
2.2.2 Trường hợp cỡ mẫu lớn
2.2.4 So sánh hai kì vọng
SVTH: Phạm Thị Thu Huyền Trang 6
CHƯƠNG I KIẾN THỨC CƠ SỞ
1.1 Một số phân phối xác suất quan trọng
Biến ngẫu nhiên rời rạc X đƣợc gọi là có phân phối nhị thức với tham số n , p nếu miền giá trị của X là 0,1, , n và P X k C p n k k 1p n k , k 0,1, ,n,
Khi đó: E X np và Var X np 1 p
Biến ngẫu nhiên liên tục X gọi là có phân phối chuẩn nếu có hàm mật độ :
Kí hiệu X N , 2 Trường hợp đặc biệt 0 và 1 thì N 0;1 được gọi là phân phối chuẩn tắc Khi đó:
Hàm mật độ xác suất là: 1 2 2
Hàm phân phối xác suất là: 0 2 2
Phân vị của phân phối chuẩn tắc
Cho 0;1 và Z N 0;1 Ta gọi giá trị z là phân vị mức của phân phối chuẩn tắc Z nếu P Z z
Xấp xỉ phân phối nhị thức bằng phân phối chuẩn theo Định lý 1.1.1 (Định lý giới hạn trung tâm) cho thấy rằng nếu X n , n1 là dãy các biến ngẫu nhiên độc lập và cùng phân phối xác suất với biến ngẫu nhiên X có kỳ vọng E(X) = và phương sai Var(X) = ² hữu hạn, thì phân phối của tổng các biến này sẽ xấp xỉ phân phối chuẩn khi n đủ lớn.
Định lý giới hạn trung tâm khẳng định rằng nếu X1, X2, ,Xn là các biến ngẫu nhiên độc lập và cùng phân phối xác suất, thì khi n đủ lớn, phân phối tổng của các biến này sẽ tiến gần đến phân phối chuẩn, bất kể phân phối ban đầu của chúng Điều này có ý nghĩa quan trọng trong thống kê và xác suất, vì nó cho phép chúng ta áp dụng các phương pháp thống kê chuẩn cho dữ liệu không nhất thiết phải tuân theo phân phối chuẩn.
S X X X N n n và X X 1 X 2 n X n N ; 2 n Định lí 1.1.2 (Định lí giới hạn tích phân Moivre-Laplace) Giả sử X n là biến ngẫu nhiên có phân phối nhị thức B n p , Đặt
Nói cách khác, với n đủ lớn(np5 và n 1 p 5 ) ta có:
Tiến hành quan sát ngẫu nhiên n lần độc lập về biến ngẫu nhiên X, ta thu được n giá trị là x1, x2, , xn Tập hợp các giá trị này được gọi là mẫu số liệu của biến ngẫu nhiên X, trong đó n được xác định là kích thước mẫu.
1.3 Các đại lƣợng đặc trƣng của mẫu số liệu
Cho x x 1 , 2 , , x n là mẫu số liệu kích thước n
1) Trung bình mẫu, kí hiệu là x, đƣợc tính theo công thức:
2) Phương sai mẫu, kí hiệu s 2 , được tính theo công thức:
SVTH: Phạm Thị Thu Huyền Trang 8
1) Nếu số liệu cho dạng bảng (bảng phân bố tần số)
2) Nếu số liệu cho dạng bảng (bảng phân phối tần số chia lớp)
Ta đƣa về chú ý 1 để tính x và s 2
Mẫu ngẫu nhiên là một bộ gồm các biến ngẫu nhiên X X 1 , 2 , ,X n độc lập cùng phân phối xác suất với biến ngẫu nhiênX ,
Nhƣ vậy ta có thể xem mẫu số liệu x x 1 , 2 , , x n là một giá trị của mẫu ngẫu nhiên X X 1, 2, ,X n
1.5 Các khái niệm trong kiểm định giả thiết
1.5.1 Giả thiết thống kê và kiểm định giả thiết thống kê
Mỗi biến ngẫu nhiên đều liên quan đến một hàm mật độ xác suất, trong đó hàm này có thể chứa một hoặc nhiều tham số Tuy nhiên, đôi khi chúng ta chưa thể xác định được các tham số này.
Giả thiết thống kê đề cập đến các khẳng định liên quan đến giá trị tham số của biến ngẫu nhiên, các số đặc trưng của tổng thể, cũng như phân phối xác suất của biến ngẫu nhiên hoặc tổng thể đó.
SVTH: Phạm Thị Thu Huyền Trang 9
(1) là tuổi thọ trung bình của người Việt Nam Giả thiết thống kê có thể là
(2) p là tỉ lệ phế phẩm của nhà máy A Giả thiết thống kê có thể là: p0,1 hoặc 0,1 p ,
Kiểm định giả thiết thống kê là phương pháp ra quyết định dựa trên dữ liệu từ thí nghiệm hoặc nghiên cứu quan sát Một kết quả được coi là có độ tin cậy thống kê khi khả năng xảy ra của nó dưới một ngưỡng xác suất nhất định là thấp Kiểm định giả thiết cũng được xem như là phân tích dữ liệu để khẳng định, khác với phân tích dữ liệu nhằm mục đích khám phá.
Trong kiểm định giả thiết, có hai giả thiết đối lập được xem xét: giả thiết gốc (H0) và giả thiết đối (H1) Ví dụ, H0 có thể là tỉ lệ phế phẩm của nhà máy lớn hơn 0,1 (p > 0,1), trong khi H1 lại cho rằng tỉ lệ này nhỏ hơn hoặc bằng 0,1 (p ≤ 0,1) Tương tự, giả thiết về tuổi thọ trung bình có thể được đặt ra là H0: μ = 60 và H1: μ ≠ 60 Việc xác định và kiểm định hai giả thiết này là bước quan trọng trong nghiên cứu thống kê.
Giả thiết H0 được coi là giả thiết đúng, và quy trình kiểm định giả thiết là phương pháp nhằm sử dụng dữ liệu thu thập để bác bỏ H0 Khi H0 bị bác bỏ, điều đó có nghĩa là chúng ta chấp nhận giả thiết đối H1.
H1 được chấp nhận khi có đủ cơ sở chứng minh H0 sai Nếu dữ liệu thu thập không đủ mạnh để bác bỏ H0, chúng ta sẽ tiếp tục chấp nhận H0 là đúng Việc công nhận H0 ở đây có nghĩa là các chứng cứ và dữ liệu hiện có chưa đủ để phủ nhận H0.
1.5.2 Sai lầm loại I và sai lầm loại II
Khi tiến hành kiểm định giả thiết tống kê theo cách trên ta sẽ phạm phải một trong hai sai lầm sau:
- Bác bỏ H 0 trong khi thực tế H 0 đúng Sai lầm này gọi là sai lầm loại I
- Chấp nhận H 0 trong khi thực tế H 0 sai Sai lầm này gọi là sai lầm loại II
Mức ý nghĩa của kiểm định, ký hiệu là α, được định nghĩa là xác suất xảy ra sai lầm loại I, tức là xác suất bác bỏ giả thuyết H0 khi H0 thực sự đúng Trong quá trình kiểm định, chúng ta thường thiết lập mức ý nghĩa α trước để kiểm soát nguy cơ mắc phải sai lầm loại I.
Trong thống kê, người ta quy ước như sau:
+ P- giá trị 0.05: không có đủ cơ sở để bác bỏ H 0
+ 0.01 P- giá trị 0.05 : có đủ cơ sở để bác bỏ H 0
+ P- giá trị 0.01 : có cơ sở mạnh, hùng hồn để bác bỏ H 0
Trong trường hợp cho trước mức ý nghĩa thì:
Bác bỏ H 0 nếu P- giá trị và chấp nhận H 0 nếu P-giá trị
SVTH: Phạm Thị Thu Huyền Trang 10
P-giá trị là mức ý nghĩa tối thiểu cho phép bác bỏ giả thuyết H0 Kiểm định thống kê sử dụng mẫu dữ liệu để tính toán P-giá trị, từ đó giúp quyết định chọn giữa giả thuyết H0 và H1.
1.6.1 Giới thiệu về phần mềm Minitab
Minitab là phần mềm thống kê được phát triển vào năm 1972 tại Đại học Pennsylvania bởi Barbara F Ryan, Thomas A Ryan, Jr và Brian L Joiner Phần mềm này là phiên bản rút gọn của OMNITAB, một công cụ phân tích thống kê của NIST.
Dựa trên thành công của phần mềm, Minitab Inc được thành lập vào năm 1983 với trụ sở chính tại Đại học Pennsylvania Công ty có các chi nhánh tại Coventry, Anh, Paris, Pháp và Sydney, Úc, đồng thời duy trì mạng lưới bán lẻ và văn phòng đại diện ở nhiều quốc gia khác.
Minitab hiện nay là phần mềm phổ biến trong việc áp dụng hệ thống 6 sigma và các phương pháp cải tiến quá trình thông qua công cụ thống kê Theo số liệu, Minitab được sử dụng tại hơn 4.000 trường đại học và cao đẳng trên toàn cầu, khẳng định vị thế hàng đầu của nó trong giảng dạy.
Chương trình này cho phép bạn giải quyết các bài toán từ cơ bản đến phức tạp, bao gồm việc sử dụng các tham số thống kê và áp dụng các phương pháp phân tích hồi quy, phân variance để xác định ảnh hưởng của các yếu tố khác nhau đến các tình trạng Ngoài ra, bạn còn có thể thiết kế các thí nghiệm hiệu quả cho riêng mình.
Minitab cũng cho chúng ta hàng loạt cách vẽ đồ thị mang tính phân tích khoa học
1.6.2 Vai trò của phần mềm Minitab trong kiểm định phi tham số
Phần mềm Minitab giúp chúng ta giải những bài toán nhanh hơn, chính xác và tiết kiệm thời gian Đặc biệt là các bài toán với số liệu lớn
1.6.3 Cách cài đặt phần mềm