CHƯƠNG 1. LÝ THUYẾT XÁC SUẤT ...............................................................8 1.1 Lịch sửxác suất thông kê ..............................................................................8 1.1.1 Trong thực tế ........................................................................................8 1.1.2 Trong xây dựng ....................................................................................8 1.2 Định nghĩa .....................................................................................................9 1.2.1 Uncertainty ( độkhông chắc chắc) ......................................................9 1.2.2 Phép thử( Random experiment) ..........................................................9 1.2.3 Không gian mẫu ( Outcome spaces hoặc Sample spaces) ...................9 1.2.4 Biến cố( Events) ................................................................................10 A. Biến cố chắc chắn ..................................................................................10 B. Biến cố trống ..........................................................................................11 C. Biến cố ngẫu nhiên .................................................................................11 D. Biến cốbằng nhau ..................................................................................11 E. Quan hệ giữa các biến cố .......................................................................12 F. Các phép toán tập hợp ............................................................................13 1.3 Xác suất .......................................................................................................15 A. Định nghĩa theo suy luận Frequentist: .....................................................15 B. Định nghĩa cổ điển ...................................................................................16 C. Định nghĩa theo suy luận Bayesian ..........................................................16 D. Định nghĩa xác suất theo tiên đề ..............................................................17 1.4 Các phép tính xác suất .................................................................................19 Downloaded by EBOOKBKMT VMTC (nguyenphihung1009gmail.com) lOMoARcPSD|2935381 1.4.1 Xác suất của biến cố đối lập .....................................................................19 1.4.2 Định lý cộng xác suất .........................................................................19 1.4.3 Định lý nhân xác suất ...............................................................................20 A. Xác suất có điều kiện ...............................................................................20 B. Biến cố độc lập .........................................................................................21 C. Định lý nhân xác suất ...............................................................................21 CHƯƠNG 2. BIẾN NGẪU NHIÊN RỜI RẠC ....................................................24 2.1 Biến ngẫu nhiên rời rạc ...............................................................................24 2.1.1 Định nghĩa ..........................................................................................24 A. Biến ngẫu nhiên .....................................................................................24 B. Biến ngẫu nhiên rời rạc (Discrete random variables) ............................24 2.1.2 Các đặc trưng của biến ngẫu nhiên rời rạc ........................................25 A. Kỳvọng (Expectation) ...........................................................................25 B. Phương sai ( Variance) ..........................................................................26 C. Độlệch chuẩn (Standard deviation).......................................................28 D. Trung vị ..................................................................................................28 E. Moment trung tâm (mômen) ................................................................28 F. Biến ngẫu nhiên chuẩn hóa (Standardized random variables) ..............29 2.1.3 Hàm và phân phối của biến ngẫu nhiên rời rạc ........................................30 A. Hàm khối xác suất ( Probrability mass function) .....................................30 B. Hàm phân phối xác suất .........................................................................31 C. Phân phối Bernoulli ...............................................................................33 Downloaded by EBOOKBKMT VMTC (nguyenphihung1009gmail.com) lOMoARcPSD|2935381 D. Phân phối nhị thức (Binomial distribution) ...........................................34 E. Phân phối hình học .................................................................................35 F. Phân phối Poisson ..................................................................................36 CHƯƠNG 3. BIẾN NGẪU NHIÊN LIÊN TỤC ..................................................39 3.1 Biến ngẫu nhiên liên tục ..............................................................................39 3.1.1 Định nghĩa ..........................................................................................39 A. Biến ngẫu nhiên liên tục ........................................................................39 B. Hàm mật độxác suất (Probability density function) .............................39 3.1.2 Các đặc trưng của biến ngẫu nhiên liên tục .......................................41 A. Kỳvọng ..................................................................................................41 B. Phương sai ..............................................................................................41 3.2 Các phân phối liên tục .................................................................................41 3.2.1 Phân phối đều .....................................................................................41 3.2.2 Phân phối mũ (Exponential Distribution) ..........................................43 3.2.3 Phân phối chuẩn (Normal Distribution) ............................................44 A. Phân phối chuẩn .....................................................................................44 B. Phân phối chuẩn chuẩn tắc .....................................................................46 C. Tích phân Laplace ..................................................................................47 D. Công thức tính xác suất ..........................................................................47 3.2.4 Phân phối ChiBình phương( ChiSquared) ......................................49 3.2.5 Phân phối Student ..............................................................................51 3.3 HệsốZ của Altman .....................................................................................52 Downloaded by EBOOKBKMT VMTC (nguyenphihung1009gmail.com) lOMoARcPSD|2935381 3.3.1 Giới thiệu ...........................................................................................52 3.3.2 Công thức ...........................................................................................53 CHƯƠNG 4. KIỂM ĐỊNH GIẢTHIẾT ..............................................................54 4.1 Khái niệm ....................................................................................................54 4.1.1 Giảthiết không (Null Hypothesis) .....................................................54 4.1.2 Giảthiết nghịch (Alternative hypothesis) ..........................................54 4.1.3 Mức ý nghĩa .......................................................................................55 4.1.4 Miền bác bỏ ........................................................................................55 4.1.5 Kiểm định giảthiêt thông kê..............................................................55 4.2 Kiểm định giảthiết tham số ........................................................................57 4.2.1 Kiểm định giá trịkì vọng của phân phối chuẩn .................................57 4.2.2 Kiểm định so sánh hai trung bình ......................................................62 4.2.3 Kiểm định phương sai ........................................................................64 A. Kiểm định phương sai (A chisquare test) .............................................64 B. So sánh phương sai ( Ftest) ..................................................................66 4.2.4 Kiểm định tỷlệ ...................................................................................68 A. Kiểm định giải thiết vềtỷlệtổng thể ....................................................68 B. Kiểm định so sánh hai tỷlệ ....................................................................69 4.3 Kiểm định giảthiết phi tham số ..................................................................70 4.3.1 Kiểm định quy luật phân phối (ChiSquare GoodnessofFit Test) ..70 A. Trường hợp không có những tham số chưa biết ....................................70 B. Trường hợp có những tham số chưa biết ...............................................72 Downloaded by EBOOKBKMT VMTC (nguyenphihung1009gmail.com) lOMoARcPSD|2935381 4.4 Kiểm định tính độc lập (Contingency table) ...............................................73 4.4.1 Bảng tương quan ................................................................................73 4.4.2 Kiểm định ChiSquared về tính độc lập (Chisquare test of independence) ..................................................................................................74 CHƯƠNG 5. QUY HOẠCH TUYẾN TÍNH .......................................................77 5.1 Định nghĩa quy hoạch tuyến tính ................................................................77 5.2 Sựtồn tại nghiệm và tính chất tập nghiệm quy hoạch tuyến tính ...............78 5.2.1 Sựtồn tại nghiệm ...............................................................................78 5.2.2 Tính chất tập nghiệm .........................................................................82 5.3 Giải bài toán quy hoạch tuyến tính hai biến bằng phương pháp hình học ..83 5.4 Phương pháp đơn hình ................................................................................88 5.4.1 Thuật toán đơn hình dạng bảng(Kim, 2008) .....................................89 Tài liệu tham khảo ....................................................................................................
LÝ THUYẾT XÁC SUẤT
Lịch sử xác suất thông kê
Sau sự thiên tài của nhà toán học người Nga Xô Viết Andrei Kolmogorov(Mai,
Kể từ năm 2016, lý thuyết xác suất đã trở thành một nhánh toán học chặt chẽ, cung cấp cơ sở cho nghiên cứu các quá trình ngẫu nhiên và phép tính ngẫu nhiên Đồng thời, nhiều lý thuyết toán học được ứng dụng để hiểu hệ thống ngẫu nhiên, mang lại những ý tưởng và công cụ mới để chứng minh các định lý trong các lĩnh vực lý thuyết số, tổ hợp, phương trình vi phân và vi phân hình học.
Xác suất học là nền tảng của thống kê và có ứng dụng rộng rãi trong xã hội, từ kế toán và tài chính đến thiết kế tổ chức và quản lý nguồn nhân lực; đặc biệt trong ngành xây dựng, nó giúp đưa ra quyết định trong điều kiện không chắc chắn Nhận diện và đánh giá các rủi ro là bước thiết yếu vì sai sót có thể xảy ra ở nhiều giai đoạn, từ thiết kế đến thi công và vận hành, với các hỏng hóc và tai nạn có thể phát sinh Nguyên nhân tiềm ẩn rất đa dạng, bao gồm lỗi của con người, hư hỏng cấu kiện, tải trọng bất thường và các mối nguy từ môi trường tự nhiên Do đó, lập kế hoạch cẩn thận ngay từ giai đoạn đầu của dự án là cách duy nhất để kiểm soát các rủi ro liên quan đến những sự kiện này.
Tóm lại, phần quan trọng nhất của lý thuyết xác suất là nghiên cứu về độ không chắc chắn.
Định nghĩa
1.2.1 Uncertainty ( độ không chắc chắc)
“Uncertainty is that which disappears when we become certain”.(Bedford and
Sự không chắc chắn đề cập đến các tình huống không hoàn hảo hoặc không xác định, bao gồm cả dự đoán về các sự kiện tương lai và các phép đo vật lý đã thực hiện hoặc vẫn chưa biết Sự không chắc chắn xuất hiện trong mọi lĩnh vực và ảnh hưởng đến cách chúng ta diễn giải kết quả Trong khoa học và kỹ thuật, sự chắc chắn được đạt được thông qua quan sát, và sự không chắc chắn được loại bỏ bằng quan sát.
Do đó, trong những bối cảnh này, sự không chắc chắn có liên quan đến kết quả của những quan sát có thể có
Đây là một quá trình ngẫu nhiên dẫn đến một tập các kết quả có thể có, thậm chí có thể vô hạn, và kết quả thực tế phụ thuộc vào các ảnh hưởng không đoán trước và biến động ngẫu nhiên của hệ thống; một phép thử thường được lặp lại nhiều lần để xác định phân phối xác suất của các kết quả, từ đó rút ra các kết luận thống kê và hiểu rõ bản chất của quá trình; việc lặp lại nhiều lần giúp ước lượng xác suất xuất hiện của từng kết quả và nhận diện những mẫu biến động, bất kể kết quả cụ thể ở lần thử đầu tiên ra sao.
Ví dụ: đo chiều cao, làm xét nghiệm, chẩn đoán bệnh hay điều trị bệnh,…là các phép thử
1.2.3 Không gian mẫu ( Outcome spaces hoặc Sample spaces)
Không gian mẫu Ω là tập hợp của tất cả kết quả có thể có của phép thử ngẫu nhiên
Không gian mẫu hay không gian mẫu toàn thể, thường được ký hiệu là S, Ω hay U (tức "universal set")
Để nghiên cứu hiện tượng ngẫu nhiên về sự xuất hiện ngửa hay sấp khi tung một đồng tiền, không gian mẫu của thí nghiệm là Ω = {ngửa, sấp}, là tập hợp các kết quả có thể xảy ra của mỗi lần tung Đây đóng vai trò cơ bản để mô tả mọi biến cố liên quan đến hiện tượng ngẫu nhiên này và giúp phân tích xác suất một cách có hệ thống Trong một số thí nghiệm, có thể có hai hoặc nhiều hơn không gian mẫu được xem xét tùy theo mức độ chi tiết của mô hình và cách thức quan sát được áp dụng.
Trong một cuộc đua ngựa, nếu chỉ quan sát người chiến thắng, ta có thể coi Ω là tập hợp gồm tất cả các con ngựa tham gia cuộc đua Khi giả thiết người chiến thắng có thể là một trong những con ngựa có mặt ngày thi đấu hôm ấy, ta đang xác định phạm vi đối tượng của cuộc phân tích Việc định nghĩa Omega như vậy giúp ta dễ dàng phân tích xác suất và diễn giải kết quả dựa trên toàn bộ các đối thủ tham gia cuộc đua.
+ Ngoài ra nếu chúng ta quan sát toàn bộ cuộc đua, chúng ta có thể lấy Ω = {thứ tự xếp hạng có thể xảy ra}
Các tập con của không gian mẫu được gọi là biến cố
Hình 1 Minh họa tập hợp con Dựa vào khả năng xuất hiện của hiện tượng chia các hiện tượng thành 3 loại.
Biến cố chắc chắn
Biến cố nhất định xảy ra sau phép thử gọi là biến cố chắc chắn, ký hiệu là Ω
+ Ví dụ: Tung một con xúc sắc, gọi A là biến cố có số chấm nhỏ hơn hoặc bằng 6, khi đó A là biến cố chắc chắn.
Biến cố trống
Biến cố nhất định không xảy ra sau phép thử gọi là biến cố không thể có ( biến cố trống) , ký hiệu là Φ.
Biến cố ngẫu nhiên
Biến cố là những kết quả có thể xảy ra trong phép thử và chúng có thể xuất hiện ngay từ đầu hoặc sau khi thí nghiệm được tiến hành Những biến cố ngẫu nhiên thường được ký hiệu bằng các chữ cái in hoa như A, B, C, hoặc bằng các số đánh số kèm theo chỉ số như A1, A2, giúp phân loại và so sánh các biến cố trong bài toán xác suất Nhận diện đúng biến cố và mô tả chúng rõ ràng là nền tảng cho việc tính xác suất, phân tích mối quan hệ giữa các biến cố (độc lập hay phụ thuộc) và xây dựng các phân tích thống kê hiệu quả.
+ Ví dụ: Nếu gọi Ai là biến cố con xúc sắc xuất hiện mặt có i chấm (i= 1,6 ) thì A1,
A2, A3, A4, A5,A6 là các biến cố ngẫu nhiên.
Biến cố bằng nhau
Biến cố A gọi là kéo theo biến cố B nếu A xảy ra thì B xảy ra , ký hiệu là A⊂B
Nếu đồng thời có A⊂B và B⊂A thì các biến cố A và B gọi là bằng nhau.(Huy,
Ví dụ về xác suất khi tung một con xúc xắc sáu mặt: Gọi Ai là biến cố mặt xuất hiện có i chấm (i ∈ {1,2,3,4,5,6}); B là biến cố số chấm chia hết cho 3 (tức mặt 3 và 6); C là biến cố số chấm chẵn (tức 2, 4 và 6); P2 là biến cố số chấm là số nguyên tố và chẵn, tương ứng mặt 2 Khi đó ta có P(Ai) = 1/6 với mọi i, P(B) = 2/6 = 1/3, P(C) = 3/6 = 1/2 và P(P2) = 1/6.
Từ các định nghĩa, với mọi biến cố A ta có : A⊂Ω, Ω⊂A
Do các quan hệ này nên ta có: Các biến cố trống đều bằng nhau và các biến cố chắc chắn đều bằng nhau.
Quan hệ giữa các biến cố
Cho hai biến cố A và B Khi đó ta gọi: i Tổng của A và B, hay A cộng B
Là biến cố xảy ra khi A xảy ra hoặc B xảy ra, ký hiệu A+B ii Tích của A và B, hay A nhân B,
Là biến cố xảy ra nếu A và B đồng thời xảy ra, ký hiệu A.B hoặc AB iii Hiệu của A và B, hay A trừ B
Là biến cố xảy ra nếu A xảy ra nhưng B không xảy ra, ký hiệu A-B iv Biến cố xung khắc
Xung khắc giữa hai biến cố A và B được định nghĩa là hai biến cố này không thể đồng thời xảy ra sau một phép thử Điều này có nghĩa là khi biến cố A xảy ra thì biến cố B không xảy ra, và khi biến cố B xảy ra thì biến cố A không xảy ra; hoặc cả hai biến cố A và B đều không xảy ra sau phép thử.
Như vậy, nếu A và B là hai biến cố xung khắc thì A.B = Φ
Ví dụ về xác suất: tung một con xúc xắc chuẩn, A là biến cố xuất hiện mặt chấm lớn hơn hoặc bằng 4 và B là biến cố xuất hiện mặt chấm nhỏ hơn hoặc bằng 2 Mẫu hệ xác suất là tập hợp các mặt 1–6, nên A = {4, 5, 6} và B = {1, 2} Xác suất của A là P(A) = 3/6 = 1/2, của B là P(B) = 2/6 = 1/3 Vì A và B không giao nhau (A ∩ B = ∅), P(A ∪ B) = P(A) + P(B) = 5/6 Đây là ví dụ minh họa cho hai biến cố loại trừ lẫn nhau trong xác suất với xúc xắc. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Dùng [Pollinations.AI](https://pollinations.ai/redirect/kofi) để tối ưu hóa nội dung xác suất của bạn, chuẩn SEO và hấp dẫn hơn!
Ta thấy hai biến cố và không cùng xảy ra, do đó A và B là hai biến cố xung khắc v Đôi một xung khắc
Các biến cố A1,A2,…An gọi là đôi một xung khắc nếu hai biến cố khác nhau bất kỳ trong đó dều là xung khắc, tức là:
Ai.Aj=Φ với mọi i≠j +Ví dụ: Tung một con xúc sắc
Gọi Ai = {con xúc xắc xuất hiện mặt có i chấm} với i = 1,2,3,4,5,6 A1 và A2 là hai biến cố xung khắc, A1 và A6 là hai biến cố xung khắc, và A5 và A6 cũng xung khắc; từ đó A1, A2, A3, A4, A5, A6 hình thành một hệ gồm 6 biến cố xung khắc và đầy đủ, vì mỗi kết quả của quay xúc xắc thuộc đúng một Ai Biến cố đối lập của Ai, ký hiệu Ai^c, là sự kiện không xuất hiện i chấm, tức là S \ Ai; trong hệ này Ai^c có thể được diễn tả bằng hợp của các biến cố còn lại A1, , A6 trừ Ai, và tổng xác suất của các biến cố Ai bằng 1.
Biến cố đối lập của A là biến cố xảy ra khi A không xảy ra và ngược lại khi A xảy ra, ký hiệu A^c (hay Ā) Nếu A và A^c là hai biến cố đối lập thì A ∪ A^c = Ω và A ∩ A^c = ∅ Nói cách khác, hai biến cố đối lập bao phủ toàn bộ mẫu Ω và không có phần giao nhau.
Ví dụ điển hình cho biến cố đối lập là khi một bà mẹ sinh con, biến cố sinh con trai và biến cố sinh con gái là hai biến cố đối lập: chỉ có thể xảy ra một trong hai kết quả trong cùng một lần sinh Trong vii, khái niệm Nhóm đầy đủ các biến cố cho ta biết tập hợp tất cả các kết quả có thể của một thí nghiệm; với lần sinh, hai kết quả con trai và con gái có thể xem là một nhóm đầy đủ các biến cố khi chỉ có hai khả năng ấy Nhận diện đúng hai khái niệm này giúp tính xác suất một cách chính xác bằng cách cộng xác suất của các biến cố đối lập và bảo đảm mọi khả năng đều được xem xét.
Các biến cố A1, A2, , An được gọi là nhóm đầy đủ các biến cố (hay phân hoạch của mẫu Ω) khi chúng thỏa mãn hai điều kiện cơ bản: chúng đôi một xung khắc với nhau, tức là A_i ∩ A_j = ∅ với mọi i ≠ j, và ít nhất một trong chúng chắc chắn xảy ra, đồng thời tập hợp các biến cố này phủ toàn bộ mẫu Ω, tức là A1 ∪ A2 ∪ ∪ An = Ω.
𝐴 1 + 𝐴 2 + ⋯ + 𝐴 𝑛 = Ω+ Ví dụ với mọi biến cố A, hai biến cố A, 𝐴 là một nhóm đầy đủ các biến cố.
Các phép toán tập hợp
Giao của hai tập hợp A và B, kí hiệu A ∩ B là tập hợp gồm các phần tử thuộc A và
B, là biến cố xảy ra khi A và B cùng xảy ra
Hình 2 Biểu đồ Venn thể hiện phép giao ii Phép hợp
Hợp của hai tập hợp A và B, ký hiệu A ∪ B, là tập hợp các phần tử thuộc A hoặc thuộc B Đây là biến cố xảy ra khi A xảy ra hoặc B xảy ra, hoặc khi cả A và B cùng xảy ra.
Hình 3 Biểu đồ Venn thể hiện phép hợp iii Định luật DeMorgan
Cho hai tập hợp bất kì A và B thì
+ Ví dụ : Rút gọn biểu thức sau sử dụng định luật DeMorgan: 𝑌 = 𝐴𝐵 + 𝐴𝐵
Định nghĩa theo suy luận Frequentist
Định nghĩa theo suy luận Frequentist của xác suất là cách giải thích điển hình do nhà thực nghiệm đề xuất Theo quan điểm này, xác suất P(A) được hiểu là tần suất xuất hiện tương đối của sự kiện A trong một thí nghiệm được lặp lại nhiều lần Nói cách khác, xác suất của một sự kiện A được xác định bằng số lần A xảy ra chia cho tổng số lần thử nghiệm (n lượt), tức là tần suất tương đối của A trong chuỗi quan sát.
A xảy ra chia cho số thử nghiệm được thực hiện:(M.H.Faber, 2012)
𝑛 𝑒𝑥𝑝 𝑣ớ𝑖 𝑛 𝑒𝑥𝑝 → ∞ Trong đó 𝑁 𝐴 là số lần biến cố A xảy ra, 𝑛 𝑒𝑥𝑝 là tổng số lần thử nghiệm
Ví dụ: Theo suy luận Frequentist, xác suất để gặp mặt ngửa khi tung đồng xu sẽ không mang ý nghĩa cho một lần tung duy nhất; ý nghĩa của xác suất chỉ xuất hiện khi có dữ liệu quan sát từ nhiều lần tung Tuy nhiên, khi đã nhận được thêm dữ liệu sau chuỗi tung, ta có thể ước lượng tham số p bằng tỉ lệ mặt ngửa và sử dụng các công cụ như khoảng tin cậy hoặc kiểm định giả thuyết để đánh giá tính ổn định và độ tin cậy của ước lượng.
Trong thí nghiệm tung đồng xu lặp đi lặp lại, sau 1000 lần tung ta ghi nhận mặt ngửa xuất hiện 563 lần, cho xác suất thực nghiệm của mặt ngừa là 0.563; tuy nhiên khi tiếp tục tung thêm lượt, xác suất dần tiến về 0.5 và kết quả trở nên phân tán, khiến việc đưa ra quyết định gặp khó khăn Theo quan điểm xác suất của trường phái Frequentist, chỉ những sự kiện ngẫu nhiên lặp lại mới có xác suất, và xác suất được gắn với các hiện tượng thực nghiệm hoặc với các giả thuyết và các giá trị cố định chưa biết trước.
Định nghĩa cổ điển
Xác suất cổ điển bắt nguồn từ thời kỳ đầu của xác suất học, khi Pascal và Fermat đặt nền móng cho lý thuyết này Giả sử một phép thử có n kết quả đồng khả năng xảy ra, trong số đó có m kết quả thuận lợi cho biến cố A Khi đó xác suất của biến cố A được định nghĩa là P(A) = m/n, tức là tỉ lệ giữa số kết quả thuận lợi và tổng số kết quả có thể xảy ra Khái niệm này được ghi nhận trong các nghiên cứu như Alsalam (1998) và được ứng dụng rộng rãi, như được trình bày bởi Huy (2019).
𝑛 Như vậy, xác suất của biến cố A là tỷ số về khả năng biến cố xuất hiện
Tung một đồng tiền cân đối, đồng chất Gọi S là biến cố được mặt sấp, N là biến cố được mặt ngửa Ta cú P(S) = ẵ, P(N) =1/2
Trên thực tế, không có mâu thuẫn thực sự với suy luận Frequentist, nhưng có thể nhận thấy những khác biệt sau:
• Thí nghiệm không cần tiến hành vì đã biết trước câu trả lời.
Định nghĩa theo suy luận Bayesian
Các suy diễn từ Bayesian cho phép ta cập nhật những suy diễn xác suất khi thay đổi niềm tin con người, các chứng cứ và thông tin từ dữ liệu:
P(A)= mức độ “niềm tin” mà biến cố A xảy ra
Mức độ niềm tin là sự phản ánh trạng thái tâm trí của cá nhân về kinh nghiệm, chuyên môn và sở thích.(M.H.Faber, 2012)
Trái ngược với suy luận theo Frequentist, Bayesian là một trường phái tạo sự linh hoạt trong đo lường khả năng xảy ra của biến cố, cho phép điều chỉnh xác suất theo kinh nghiệm và thông tin mới thay vì dựa vào các sự thật tần suất khô khan Với tính linh hoạt và khả năng cập nhật liên tục, Bayesian cho phép diễn giải xác suất một cách mềm dẻo và thích nghi với ngữ cảnh Ưu điểm nổi bật của Bayesian là hiệu quả hơn trong các tác vụ dự báo với kích thước mẫu nhỏ nhờ việc kết hợp prior với dữ liệu mới để cập nhật posterior, từ đó cung cấp dự báo đáng tin cậy hơn khi dữ liệu hạn chế Do đó, Bayesian được ứng dụng rộng rãi trong thống kê và machine learning khi dữ liệu không nhiều hoặc biến động, giúp tối ưu hóa các quyết định dựa trên xác suất.
Ví dụ minh họa cho xác suất với đồng tiền cân đối đồng chất: Gọi S là biến cố mặt sấp và N là biến cố mặt ngửa Ban đầu thực hiện ba lần tung và nhận được kịch bản [S,N,N], nghĩa là lần tung thứ nhất cho mặt sấp và hai lần sau cho mặt ngửa Đây là một chuỗi kết quả điển hình của ba lần tung đồng tiền và giúp hiểu cách xác suất được phân phối giữa các kết quả có thể xảy ra.
Theo trường phái Frequentist, ở lượt tung thứ 4 vẫn có quá ít bằng chứng để tin rằng xác suất mặt sấp là 1/3, vì số lần tung quá ít và các lần tung được coi là độc lập và đồng chất, nên kết luận về xác suất còn mang tính ước lượng và dễ bị ảnh hưởng bởi biến thiên ngẫu nhiên.
Bạn vẫn tin vào xác suất cân bằng giữa hai mặt của đồng xu đồng chất: mặt ngửa và mặt sấp có xác suất bằng nhau 1/2, vì tổng xác suất của hai mặt là 1 Khi dự đoán lượt tung thứ tư, bạn không tin xác suất sẽ là 1/3 mà tin vào phân tích lý trí và nguyên lý Bayes cho rằng xác suất cho mỗi mặt vẫn là 1/2 Đây là một suy luận theo Bayesian, nhấn mạnh rằng với mỗi lần tung, xác suất cân bằng giữa hai mặt vẫn được duy trì.
Định nghĩa xác suất theo tiên đề
Ký hiệu A là tập hợp các biến cố trong một phép thử Ta gọi xác suất là một quy tắc đặt mỗi A∈A (Ghahramani, 1999)
(III) Với mội dãy biến cố đôi một xung khắc (An)⊂A
Tiên đề xác suất đầu tiên cho biết xác suất của bất kỳ sự kiện nào là một số thực không âm, có nghĩa là xác suất tối thiểu bằng 0 và không thể bằng vô hạn Bộ số được dùng để biểu diễn xác suất là tập hợp các số thực, bao gồm cả số hữu tỉ (phân số) và số vô tỉ, những số không thể viết dưới dạng phân số.
Tiên đề này không quy định xác suất của các sự kiện có thể xảy ra ở mức độ lớn như thế nào Nó loại trừ khả năng tồn tại xác suất âm và khẳng định rằng xác suất nhỏ nhất dành cho các sự kiện không thể xảy ra là bằng không.
Tiên đề thứ hai về xác suất khẳng định rằng xác suất của toàn bộ không gian mẫu bằng một, được ký hiệu P(Ω) = 1, trong đó Ω là không gian mẫu của thí nghiệm Ngụ ý của tiên đề này là không gian mẫu chứa mọi kết quả có thể xảy ra và không có sự kiện nào nằm ngoài nó; mọi sự kiện con của Ω sẽ có xác suất được gán sao cho tổng xác suất của tất cả các sự kiện bằng một Điều này đảm bảo tính đầy đủ và nhất quán của hệ thống xác suất.
Tiên đề này tự nó không đặt giới hạn cho xác suất của các sự kiện không phải là toàn bộ không gian mẫu; nó cho thấy rằng một sự kiện chắc chắn tuyệt đối có xác suất bằng 1, tức 100%.
Tiên đề thứ ba của xác suất đề cập đến các sự kiện loại trừ lẫn nhau Đối với một tập hợp các sự kiện loại trừ lẫn nhau, xác suất để xảy ra ít nhất một trong số chúng bằng tổng xác suất của từng sự kiện, tức là P(A1 ∪ A2 ∪ ∪ An) = P(A1) + P(A2) + + P(An) Khi các sự kiện không thể xảy ra đồng thời, quy tắc này cho phép tính xác suất hợp của các sự kiện một cách đơn giản và chính xác, hỗ trợ các phân tích xác suất trong thống kê và xác định ranh giới xác suất một cách trực quan.
Tiền đề thứ ba có vẻ không hữu ích khi xem riêng lẻ, nhưng khi kết hợp với hai tiền đề kia, nó thực sự trở nên mạnh mẽ và có giá trị Sự liên kết giữa ba tiền đề cho thấy tiền đề thứ ba hỗ trợ và bổ sung cho hai tiền đề còn lại, tạo nên một khung lý thuyết vững chắc và mang lại hiệu quả rõ ràng hơn cho toàn bộ hệ thống.
1.4 Các phép tính xác suất
1.4.1 Xác suất của biến cốđối lập
Với mọi biến cố A, ta có 𝑃(𝐴) = 1 − 𝑃(𝐴)
Chứng minh : Ta có theo tiên đề III và I
+Ví dụ: Tung 2 con xúc xắc Ta có không gian mẫu Ω = {(𝑖, 𝑗): 1 ≤ 𝑖 ≤ 6, 1 ≤
Gọi A là biến cố tổng hai mặt bằng 4 => A={(1.3), (2,2), (3,1)}
Sẽ rất khó để đếm đủ trường hợp sẽ ra hai mặt có tổng khác 4 Theo định lý của biến cố đối lặp, P(A c )=1-3/363/36
1.4.2 Định lý cộng xác suất
Nếu A1,A2,…An là các biến cố đôi một xung khắc thì
Với các biến cố tùy ý A và B, ta có:
Giả sử trong n trường hợp đồng khả năng có thể xảy ra của phép thử:
+ Có m1 trường hợp thuận lợi cho việc xuất hiện của biến cố A, tức là: P(A)=m1/n + Có m2 trường hợp thuận lợi cho việc xuất hiện của biến cố B, tức là: P(B) =m2/n
Trong một bài toán xác suất với không gian mẫu có n phần tử, nếu có m trường hợp thuận lợi cho cả hai biến cố A và B (tức là số trường hợp thuận lợi cho A∩B là m), thì xác suất P(A∩B) = m/n Khi đó số trường hợp thuận lợi cho biến cố tổng A ∪ B, nghĩa là xảy ra A hoặc B hoặc cả hai, bằng m1 + m2 − m, trong đó m1 là số trường hợp thuận lợi cho A và m2 là số trường hợp thuận lợi cho B.
Trong một sự kiện có 400 người, 300 người tham gia đạp xe hoặc bơi (tức là tham gia ít nhất một hoạt động), trong đó 160 người tham gia bơi và 120 người tham gia cả hai hoạt động Xác suất để chọn ngẫu nhiên một người tham gia bơi là P(bơi) = 160/400 = 0,4 (tức 40%) Số người tham gia đạp xe là 260 người, trong đó có 120 người tham gia cả hai hoạt động và 140 người tham gia chỉ đạp xe Có 100 người không tham gia đạp xe hay bơi.
Giải: Gọi A là biến cố người tham gia bơi,B là biến cố người tham gia đạp xe Khi đó A+B là biến cố người tham gia đạp xe hoặc bơi
1.4.3 Định lý nhân xác suất
Xác suất có điều kiện
Cho hai biến cố A và B Ta gọi xác suất của biến cố A khi biến cố B đã xảy ra là xác suất của A với điều kiện B, ký hiệu P(A/B)
Ví dụ: Giả sử một lớp chia thành 3 nhóm thực tập Nhóm I có 30 sinh viên, trong đó có 10 nữ; nhóm II có 25 sinh viên, trong đó có 10 nữ; nhóm III có 25 sinh viên, trong đó có 8 nữ Lựa chọn ngẫu nhiên một sinh viên từ toàn lớp (tổng cộng 80 sinh viên), xác suất để sinh viên đó là nữ và thuộc nhóm 2 bằng 10/80 = 1/8, tương đương 12,5%.
Giải: Gọi B là biến cố sinh viên chọn ra là nữ
A là biến cố sinh viên thuộc nhóm 2
Biến cố độc lập
Hai biến cố A và B được gọi là độc lập khi xác suất xảy ra của một biến cố không phụ thuộc vào việc biến cố kia có xảy ra hay không Cụ thể, chúng ta có P(A ∩ B) = P(A) × P(B); tức là xác suất đồng thời xảy ra của A và B bằng tích xác suất riêng của chúng Nếu điều kiện này đúng, thông tin về A không làm thay đổi xác suất của B và ngược lại; ngược lại, nếu P(A ∩ B) ≠ P(A) × P(B), A và B được xem là có mối quan hệ phụ thuộc.
Ví dụ: khi tung hai đồng xu, việc đồng xu này xuất hiện mặt sấp hay mặt ngửa không ảnh hưởng tới xác suất để đồng xu kia xuất hiện mặt sấp hay ngửa Như vậy, việc bà mẹ này sinh con trai hay con gái cũng không ảnh hưởng tới xác suất sinh con trai (hay gái) của bà mẹ khác Ta đã nhận biết được hai biến cố vừa xét là độc lập.
Định lý nhân xác suất
i Với các biến cố tùy ý A và B, ta có:
Giả sử n là số kết quả có thể có khi thực hiện một phép thử; m1 là số trường hợp thuận lợi cho biến cố A xảy ra; m2 là số trường hợp thuận lợi cho biến cố B xảy ra; m là số trường hợp thuận lợi cho cả hai biến cố A và B xảy ra Khi đó P(A ∩ B) = m/n và P(A) = m1/n.
Ta đi tìm xác suất có điều kiện P(B|A) Với biến cố A đã xảy ra, các kết cục của phép thử đối với biến cố B được coi là đồng khả năng và kết quả thuận lợi cho biến cố B được ký hiệu là m1, trong đó m đại diện cho kết quả thuận lợi cho biến cố B.
Khi đó theo định nghĩa ta có: P(B/A) =m/m1= 𝑚/𝑛
Hoàn toàn tương tự ta cũng có thể chứng minh được p(A.B) = p(B).p(A/B)
Một tập gồm 10 chứng từ, trong đó có 2 chứng từ không hợp lệ và 8 chứng từ hợp lệ Xác suất để hai chứng từ rút ra đầu tiên đều hợp lệ là (8/10)×(7/9)=28/45 Nếu người đó rút chứng từ thứ ba sau hai chứng từ hợp lệ, xác suất để trong ba chứng từ đã rút chỉ có chứng từ thứ ba là không hợp lệ là (28/45)×(2/8)=7/45.
Giải: Gọi A = {cả 2 chứng từ rút ra đều hợp lệ}
B = {trong 3 chứng từ rút ra, chỉ có chứng từ thứ 3 không hợp lệ}
Nếu gọi Ai = {chứng từ rút ra lần thứ i là hợp lệ} (i = 1,3) Khi đó ta có :
Vì vậy các xác suất cần tìm là:
Nếu A và B là hai biến cố độc lập:
Nếu trong một phép thử, các biến cố A1, A2, …, An có thể cùng xảy ra thì: P(A1 A2 … An) = P(A1).P( A2/A1)….P(An/A1 A2 … An-1)
Nếu các biến cố A1, A2, …, Ak độc lập thì:
Hai máy hoạt động độc lập trong ca làm việc Xác suất để máy thứ nhất không bị hỏng là 0,9 và máy thứ hai không bị hỏng là 0,8 Do hai máy độc lập với nhau, xác suất cả hai máy đều không bị hỏng là tích của hai xác suất này: 0,9 × 0,8 = 0,72, tức là 72%.
Gọi A = {cả 2 máy đều không bị hỏng trong một ca làm việc}
Nếu gọi Ai = { máy thứ i không bị hỏng trong một ca làm việc} (i =1,2), khi đó ta có: A = A1.A2
Vì vậy xác suất cần tìm là: P(A) = p(A1.A2)
Theo giả thiết A1, A2 là 2 biến cố độc lập với nhau nên ta có:
BIẾN NGẪU NHIÊN RỜI RẠC
Biến ngẫu nhiên rời rạc
Biến ngẫu nhiên
Giả sử A1, A2, …, An là tập đầy đủ các biến cố và tồn tại một quy tắc X gán cho mỗi biến cố Ai một giá trị số xi (i = 1, , n) Quy tắc X được gọi là đại lượng ngẫu nhiên, hay còn được gọi là biến ngẫu nhiên, là một hàm xác định từ tập biến cố sang tập số thực dựa trên giá trị được gán cho từng Ai.
Tung một con xúc xắc Gọi X là số nút xuất hiện Khi đó X là đại lượng ngẫu nhiên Tập giá trị của X là {1,2,3,4,5,6} nên ta thờng viết:
Biến ngẫu nhiên rời rạc (Discrete random variables)
Biến ngẫu nhiên rời rạc là biến có tập giá trị có thể nhận được hữu hạn hoặc đếm được, tức là ta có thể liệt kê đầy đủ mọi giá trị mà biến đó có thể nhận Điều này đồng nghĩa với việc phân phối xác suất của biến rời rạc được xác định trên một tập hợp các giá trị rời rạc và mỗi giá trị nhận một xác suất riêng biệt Nhờ đặc tính này mà các bài toán xác suất và thống kê liên quan có thể được xử lý bằng cách phân tích từng giá trị một hoặc từng sự kiện rời rạc cụ thể.
Tung một đồng tiền cho đến khi được mặt ngửa thì dừng Gọi X là số lần tung Khi đó X là đại lượng ngẫu nhiên:
X={1,2,…,n} Đại lượng ngẫu nhiên có dạng:
Các đại lượng này có các giá trị rời nhau, gọi là đại lượng ngẫu nhiên rời rạc
2.1.2 Các đặc trưng của biến ngẫu nhiên rời rạc
Kỳ vọng (Expectation)
i Kỳ vong được sử dụng đầu tiên bởi Pascal nhưng sau này được phổ biến và trình bày bởi Huygens vào cuối thế kỉ thứ 17
Cho X là đại lượng ngẫu nhiên rời rạc nhận một trong các giá trị có thể có x1,x2,…,xn với xác suất tương ứng p1, p2,…pn thì ky vọng của X, ký hiệu là E(X) được tính theo công thức:
Kỳ vọng của đại lượng ngẫu nhiên là giá trị trung bình có xác suất mà đại lượng đó có thể nhận được, tức là trung bình theo xác suất của các giá trị mà đại lượng ngẫu nhiên có thể nhận Với một tập các giá trị rời rạc xi và xác suất tương ứng pi, E(X) được định nghĩa là tổng các giá trị xi nhân với xác suất pi: E(X) = ∑ xi pi Đây là giá trị trung bình dài hạn của X, phản ánh mức độ tập trung của phân phối xác suất quanh các giá trị có thể nhận được và cho biết ảnh hưởng trọng số của từng xi khi tính trung bình có trọng số theo pi.
+Ví dụ thực tế:(Ghahramani, 1999)
Trong một ván bài casino, xác suất thua 1$ mỗi ván là 0.6, xác suất thắng 1 $, 2$ và 3$ mỗi ván lần lượt là 0.3, 0.08 và 0.02
Thực tế cho thấy người chơi đánh ít ván sẽ phụ thuộc nhiều hơn vào may mắn chứ không phải vào kỹ năng Ví dụ, trong một ván, người đó có thể thắng 3 USD, trong khi xác suất thua 1 USD lên tới 60%.
Trong bài toán này, khi chơi nhiều ván, tỷ lệ chiến thắng sẽ phụ thuộc nhiều hơn vào số lần chơi chứ không chỉ dựa vào may mắn Gọi n là số ván chơi và xác suất cho các kết quả lần lượt là thua 1$ với 0.6^n, thắng 1$ với 0.3^n, thắng 2$ với 0.08^n, và thắng 3$ với 0.02^n Khi tăng n, các xác suất này giảm theo lũy thừa của n, cho thấy mức độ ảnh hưởng của số ván chơi lên kết quả cuối cùng thay vì chỉ dựa vào cảm giác may mắn.
Trung bình mỗi ván ta mất 0,08 đô la Vì vậy, càng chơi nhiều ván, sự may mắn sẽ ít ảnh hưởng hơn và kết quả thua lỗ sẽ phụ thuộc nhiều hơn vào số ván đã chơi và chiến lược đặt cược Giá trị kỳ vọng E(X) ở đây là -0,08, có nghĩa là mỗi ván tiếp tục chơi sẽ làm tổng thua tăng lên; càng chơi nhiều ván, xác suất thua lỗ tích lũy càng lớn Nếu kỳ vọng E(X) âm, tổng lỗ sẽ gia tăng theo thời gian, cho thấy cần cân nhắc lại chiến lược chơi để hạn chế rủi ro.
=0 thì khi càng chơi, người chơi sẽ tiến dần đến sự hòa vốn ii Tính chất của kỳ vọng
Với mọi đại lượng ngẫu nhiên X, Y và hằng số C ta có:
Kỳ vọng của hằng số bằng chính nó
Kỳ vọng của tổng các biến ngẫu nhiên bằng tổng các kỳ vọng của mỗi biến ngẫu nhiên thành phần
Tính kỳ vọng của tích hằng số và biến ngẫu nhiên thì có thể đưa hằng số ra ngoài:
Kỳ vọng của tích hai biến ngẫu nhiên độc lập bằng tích các kỳ vọng của chúng
Phương sai ( Variance)
i Cho X là một đại lượng ngẫu nhiên có kỳ vọng E(X) Khi đó ta gọi phương sai của X là kì vọng của bình phương độ sái khác giữa X và E(X), ký hiệu là D(X) Vậy:
Nếu D(X) lớn chứng tỏ sự biến động của X lớn, nếu D(X) nhỏ thì các giá trị của
X biến động ít, tương đối ổn định
Phương sai càng lớn thì ta nói biến càng biến động, càng dao động, càng phân tán
Phương sai càng nhỏ thì ta nói biến càng ổn định, càng tập trung, càng đồng đều
Đơn vị của phương sai là bình phương đơn vị của biến ngẫu nhiên Nếu X có đơn vị là USD thì V(X) đơn vị là USD 2 ; nếu X đơn vị là m (mét) thì V(X) có đơn vị là m 2
Vì phương sai liên quan đến phép tính bình phương, đơn vị của phương sai biến thành bình phương đơn vị của biến nên không thể so sánh phương sai với kỳ vọng hay với giá trị của biến Để phục vụ cho các phân tích tiếp theo, người ta tính căn bậc hai của phương sai, được gọi là độ lệch chuẩn, giúp đo lường mức biến thiên của dữ liệu và có cùng đơn vị với biến Trong phần tính chất của phương sai (ii Tính chất của phương sai), ta khám phá các đặc tính cơ bản của phương sai và ý nghĩa của độ lệch chuẩn trong phân tích dữ liệu.
Với mọi đại lượng ngẫu nhiên X,Y và hằng số C ta có:
Phương sai của hằng số bằng không:
Phương sai của tích ngẫu nhiên với hằng số bằng bình phương hằng số nhân với phương sai của biến ngẫu nhiên
𝐷(𝑋) = 𝐸(𝑋) − (𝐸(𝑋)) 2 , hệ quả chứng minh từ tính chất kỳ vọng
Phương sai của tổng các biến ngẫu nhiên độc lập bằng tổng các phương sai cảu hai biến ngẫu nhiên đó:
Độ lệch chuẩn (Standard deviation)
Độ lệch chuẩn cũng có ý nghĩa như phương sai Độ lêch chuẩn của biến ngẫu nhiên
X, ký hiệu là (X), là căn bậc hai của phương sai của X:
𝜎 = √D(X) cho ta biết độ lệch chuẩn là căn bậc hai của phương sai của X Điều khác biệt lớn nhất là độ lệch chuẩn có cùng đơn vị với X, cho phép so sánh nó với các giá trị có thể có của X và với kỳ vọng (trung bình) của X.
Tung xúc sắc cân đối, phương sai của biến ngẫu nhiên X cho ra một mặt bất kỳ là:
Trung vị
Trung vị ( median) là điểm chia đều xác suất thành 2 phần giống nhay, kí hiệu là med(X):
Moment trung tâm (mô-men)
Cho X là đại lượng ngẫu nhiên có kỳ vọng E(X)=a Ta gọi moment trung tâm cấp k của X là :(Huy, 2019)
Ta gọi moment gốc cấp k là 𝛾 𝑘 = 𝐸(𝑋 𝑘 )
Khi a=E[X] người ta thường gọi là moment quy tâm, còn a=0 gọi là moment gốc
Kỳ vọng là moment bậc 1 với a=0, gọi là moment gốc bậc 1
Phương sai là moment bậc 2 với a=E[X], gọi là moment quy tâm bậc 2
Cho X có bảng phân phối xác suất sau:
Tìm các moment đến cấp 2
Biến ngẫu nhiên chuẩn hóa (Standardized random variables)
Cho X là biến ngẫu nhiên có kỳ vọng 𝜇 và phương sai σ² Khi đó biến ngẫu nhiên với công thức :
𝜎 Đại lượng X * được gọi là biến ngẫu nhiên chuẩn hóa của X
Khi chuẩn hóa biến ngẫu nhiên X, ta biến nó thành biến chuẩn hóa Z = (X − μ)/σ, trong đó μ là giá trị kỳ vọng và σ là độ lệch chuẩn Quá trình này biến Z thành một biến có E(Z) = 0 và độ lệch chuẩn bằng 1, tức là không còn phụ thuộc vào đơn vị đo ban đầu Sự chuẩn hóa cho phép so sánh các đại lượng với nhau một cách trực quan và không bị ảnh hưởng bởi đơn vị đo gốc Nó đặc biệt hữu ích khi so sánh hai hoặc nhiều biến ngẫu nhiên có đơn vị hoặc quy mô khác nhau, vì các biến được đưa về cùng chuẩn hóa và dễ nhận diện sự khác biệt về phân phối.
Trong một lớp học, bạn Nam nhận điểm cuối kỳ cho hai môn Toán và Văn lần lượt là 72 và 85 Môn Văn có điểm trung bình 82 và độ lệch chuẩn 7, còn môn Toán có điểm trung bình 68 và độ lệch chuẩn 4.
Dựa trên số liệu cuối kỳ, Nam được cho là học sinh giỏi Văn hơn giỏi Toán, nhưng thực tế có thể cho thấy nhận định này chưa phản ánh đầy đủ năng lực ở hai môn Số liệu chỉ phản ánh kết quả tại một thời điểm, trong khi tư duy, kỹ năng làm bài và phong cách học tập của Nam có thể khác biệt giữa Văn và Toán; vì vậy cần đánh giá toàn diện bằng nhiều nguồn thông tin và quan sát thực tế chứ không dựa hoàn toàn vào thành tích cuối kỳ.
Khi chúng ta chuẩn hóa số điểm của bạn Nam:
X(toán)=(72-68)/4=1(đơn vị độ lệch chuẩn)
X(văn)=(85-82)/7≈0.43 đơn vị độ lệch chuẩn Điều này cho thấy Nam lệch khỏi điểm trung bình lớp Văn ở mức 0.43 chuẩn So với lớp Toán, độ lệch của Nam lớn hơn, từ đó cho thấy Nam giỏi môn Toán hơn môn Văn.
2.1.3 Hàm và phân phối của biến ngẫu nhiên rời rạc
Hàm khối xác suất ( Probrability mass function)
i Hàm khối xác suất p(x) của một biến ngẫu nhiên rời rạc X được định nghĩa là :
𝑝(𝑥) = 𝑃(𝑋 = 𝑥) Giả sử X là các giá trị X={x1,x2,…,xn,…} khi ấy: ta được X=xi: p(xi)=P(X=xi)≠0 ii Tính chất của hàm khối
Cho bảng phân phối sau: Tìm α và P(2≤ 𝑋 ≤ 4) x 1 2 3 4 5
Hàm phân phối xác suất
i Cho X là một đại lượng ngẫu nhiên Ta gọi hàm:
𝐹(𝑥) = 𝑃(𝑋 < 𝑥) là hàm phân phối xác suất của đại lượng ngẫu nhiên
Hàm phân phối xác suất là quy tắc gán xác suất cho từng khoảng giá trị của tập số thực sao cho các tiên đề xác suất được thỏa mãn, và được định nghĩa là hàm F(x) = P(X ≤ x) của một biến ngẫu nhiên X; nó cho biết xác suất để X có giá trị không vượt quá x Các tính chất của hàm phân phối xác suất gồm: 0 ≤ F(x) ≤ 1 với mọi x, F(x) không giảm khi x tăng, và lim x→-∞ F(x) = 0, lim x→∞ F(x) = 1; đồng thời xác suất của một khoảng (a, b] bằng F(b) − F(a) Những đặc điểm này giúp mô tả phân phối xác suất của biến ngẫu nhiên và liên hệ các khoảng giá trị trên tập số thực với xác suất tương ứng.
Mỗi ngày, xe buýt đến trạm khoảng từ 10 giờ đến 10 giờ 30 sáng Coi X là thời gian xe đến trạm Tìm hàm phân phối xác suất và vẽ biều đồ
Giải: Xe buýt đến trạm ở thời điểm bất kỳ, từ 10 đến 10 1 2 , suy ra ta có t
𝑡 𝜖 (10; 10 1 2 ), ta có hệ phương trình
Hình 4 Hàm phân phối của ví dụ xe buýt
Phân phối Bernoulli
Nếu thử nghiệm ngẫu nhiên có hai kết quả có thể xảy ra:
Thành công và thất bại
Phép thử Bernoulli mô tả các thí nghiệm có hai kết quả nhị phân: thành công hoặc thất bại Một biến ngẫu nhiên rời rạc X có phân phối Bernoulli với tham số p, với 0 ≤ p ≤ 1, được xác định bởi P(X=1) = p và P(X=0) = 1 − p Phân phối Bernoulli là nền tảng cho các mô hình nhị phân và được sử dụng để diễn đạt xác suất của một lần thử thành công Theo Ghahramani (1999), các tính chất của phân phối Bernoulli được hệ thống hóa để làm rõ cách X hoạt động trong các thí nghiệm nhị phân và khả năng ứng dụng của nó trong phân tích xác suất.
Tung 1 con xúc xắc để xảy ra mặt 4 hoặc mặt 6 là thành công và ra mặt 1,2,3 hoặc
5 là thất bại ta có hệ phương trình:
𝑋 = {1 , 𝑛ế𝑢 𝑟𝑎 𝑚ặ𝑡 4 ℎ𝑜ặ𝑐 6 0, 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 Đại lượng X là biến ngẫu nhiên Bernoulli với tham số p =1/3 Vậy ta có hàm xác suất như sau:
0 , 𝑛ơ𝑖 𝑘ℎá𝑐Vậy kỳ vọng E(X) =p=1/3 và phương sai D(X)=1/3(1-1/3)=2/9
Phân phối nhị thức (Binomial distribution)
Phân phối nhị thức (Binomial Distribution) là một dạng lan truyền xác suất rời rạc
Phân phối nhị thức được sử dụng cho các thí nghiệm có hai kết quả đối lập là thành công và thất bại Đây là một phân phối xác suất rời rạc mô tả xác suất có bao nhiêu lần thành công trong n lần thử độc lập, mỗi lần thử có xác suất thành công p và xác suất thất bại q = 1 − p Đại lượng ngẫu nhiên rời rạc X = {0,1,2,…,n} được gọi là phân phối nhị thức nếu tồn tại số p ∈ (0,1) sao cho X biểu diễn số lần thành công trong n lần thử (X ~ Binomial(n,p)).
𝑝 𝑘 = 𝑃(𝑋 = 𝑘) = 𝐶 𝑛 𝑘 𝑝 𝑘 𝑞 𝑛−𝑘 , 𝑞 = 1 − 𝑞, 𝑘 = 0, 𝑛 Trong trường hợp này ta ký hiệu 𝑋~𝐵(𝑛, 𝑝)
Nếu bài toán thỏa mãn lược đồ Bernoulli, nghĩa là chỉ ra được:
Có n phép thử độc lập
Trong mỗi phép thử, xác suất xuất hiện biến cố A không đổi là P(A) = p
X là số lần xuất hiện biến cố A trong n phép thử đó thì X phân phối theo quy luật Nhị thức ii Tính chất của phân phối nhị thức
Kỳ vọng của biến ngẫu nhiên X bằng tổng các kỳ vọng thành phần của X
Phương sai của biến ngẫu nhiên X bằng tổng các phương sai thành phần
Trong trường hợp này có 10 em bé chào đời, trong đó 6 em là bé trai và 4 em là bé gái Xác suất để 6 bé trai nằm ở 6 vị trí đầu tiên của chuỗi chào đời được tính bằng số cách chọn vị trí cho 6 bé trai trên tổng số cách sắp xếp 6 bé trai và 4 bé gái, tức C(10,6) Có duy nhất một cách để 6 bé trai chiếm 6 vị trí đầu tiên là chuỗi BBBBBBGGGG, nên xác suất bằng 1/C(10,6) = 1/210 ≈ 0.476%.
Gọi A là biến cố 6 đứa bé đầu tiên là bé trai và 4 đứa bé còn lại là bé gái Gọi X là số bé trai trong 10 lần sinh ngẫu nhiên, X tuân theo phân phối nhị thức với tham số n = 10 và p = 0.5 Xác suất của sự kiện A là P(A) = (1/2)^{10} = 1/1024 Theo phân phối nhị thức, xác suất có đúng k bé trai trong 10 lần sinh được cho bởi C(10, k) (1/2)^{10} Với bài toán này, xác suất để có đúng 6 bé trai theo đúng thứ tự đầu tiên là 1/1024.
Phân phối hình học
Phân phối hình học là một dạng đặc biệt của phân phối nhị thức âm, liên quan tới số lượt thử cần thiết để đạt được một lần thành công duy nhất Vì vậy, phân phối hình học là một phân phối nhị thức âm với số lần thành công bằng 1 Một biến ngẫu nhiên rời rạc X có phân phối hình học với tham số p, 0 < p < 1, mô tả số lượt thử tối thiểu để có thành công đầu tiên Với mỗi lượt thử có xác suất thành công là p, công thức xác suất của X là P(X = n) = (1 − p)^(n−1) p, với n = 1, 2, 3,
Phân phối hình học mô tả số lần thử cần để đạt được thành công đầu tiên trong một chuỗi thử nghiệm độc lập với cùng xác suất thành công p cho mỗi lần thử Xác suất để lần thử đầu tiên thành công diễn ra ở lượt n được cho bởi P(X=n) = p × q^{n−1}, với q là xác suất thất bại cho mỗi lần thử và q = 1 − p, n ∈ {1,2, } Đây là một mô hình có kỳ vọng E[X] = 1/p và phương sai Var(X) = q/p^2; nó thể hiện các tính chất cơ bản của phân phối hình học và đặc trưng nhớ (memoryless) của chuỗi thử nghiệm Bernoulli độc lập ii Tính chất của phân phối hình học.
Trong bộ bài 52 lá, ta rút thử 1 lá Thử cho đến khi rút được lá Át thì dừng lại Xác suất để ít nhất 10 lần rút được lá Át?
Giải: Gọi X là số lá bài rút được cho đến khi gặp lá Át X là biến ngẫu nhiên có phân phối hình học với tham số p=1/13 , vậy
(1/13) 𝑣ớ𝑖 𝑛 = 1,10 Vậy xác suất cần tìm là
Phân phối Poisson
Trong phân phối nhị thức, khi xảy ra n lần thử, số lần xuất hiện của sự kiện có thể quá lớn để thực hiện các phép tính chi tiết (Ghahramani, 1999) Do đó, phân phối Poisson được giới thiệu nhằm phục vụ cho mục đích này Phân phối Poisson là phân bố xác suất cho biến ngẫu nhiên rời rạc và được sử dụng rộng rãi trong các bài toán có thể đo lường được Phân bố này được đặt theo tên nhà toán học người Pháp Siméon-Denis Poisson và được giới thiệu vào năm 1837.
Phân phối Poisson được đặt theo tên của nhà toán học Siméon Denis Poisson và trở thành một trong những phân phối xác suất được sử dụng phổ biến nhất trong thống kê, sau phân phối nhị thức và phân phối chuẩn Sau khi Poisson qua đời, nhà toán học người Nga L V Bortkiewicz đã hoàn tất những công việc còn lại và đóng góp quan trọng vào việc ứng dụng phân phối này Ngày nay, phân phối Poisson được áp dụng rộng rãi trong phân tích dữ liệu và được xem là một công cụ thống kê phổ biến sau nhị thức và chuẩn.
Phép tuần hoàn Poisson được tận dụng trong các trường hợp xác suất xuất hiện của một sự kiện là nhỏ, nghĩa là sự kiện chỉ xảy ra một lần sau một khoảng thời gian dài Ví dụ, xác suất xảy ra lỗi trong quá trình thành lập tập đoàn là nhỏ, xác suất xảy ra chấn động trong một năm là nhỏ, việc rủi ro xảy ra trên đường phố là nhỏ, và tương tự như vậy Tất cả đều là những trường hợp xác suất xảy ra sự kiện là nhỏ Đại lượng ngẫu nhiên X = {0,1,2, ,n} được gọi là có phân phối Poisson nếu tồn tại a > 0, a là tham số của phân phối Poisson: P(X = k) = e^{-a} a^k / k!, với k = 0,1, ,n.
𝑘! , 𝑘 = 0,1,2, … ii Tính chất của phân phối Poisson:
Trung bình trong một cuốn sách, cứ 3 trang lại có 1 lỗi đánh máy Nếu số lỗi đánh máy trong cuốn sách tuân theo phân phối Poisson với tham số λ bằng tổng số trang của sách chia cho 3 (tức là λ = n/3 với n là số trang của sách), thì xác suất để có ít nhất 1 lỗi trên cuốn sách đó là P(X ≥ 1) = 1 − e^(-λ) = 1 − e^(-n/3).
Giải: Gọi X là số lỗi trên 1 trang cụ thể X là biến ngẫu nhiên Poisson với tham số k=1/3=E(X) có công thức
BIẾN NGẪU NHIÊN LIÊN TỤC
Biến ngẫu nhiên liên tục
Biến ngẫu nhiên liên tục
Với biến ngẫu nhiên rời rạc, ta có thể liệt kê tất cả các giá trị có thể và xây dựng bảng xác suất cho từng giá trị đó Ngược lại, biến ngẫu nhiên liên tục có tập giá trị có thể lấp đầy một khoảng liên tục và không thể liệt kê chi tiết từng giá trị riêng lẻ Vì vậy, xác suất của biến liên tục được mô tả bằng hàm mật độ xác suất và phân phối trên một khoảng, trong khi xác suất cho một điểm cụ thể bằng 0 Đây là sự khác biệt căn bản giữa biến ngẫu nhiên rời rạc và liên tục trong lý thuyết xác suất và thống kê. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Sử dụng miễn phí API văn bản của Pollinations.AI để nâng cao nội dung học xác suất; [Ủng hộ dự án](https://pollinations.ai/redirect/kofi) giữ AI luôn dễ tiếp cận cho mọi người.
Trong thực tế, nhiều biến ngẫu nhiên có bản chất rời rạc, tuy nhiên vì số lượng giá trị của chúng rất lớn nên có thể được xem như biến ngẫu nhiên liên tục để thuận tiện cho phân tích và mô hình hóa Việc giả định biến ngẫu nhiên rời rạc là liên tục khi số giá trị lớn giúp áp dụng các kỹ thuật thống kê liên tục và tính toán bằng tích phân, đồng thời vẫn bảo toàn đặc trưng phân phối khi phân bố giá trị trở nên gần như liên tục ở quy mô lớn.
Trọng lượng của một loại sản phẩm, mực nước biển tại một thời điểm là những đại lượng ngẫu nhiên liên tục.
Hàm mật độ xác suất (Probability density function)
i Cho X là đại lượng ngẫu nhiên liên tục, có hàm phân phối F(x) là một đạo hàm Khi đó ta gọi hàm:
𝑓(𝑥) = 𝐹′(𝑥) là hàm mật độ xác suất
Hàm mật độ xác suất của biến ngẫu nhiên liên tục X, ký hiệu là f(x), là một hàm không âm xác định trên miền giá trị của X và có diện tích dưới đồ thị của nó trên trục hoành bằng 1, cho thấy sự phân phối xác suất của X II Tính chất của hàm mật độ xác suất gồm các đặc điểm chủ đạo: f(x) ≥ 0 đối với mọi x và ∫_{-∞}^{+∞} f(x) dx = 1; xác suất để X thuộc một khoảng [a, b] được tính bằng ∫_{a}^{b} f(x) dx, và các tính chất này đảm bảo lượng thông tin về phân bố xác suất của X được thể hiện đầy đủ và nhất quán trong mọi miền giá trị.
Hàm mật độ xác suất của đại lượng ngẫu nhiên X có các tính chất sau:
Từ các tính chất trên có thể rút ra các nhận xét sau:
Với biến ngẫu nhiên liên tục X, chỉ xét xác suất nhận giá trị trong một khoảng Xác suất X nhận giá trị tại một điểm bằng 0
Khi xét xác suất X nhận giá trị trong một khoảng, không cần quan tâm đến cận
Hình ảnh hàm mật độ xác suất cho biết mức độ tập trung của xác suất quanh các giá trị khác nhau; nơi hàm mật độ càng cao, xác suất tập trung quanh giá trị đó càng nhiều Hàm mật độ xác suất bằng 0 tương ứng với các giá trị xảy ra với xác suất bằng 0.
0, 𝑥 ≥ 5 a) Chứng tỏ f(x) là hàm mật độ xác suất của một đại lượng ngẫu nhiên X
Hiển nhiên f(x)≥ 0 và diện tích của tam giác ABC trên đồ thị bằng 1
3.1.2 Các đặc trưng của biến ngẫu nhiên liên tục
Kỳ vọng
Trường hợp X là đại lượng ngẫu nhiên liên tục có hàm mật độ f(x) thì kỳ vọng của
Phương sai
Nếu X liên tục, có hàm mật độ xác suất f(x) , 𝜇 là kỳ vọng ,thì ta có
Cho X là đại lượng ngẫu nhiên có hàm mật độ
3.2 Các phân phối liên tục
Phân phối đều liên tục là một phân phối mà xác suất xảy ra như nhau cho mọi kết cục của biến ngẫu nhiên liên tục Đại lượng ngẫu nhiên X được gọi là phân phối đều trên đoạn [a, b] nếu hàm mật độ xác suất của X bằng 1/(b-a) trên [a, b] và bằng 0 ngoài [a, b] Điều này có nghĩa rằng mọi giá trị thuộc [a, b] có xác suất bằng nhau và xác suất để X thuộc một khoảng I ⊆ [a, b] bằng độ dài của I chia cho (b-a).
Trong trường hợp này ta ký hiệu 𝑋~𝑈(𝑎, 𝑏) ii Tính chất của phân phối đều
Bắt đầu từ 5 giờ sáng, mỗi 30 phút có đúng một chuyến bay từ Hà Nội đi Thành phố Hồ Chí Minh Một người muốn bay từ Hà Nội vào TP Hồ Chí Minh và đến sân bay vào khoảng 8 giờ 45 phút hoặc 9 giờ 45 phút Giả sử luôn có chỗ trên máy bay Tìm xác suất người đó phải đợi đúng 10 phút trước chuyến bay tiếp theo.
Giải: Gọi X là số phút sau 8 giờ 45 phút Vậy X là biến có phân phô đều từ [0,60]
Có hàm mật độ là
Nếu người ấy phải đợi 10 trong khoảng thời gian từ 8 giờ 50 phút đến 9 giờ , hoặc từ 9 giờ 20 phút đến 9 giờ 30 phút Vậy ta có khoảng xác định biến X là 5 < 𝑋 0) nếu hàm mật độ xác suất của X là f_X(x) = λ e^{-λ x} với x ≥ 0 Phân phối mũ cho biết thời gian chờ giữa các trận động đất là độc lập và có tính chất không có ký ức, đồng thời cho phép ước lượng xác suất xảy ra động đất trong một khoảng thời gian nhất định và ước lượng tham số λ từ dữ liệu thực nghiệm.
0 𝑛ế𝑢 𝑥 < 0 Trong trường hợp này ta ký hiệu 𝑋~𝐸() ii Tính chất của phân phối mũ
Thời hạn sử dụng của TV được cho là có phân phối mũ với giới hạn tối đa là 10 năm Với giới hạn này, tổng thời gian vận hành của TV không thể vượt quá 10 năm Do đó, nếu một người mua TV cách đây đúng 10 năm, xác suất TV vẫn còn hoạt động thêm 10 năm nữa là 0, bởi hệ thống giới hạn tuổi thọ không cho phép lâu hơn 10 năm.
Giải: Gọi X là thời hạn sử dụng của Tivi Do biến X là biến ngẫu nhiên có phân phối mũ, vậy:
3.2.3 Phân phối chuẩn (Normal Distribution)
Phân phối chuẩn
Bây giờ chúng ta chuyển sang một trong những phân phối quan trọng nhất trong xác suất và thống kê - Phân phối chuẩn
Định lý Giới hạn Trung tâm (Central Limit Theorem) cho biết tổng của một số lượng lớn biến ngẫu nhiên độc lập và có phân phối xác suất giống hệt nhau sẽ có phân phối xấp xỉ chuẩn, bất kể phân phối gốc là gì, miễn là các biến đó có kỳ vọng (trung bình) và phương sai hữu hạn Phân phối chuẩn (Normal Distribution) là phân phối dữ liệu có đỉnh ở giữa và hai bên đối xứng, trong đó các giá trị xa trung tâm giảm dần theo hình chuông Đây là một họ phân phối có dạng chung, khác nhau ở tham số vị trí (trung bình) và tham số tỉ lệ (phương sai).
Abraham de Moivre là người đầu tiên đưa ra phân phối chuẩn trong bài báo năm
Định lý Moivre-Laplace là kết quả xấp xỉ phân phối nhị thức khi n lớn Ban đầu được de Moivre công bố năm 1734 và in lại trong ấn bản thứ hai của The Doctrine of Chances (1738) Kết quả này sau đó được Laplace mở rộng trong Analytical Theory of Probabilities (1812), và hiện nay được gọi là định lý Moivre-Laplace.
Biểu diễn đồ thị của một phân phối chuẩn được gọi là đường cong hình chuông, vì đường cong có hình dạng loe rộng ở hai đầu; đỉnh của nó luôn ở giữa và đường cong luôn đối xứng Trong một phân phối chuẩn, giá trị trung bình, yếu vị và trung vị bằng nhau Tên gọi đường cong chuông xuất phát từ Jouffret, người đầu tiên dùng thuật ngữ "bề mặt hình chuông" năm 1872 cho phân phối chuẩn hai chiều với các thành phần độc lập Tên gọi "phân phối chuẩn" được tạo ra bởi Charles S Peirce, Francis Galton và Wilhelm Lexis khoảng năm 1875 Đại lượng ngẫu nhiên X được gọi là phân phối chuẩn nếu hàm mật độ của X có dạng chuẩn.
2𝜎 2 , 𝑣ớ𝑖 𝜎 > 0Trong trường hợp này ta ký hiệu 𝑋~𝑁(𝑎, 𝜎 2 )
Trong công thức trên, x là giá trị của biến ngẫu nhiên; a và σ^2 là các tham số; π và e là các hằng số của tự nhiên, π ≈ 3,14 và e ≈ 2,718 Công thức có phần phức tạp, tuy nhiên quá trình tính toán sẽ được đơn giản nhờ các giá trị cần tìm đã được cho sẵn trong bảng số III Tính chất của phân phối chuẩn. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Tối ưu nội dung SEO với Pollinations.AI, giúp bạn viết bài dễ dàng và chuyên nghiệp hơn—[Ủng hộ chúng tôi](https://pollinations.ai/redirect/kofi) để AI luôn miễn phí!
Phân phối chuẩn chuẩn tắc
Tuy vậy, một trong những ứng dụng đầu tiên của Gauss với phân phối chuẩn là vào năm 1809, khi ông dùng mô hình sai số đo lường theo phân phối chuẩn để nghiên cứu thiên văn học Trong cuốn Theoria motuum coelestium (1809), ông trình bày cách ước lượng tham số quỹ đạo và tối ưu hóa sự khớp giữa các quan sát bằng phương pháp bình phương tối thiểu, trên nền giả thiết rằng các sai số tuân theo phân phối chuẩn Nhờ đóng góp này, Gauss đặt nền móng cho lý thuyết sai số và cho những ứng dụng rộng rãi của phân phối chuẩn trong thiên văn học và các lĩnh vực đo lường.
An Introduction to Mathematical Statistics and Its Application của Larsen và Marx, Lambert Quetelet lần đầu đưa dữ liệu thống kê trong nhiều trường hợp trong xã hội.(Ghahramani, 1999)
Các biến ngẫu nhiên phân phối Chuẩn có đồ thị quả chuông ở các vị trí và độ cao khác nhau, nên việc tính toán xác suất thường gặp khó khăn Để thao tác tính toán được thuận lợi, ta xét một biến ngẫu nhiên phân phối Chuẩn đặc biệt là biến ngẫu nhiên phân phối Chuẩn hóa, tức là một phân phối Chuẩn được chuẩn hóa về trung bình 0 và độ lệch chuẩn 1 Việc chuẩn hóa cho phép quy đổi mọi phân phối Chuẩn về một dạng chuẩn, giúp so sánh và áp dụng các công thức xác suất dễ dàng hơn, từ đó rút ngắn các bước tính toán và tăng tính khả dụng của các công cụ thống kê khi làm việc với nhiều phân phối Chuẩn khác nhau.
Là phân phối chuẩn với giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1 i Đại lượng ngẫu nhiên 𝑋~𝑁(0,1) gọi là phân phối chuẩn chuẩn tắc
Nếu X có phân phối chuẩn chuẩn tắc thì hàm mật độ của X là
𝑓(𝑥) = √2𝜋 1 𝑒 − 𝑥2 2 là hàm mật độ Gauss
Hình 6 Biểu đồ hàm mật độ phân phối chuẩn chuẩn tắc ii Tính chất của phân phối chuẩn chuẩn tắc
Tích phân Laplace
i Cho f(x) là hàm mật độ Gauss Khi đó ta có hàm phân phối Gauss
Giữa hàm phân phối Gauss và tích phân Laplace có mối liên hệ
Công thức tính xác suất
+Ví dụ: Bài toán của Lambert Quetelet
Giả sử trung bình độ rộng ngực của nam giới trưởng thành là 39,8 inch và độ lệch chuẩn là 2,05 inch Với phân phối chuẩn, xác suất một người có kích thước ngực X nằm trong khoảng μ ± σ (từ 37,75 inch đến 41,85 inch) là khoảng 68,3%; trong khoảng μ ± 2σ (từ 35,70 inch đến 43,90 inch) là khoảng 95,4%; và trong khoảng μ ± 3σ (từ 33,65 inch đến 45,95 inch) là khoảng 99,7% Do đó, khi chọn ngẫu nhiên một người, xác suất có kích thước ngực nằm trong các khoảng này sẽ được mô tả bởi các mức độ tin cậy của phân phối chuẩn.
20 người nam, 5 người đầu có độ rộng của ngực mình ít nhất 40inch?
Giải: Gọi p là xác suất khi chọn được người đàn ông có độ rộng ngực của mình từ
40 inch trở lên Nếu X là biến có phân phối chuẩn với trị trung bình là 39.8 và độ lệch chuẩn là 2.05 thì ta có đồ thị:
Hình 7 Hình thể hiện ví dụ phân phối chuẩn
Gọi i là độ rộng của ngực i3,… Ta phân tích thấy được độ rộng i từ 33 đến 48 inch có tần số tương đối với phần đồ thị có hàm mật độ P(i-
1/2 tα(n)) = α Giá trị tới hạn tα(n) đóng vai trò quan trọng trong kiểm định giả thuyết và ước lượng khoảng tin cậy khi làm việc với mẫu có phân phối Student với n bậc tự do.
Sử dụng bảng giá trị tới hạn:
+Ví dụ:Tra giá trị tới hạn mức 0,05 bậc tự do 10, ta tìm cột 0,05 và dòng 10, đối chiếu ô tương ứng được con số 1,812 Ta viết 𝑡 0.05 (10) = 1.812
Công thức điểm Z để dự đoán phá sản được Edward I Altman, lúc đó là Trợ lý
Được giới thiệu bởi một giáo sư tài chính tại Đại học New York vào năm 1968, công thức Z-score (Điểm Z) có thể dùng để dự đoán xác suất một công ty sẽ phá sản trong vòng hai năm tới Điểm Z là công cụ đo lường sức khỏe tài chính dựa trên nhiều giá trị từ thu nhập doanh nghiệp và bảng cân đối kế toán, và nó được dùng rộng trong các nghiên cứu học thuật nhờ tính toán dễ dàng Điểm số Z càng thấp thì rủi ro phá sản càng cao; các công ty có điểm Z trên 3 được xem là khỏe mạnh và ít có khả năng phá sản, trong khi vùng xám từ 1,8 đến 3 Đây là một mô hình tương đối chính xác, với thực tế cho thấy ứng dụng điểm Z có thể dự đoán thành công khoảng 72% số vụ phá sản của doanh nghiệp trước hai năm. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Khám phá cách áp dụng điểm Z để tối ưu hóa tài chính doanh nghiệp của bạn! [Ủng hộ sứ mệnh của chúng tôi](https://pollinations.ai/redirect/kofi) để AI luôn miễn phí cho mọi người.
Mô hình này kết hợp 5 chỉ số tài chính khác nhau để xác định khả năng phá sản của các công ty
A1 = Vốn luân chuyển ( = Tài sản ngắn hạn – Nợ ngắn hạn)/Tổng tài sản
Tỷ lệ này cung cấp thông tin về tình hình tài chính ngắn hạn của doanh nghiệp
A2 = Lợi nhuận chưa phân phối/Tổng tài sản Tỷ lệ này đo lường mức độ phụ thuộc của doanh nghiệp vào nợ
A3 = EBIT (Lợi nhuận trước lãi vay và thuế)/Tổng tài sản
A4 = (Giá thị trường của cổ phiếu × Số lượng cổ phiếu lưu hành) / Tổng nợ cho thấy mức độ mà giá trị thị trường của doanh nghiệp có thể giảm trước khi nợ phải trả vượt quá tài sản Trong đó, giá trị thị trường được đo bằng vốn hóa thị trường (giá cổ phiếu × cổ phiếu lưu hành) và Tổng nợ là các nghĩa vụ tài chính phải trả Công thức A4 giúp đánh giá biên an toàn tài chính của doanh nghiệp: A4 càng cao, biên an toàn càng lớn; A4 thấp cho thấy rủi ro nợ vượt quá tài sản tăng lên và sức chịu đựng của doanh nghiệp bị thu hẹp.
A5 = Hiệu quả sử dụng tài sản =Doanh thu/Tổng tài sản Từ 1 đồng tài sản, doanh nghiệp làm ra bao nhiêu đồng doanh thu thuần.
KIỂM ĐỊNH GIẢ THIẾT
Khái niệm
Các nhà phân tích thống kê kiểm tra giả thuyết bằng cách đo lường và phân tích một mẫu ngẫu nhiên từ không gian mẫu được nghiên cứu Họ dùng mẫu ngẫu nhiên này để kiểm tra hai giả thuyết khác nhau: giả thuyết không (H0) và giả thuyết nghịch (Ha) Quá trình này gồm thu thập dữ liệu, tính toán các thống kê phù hợp và diễn giải kết quả để xác định xem có đủ bằng chứng để bác bỏ giả thuyết không hay không, từ đó rút ra kết luận về đặc tính của tổng thể dựa trên mẫu đã cho.
4.1.1 Giả thiết không (Null Hypothesis)
Giả thuyết không H0 là một khái niệm trong thống kê dùng để diễn đạt giả thuyết rằng không có ý nghĩa thống kê nào tồn tại giữa các biến hoặc trong một tập quan sát nhất định Nó được xem như đúng ban đầu cho đến khi có bằng chứng thống kê cho thấy sự khác biệt hoặc hiệu ứng đáng kể, từ đó bác bỏ H0 và chấp nhận một giả thuyết thay thế phù hợp Quá trình kiểm định giả thuyết giúp đánh giá mức độ tin cậy của kết luận dựa trên dữ liệu mẫu, xác định xem kết quả có ý nghĩa thống kê hay chỉ là ngẫu nhiên.
Giả thuyết không giả định rằng bất kì sự khác biệt hay ý nghĩa nào bạn quan sát được trong một tập hợp dữ liệu là do sự ngẫu nhiên
4.1.2 Giả thiết nghịch (Alternative hypothesis)
Khái niệm về một giả thuyết nghịch trong thử nghiệm do Jerzy Neyman và Egon Pearson nghĩ ra, và nó được sử dụng trong bổ đề Neyman-Pearson(E L Lehmann,
Thử nghiệm giả thuyết thống kê hiện đại đã trở thành một thành phần chính của phương pháp phân tích dữ liệu hiện đại, dù không nằm trong công thức kiểm tra giả thuyết của Ronald Fisher và ông từng phản đối việc sử dụng nó Trong cách tiếp cận kiểm định của Fisher, ý tưởng trung tâm là đánh giá xem tập dữ liệu quan sát có thể là kết quả ngẫu nhiên hay không khi giả thuyết không được giả định là đúng, mà không bị giới hạn bởi các giả định về những mô hình khác Ngược lại, các thử nghiệm giả thuyết thống kê hiện đại đáp ứng loại kiểm định này, vì giả thuyết đối nghịch H1 có thể chỉ là sự phủ định của giả thuyết không.
Trong thống kê, một kết quả được gọi là có ý nghĩa thống kê khi khả năng nó xảy ra chỉ do ngẫu nhiên là rất thấp Cụm từ ý nghĩa thống kê được đặt tên bởi Ronald Fisher để phân biệt với ý nghĩa thông thường Tuy nhiên, ý nghĩa thống kê không đồng nghĩa với sự quan trọng về thực tiễn; các nhà phân tích có thể bỏ qua các mẫu dữ liệu quan trọng nếu chúng nằm dưới ngưỡng kiểm định ý nghĩa, dù những mẫu này vẫn có thể cung cấp thông tin hữu ích cho quyết định và suy luận.
Miền bác bỏ là phần xác định của đồ thị phân phối xác suất, được xác định từ phân phối lấy mẫu của thống kê đang được nghiên cứu, quy định quyết định bác bỏ hay chấp nhận giả thuyết H0 trong một kiểm tra giả thuyết Nó bổ sung cho vùng chấp nhận và gắn với xác suất α, hay mức ý nghĩa của kiểm tra Khi giá trị của thống kê lấy mẫu rơi vào miền bác bỏ, ta có cơ sở bác bỏ giả thuyết H0 với mức ý nghĩa đã cho; ngược lại, nếu giá trị nằm trong vùng chấp nhận thì không có căn cứ để bác bỏ H0.
4.1.5 Kiểm định giả thiêt thông kê
Bài toán kiểm nghiệm giả thuyết thống kê tổng quát đặt ra mục tiêu xác định xem giả thiết H0 về phân phối xác suất của X có phù hợp với dữ liệu quan sát hay không Một mệnh đề đối nghịch với H0 được gọi là H1 Quá trình kiểm nghiệm dựa trên mẫu ngẫu nhiên gồm X1, X2, …, Xn nhằm đánh giá mức độ phù hợp giữa phân phối xác suất dưới H0 và thực tế quan sát, từ đó kết luận xem H0 đúng hay sai dựa trên các tiêu chí kiểm định và mức ý nghĩa đã được thiết lập.
Trên không gian mẫu ta xác định miền W gọi là miền bác bỏ giả thiêt H0, phần bù của W ký hiệu là 𝑊 là miền chấp nhận giả thiêt H0
Mẫu đã lấy được (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 ) là một điểm xác định của không gian mẫu
Mẫu đã lấy được (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 ) ∈ 𝑤 thì ta coi giả thiêt H0 là sai và bác bỏ giả thiết đó
Trong kiểm định giả thuyết thống kê, mẫu đã thu được (x1, x2, , xn) ∈ W khiến ta coi giả thuyết H0 là đúng và chấp nhận nó ii Các loại sai lầm: Trong việc chọn một quy tắc ra quyết định, có thể mắc các sai lầm như sai lầm loại I và sai lầm loại II khi bác bỏ hoặc chấp nhận giả thuyết H0.
Sai lầm loại I: Bác bỏ giả thuyết H0 nhưng thực tế H0 là đúng Sai lầm này được đặc trưng bởi 𝑃 = ( 𝐻 𝑊
Sai lầm loại II: Chấp nhận giả thuyết H0 nhưng thực tế H0 là sai Sai lầm này được đặc trưng bởi P=( 𝐻 𝑊
Quyết định bác bỏ hay chấp nhận giả thuyết hoàn toàn dựa vào thông tin từ mẫu dữ liệu, vì vậy ta sẽ đối mặt với hai sai lầm phổ biến trong kiểm định giả thuyết: sai lầm loại I và sai lầm loại II Ký hiệu α là xác suất mắc sai lầm loại I, tức là tình huống từ chối giả thuyết đúng khi nó thực sự đúng Ngược lại, sai lầm loại II xảy ra khi ta không bác bỏ giả thuyết gốc dù nó là sai.
Trong kiểm định giả thuyết, mức ý nghĩa α được gọi là xác suất sai lầm loại I, và β là xác suất sai lầm loại II α = P(sai lầm loại I) = P(bác bỏ H0 | H0 đúng) = P(chấp nhận H0 | H1 sai) β = P(sai lầm loại II) = P(chấp nhận H0 | H0 sai) = P(chấp nhận H0 | H1 đúng).
Giả thiết H0 cho rằng:” bệnh nhân A uống được thuốc B”
Sai lầm loại 1 dẫn đến việc phải đi tìm thuôcs khác khi bênh nhân uống được thuốc
Sai lầm loại 2 có thể dẫn đến kết luận cho rằng bệnh nhân được uống thuốc B trong khi thực tế họ không thể uống thuốc đó Đây là một sai lệch phổ biến trong diễn giải kết quả nghiên cứu, có thể làm sai lệch quyết định điều trị và đánh giá tác dụng của thuốc B III Các bước kiểm định giả thiết thống kê cung cấp khuôn khổ để nhận diện và giảm thiểu sai sót này, bắt đầu với việc xác định giả thiết H0 và H1, chọn mức ý nghĩa và kích thước mẫu, thu thập dữ liệu, tính toán thống kê phù hợp và giá trị p, đánh giá giả thiết bằng các kiểm định phù hợp, kiểm tra các giả định về phân phối và phương sai, rồi kết luận dựa trên khoảng tin cậy và kết quả kiểm định nhằm tăng tính tin cậy của nghiên cứu và tránh rơi vào sai lầm khi khẳng định thuốc B có tác dụng hoặc được dùng cho bệnh nhân không thể dùng thuốc đó.
Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết
Bước 2: Xác định tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê đối với giá trị mẫu đã cho
Bước 3: Xác định miền bác bỏ W
Bước 4: So sánh giá trị của tiêu chuẩn thống kê với miền bác bỏ W và kết luận bác bỏ hay chấp nhận giả thuyết H0.
Kiểm định giả thiết tham số
4.2.1 Kiểm định giá trị kì vọng của phân phối chuẩn i Giả sử tổng thể có trung bình (kỳ vọng) μ Mẫu có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2 Hãy kiểm định giả thiết
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍 0 = 𝑋−𝜇 0 √𝑛 có phân phối chuẩn N(0; 1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Nếu 𝑍 0 ≤ 𝑍 𝛼 , thì chấp nhận H Nếu 𝑍 0 > 𝑍 𝛼 thì bác bỏ H
Trong kiểm định giả thuyết, nếu giá trị thống kê rơi vào miền bác bỏ (miền tiêu chuẩn) thì ta bác bỏ giả thuyết và kết luận rằng kỳ vọng của biến X thực sự khác μ0 Ngược lại, nếu giá trị đó nằm trong miền chấp nhận thì phải kết luận rằng kỳ vọng của X không khác μ0 một cách có ý nghĩa.
Có 100 học sinh, điểm trung bình năm nay của môn Toán cuối kỳ là 5.9 với độ lệch chuẩn 1.21 Điểm trung bình mới vừa thay đổi để đạt danh hiệu thi đua của môn Toán năm ngoái là 5.72 Với mức ý nghĩa 1%, bài toán đặt ra là liệu điểm trung bình năm nay có đạt tiêu chuẩn năm ngoái hay không.
Giải: Giả thiết H0:μ=μ0 =5.72 ( điểm năm nay bằng năm trước)
Vì 𝑍 0 < 𝑍 𝛼 nên chấp nhận H0 Vậy điểm môn toán năm nay không cao hơn năm trước với mức ý nghĩa 1%, nên không đạt được tiêu chuẩn nhận danh hiệu thi đua
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍 0 = 𝑋−𝜇 0 √𝑛 có phân phối chuẩn N(0; 1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍 0 = 𝑋−𝜇 0 √𝑛 có phân phối chuẩn N(0; 1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Trong kiểm định giả thiết về giá trị trung bình của tổng thể, giả sử tổng thể có trung bình μ và ta có mẫu kích thước n với trung bình mẫu x̄ và phương sai mẫu ước lượng bằng s^2 (σ chưa biết) Ta kiểm định H0: μ = μ0 với mức ý nghĩa α Với σ chưa biết, thống kê kiểm định phù hợp là t = (x̄ − μ0) / (s/√n) có phân phối t_{n−1} Quyết định bác bỏ H0 dựa trên ngưỡng của phân phối t: với kiểm định hai phía, nếu |t| > t_{α/2, n−1} thì bác bỏ H0; với kiểm định một phía, nếu t > t_{α, n−1} (hoặc t < −t_{α, n−1} tùy hướng) Nếu H0 bị bác bỏ, kết luận μ khác μ0, ngược lại không có đủ bằng chứng để khẳng định μ ≠ μ0 Kết quả được trình bày cùng với p-value hoặc với giá trị tới hạn để người đọc và các công cụ SEO dễ nhận diện.
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇 0 = 𝑋−𝜇 0 √𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Tìm 𝑇 𝛼 từ bảng phân phối Student
Nếu 𝑇 0 ≤ 𝑇 𝛼 , thì chấp nhận H Nếu 𝑇 0 > 𝑇 𝛼 thì bác bỏ H
Một vưòn ươm cây giống, theo quy định khi nào cây cao trung bình trên 1m thì đem ra trồng Đo ngẫu nhiên 25 cây, được số liệu:
Với mức ý nghĩa 5%, có thể đem cây ra trồng không, gải thiết chiều cao của cây theo luật phân phối chuẩn
Gọi μ là chiều cao trung bình của cây trong vườn Từ mẫu ta có:
H0:μ=μ0 =1 ( chưa nên đem cây ra trồng)
Vì 𝑇 0 > 𝑇 𝛼 thì bác bỏ H, nên ta kết luận nên đem cây ra trồng
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇 0 = 𝑋−𝜇 0 √𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Tìm 𝑇 𝛼 từ bảng phân phối Student
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇 0 = 𝑋−𝜇 0 √𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Tìm 𝑇 𝛼 từ bảng phân phối Student
4.2.2 Kiểm định so sánh hai trung bình
Cho hai biến ngẫu nhiên độc lập X và Y, X ~ N(μ1, σ1^2) với mẫu kích thước n1 và Y ~ N(μ2, σ2^2) với mẫu kích thước n2 Giả thiết H0: μ1 = μ2 được đặt ra để kiểm tra sự khác biệt giữa hai trung bình Khi σ1^2 và σ2^2 đã biết, bài toán được chia thành ba đối thuyết: H0: μ1 = μ2 đối chiếu với H1: μ1 > μ2 và H1: μ1 < μ2 (hai kiểm định một phía) Thống kê kiểm định là z = (X̄ − Ȳ) / sqrt(σ1^2/n1 + σ2^2/n2), và dưới H0 nó có phân phối chuẩn; quyết định được đưa ra bằng cách so sánh z với các ngưỡng zα và z1−α tùy theo hướng kiểm định với mức ý nghĩa α. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Dùng [Pollinations.AI](https://pollinations.ai/redirect/kofi) để tạo nội dung chuẩn SEO, tối ưu hóa các bài toán kiểm định giả thuyết ngay hôm nay!
Ta có quy tắc kiểm định như sau:
Tìm 𝑍 𝛼 từ hệ thức 2𝛷(𝑍 𝛼 ) = 1 − 𝛼;Tính thống kê
Nếu 𝑍 0 ≤ 𝑍 𝛼 , thì chấp nhận H Nếu 𝑍 0 > 𝑍 𝛼 thì bác bỏ H ii Trường hợp 𝜎 1 2 ; 𝜎 2 2 chưa biết: chia thành 3 đối thuyết H1:μ1>μ2
- Trong thống kê, bài toán Behrens-Fisher, được đặt theo tên của Walter Behrens và Ronald Fisher, là bài toán ước lượng khoảng thời gian và kiểm định giả thuyết liên quan đến sự khác biệt giữa giá trị trung bình của hai quần thể phân bố chuẩn khi phương sai của hai quần thể không được giả định là bằng nhau , dựa trên hai mẫu độc lập
- Các giải pháp cho vấn đề Behrens-Fisher đã được trình bày sử dụng quan điểm cổ điển hoặc suy luận Bayes và một trong hai giải pháp sẽ không hợp lệ về mặt hình thức được đánh giá theo quan điểm khác Nếu việc xem xét chỉ bị giới hạn trong suy luận thống kê cổ điển, thì có thể tìm kiếm các giải pháp cho vấn đề suy luận dễ áp dụng theo nghĩa thực tế, ưu tiên sự đơn giản này hơn bất kỳ sự không chính xác nào trong các câu xác suất tương ứng Khi yêu cầu độ chính xác của các mức ý nghĩa của các thử nghiệm thống kê, có thể có yêu cầu bổ sung rằng thủ tục phải sử dụng tối đa thông tin thống kê trong tập dữ liệu Ai cũng biết rằng có thể đạt được một thử nghiệm chính xác bằng cách loại bỏ ngẫu nhiên dữ liệu từ tập dữ liệu lớn hơn cho đến khi các kích thước mẫu bằng nhau, tập hợp dữ liệu theo từng cặp và lấy chênh lệch, sau đó sử dụng phân phối Student thông thường để kiểm tra sự độ chênh lệch giữa hai kỳ vọng bằng 0 rõ ràng điều này sẽ không phải là "tối ưu" theo bất kỳ nghĩa nào
Việc xác định ước lượng khoảng thời gian cho vấn đề này là một nhiệm vụ mà cách tiếp cận Frequentist không cung cấp một giải pháp chính xác, dù có sẵn một số phương pháp gần đúng Các phương pháp tiếp cận Bayesian tiêu chuẩn cũng không đưa ra được câu trả lời biểu diễn dưới dạng các công thức đơn giản, nhưng các kỹ thuật tính toán hiện đại trong phân tích Bayesian cho phép tìm ra các giải pháp có độ chính xác cao về cơ bản Như vậy, có sự khác biệt căn bản giữa hai hướng tiếp cận Frequentist và Bayesian khi ước lượng khoảng thời gian.
Ta có quy tắc kiểm định như sau:
Tìm 𝑇 𝛼 = 𝑇 𝛼/2 (𝑛 1 + 𝑛 2 − 2) từ bảng phân phối Student
Nếu 𝑇 0 ≤ 𝑇 𝛼 , thì chấp nhận H Nếu 𝑇 0 > 𝑇 𝛼 thì bác bỏ H
Có hai phương pháp sản xuất được so sánh: phương án 1 thử 6 mẫu với trung bình tiêu thụ 2.5 nguyên liệu và phương sai 0.1, phương án 2 thử 5 mẫu với trung bình 3.3 nguyên liệu và phương sai 0.195 Để lựa chọn phương án phù hợp ở mức ý nghĩa 0.05, ta dùng kiểm định z cho sự khác biệt hai trung bình khi biết phương sai: z = (2.5 − 3.3) / sqrt(0.1/6 + 0.195/5) ≈ −3.39 Giá trị này nằm ngoài ngưỡng quyết định (−1.645 một phía hoặc ±1.96 hai phía), nên bác bỏ giả thuyết bằng nhau và kết luận phương án 1 có trung bình tiêu thụ nguyên liệu thấp hơn phương án 2 một cách có ý nghĩa thống kê tại mức 0.05 Do đó nên chọn phương án 1.
Giải: H0:𝜇 1 = 𝜇 2 (số trung bình các đơn vị nguyên liệu cần thiết để sản xuất ra một sản phẩm của hai phương pháp là bằng nhau)
Vì 𝑇 0 > 𝑇 𝛼 thì bác bỏ H, nên số trung bình các đơn vị nguyên liệu để sản xuất ra một sản phẩm là không bằng nhau
Kiểm định phương sai (A chi-square test)
Phép thử chi bình phương Cochran (Cochran, 1989) có thể được dùng để kiểm tra xem phương sai của một tập hợp có bằng một giá trị xác định hay không Thử nghiệm này có thể là hai phía hoặc một phía: thử hai phía kiểm tra giả thiết cho rằng phương sai thực tế có thể nhỏ hơn hoặc lớn hơn giá trị chỉ định, còn thử một phía giới hạn ở một hướng duy nhất Việc lựa chọn giữa hai phía hay một phía phụ thuộc vào đặc trưng và mục tiêu của bài kiểm định Giả sử tổng thể có phân phối chuẩn, có phương sai σ^2, mẫu có kích thước n, trung bình mẫu x̄ và phương sai mẫu hiệu chỉnh s^2 Hãy kiểm định giả thiết về sự bằng/khác của σ^2 so với một giá trị σ0^2 đã cho, dựa trên dữ liệu mẫu và dưới giả thiết phân phối chuẩn.
Từ đó ta có quy tắc kiểm định:
Một kiểm tra chi-bình phương đã được thực hiện trên tập dữ liệu Phương sai quan sát được đối với 100 phép đo đường kính bánh răng là 0,00003969 (độ lệch chuẩn là 0,0063) Chúng tôi sẽ kiểm tra giả thuyết rỗng với phân phối chi-bình phương, giả định phương sai thực là 0,01, và mức ý nghĩa là 5%.
Giải: Gọi H0:=0 =0.01( giả thiết phương sai hiện tại bằng phương sai thực)
Giá trị thống kê kiểm định đạt được là 0,393 và nhỏ hơn nhiều so với giá trị tới hạn, cho thấy kết quả đủ mạnh để bác bỏ giả thuyết không Vì vậy, chúng tôi kết luận rằng phương sai không bằng 0,01.
So sánh phương sai ( F-test)
Cho hai biến ngẫu nhiên độc lập X và Y, trong đó X có phân phối chuẩn
𝑐ó 𝑝ℎươ𝑛𝑔 𝑠𝑎𝑖 𝜎 1 2 mẫu kích thước n1, biến Y có phân phối chuẩn
𝑐ó 𝑝ℎươ𝑛𝑔 𝑠𝑎𝑖 𝜎 2 2 mẫu kích thước n2 Ta có giả thiết H0:𝜎 1 = 𝜎 2
2 2 Khi đó thống kê F có phân phối Fisher với n1 -1 và n2 -1 bậc tự do, nếu giả thuyết H0 là đúng thì:
Từ đó ta có quy tắc kiểm định:
𝟐 ,n 1 −1,n 2 −1 và 𝒇 𝜶,n 1 −1,n 2 −1 và𝒇 𝟏−𝜶/𝟐,n 1 −1,n 2 −1 từ bảng phân phối 𝑭
Phép kiểm tra F được áp dụng cho tập dữ liệu gồm 480 phép đo độ bền gốm cho hai lô vật liệu khác nhau Các thống kê tóm tắt cho từng lô được trình bày phía dưới nhằm phác họa mức độ biến thiên và trung bình của độ bền ở mỗi lô, từ đó hỗ trợ so sánh hai lô một cách trực quan ĐỢT 1:
Trung bình = 688,9987 Độ lệch chuẩn = 65,54909 Đợt 2:
Trung bình = 611.1559 Độ lệch chuẩn = 61,85425
Chúng tôi đang kiểm tra giả thuyết rỗng rằng phương sai của hai lô là bằng nhau
Bậc tự do của tử số: N1 - 1 = 239; Bậc tự do của mẫu số: N2 - 1 = 239
Vùng từ chối: Từ chối H0 nếu F 1,2894
Kiểm định F chỉ ra rằng không có đủ bằng chứng để bác bỏ giả thuyết rằng hai phương pháp xử lý bằng nhau ở mức ý nghĩa 0,05
Kiểm định giải thiết về tỷ lệ tổng thể
Giả sử tổng thể có tỷ lệ p Mẫu có kích thước n, tỷ lệ mẫu f kiểm định giả thiết
H0:p=p0 với mức ý nghĩa α Với 3 trường hợp đối thuyết H1:p>p1; H1:p 𝑍 𝛼 thì bác bỏ H
Dữ liệu mẫu gồm 625 thanh niên cho thấy 300 người có đặc điểm cần xét, cho tỉ lệ mẫu 0.48 Giả thuyết H0: p = 0.5 Kiểm định z cho tỷ lệ với p0 = 0.5: SE = sqrt(p0(1-p0)/n) = sqrt(0.25/625) = 0.02, z = (0.48 - 0.5)/0.02 = -1.00 P-value hai-ta ≈ 0.317 Với α = 0.05, không có bằng chứng để bác bỏ H0; dữ liệu này không cho thấy tỷ lệ thất nghiệp THPT khác 0.5 ở mức ý nghĩa 5%.
Vậy 𝑍 𝛼 > 𝑍 0 thì báo cáo đáng tin với mức ý nghĩa 5%
Trường hợp không có những tham số chưa biết
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍 0 = 𝑋−𝜇 0 √𝑛 có phân phối chuẩn N(0; 1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Nếu 𝑍 0 ≤ 𝑍 𝛼 , thì chấp nhận H Nếu 𝑍 0 > 𝑍 𝛼 thì bác bỏ H
Trong kiểm định giả thuyết, nếu giá trị thống kê nằm ngoài vùng chấp nhận (tức nằm trong vùng bác bỏ) thì ta bác bỏ giả thuyết về μ0 và kết luận rằng kỳ vọng của X thực sự khác μ0 Ngược lại, nếu giá trị thống kê nằm trong vùng chấp nhận thì ta không bác bỏ giả thuyết và kết luận rằng kỳ vọng của X không khác μ0 một cách có ý nghĩa.
Trong bài toán này, n = 100 học sinh, điểm trung bình năm nay X̄ = 5.9 và độ lệch chuẩn s = 1.21, trong khi tiêu chuẩn năm ngoái cho danh hiệu thi đua môn toán là μ0 = 5.72 Ta tiến hành kiểm định giả thuyết một phía với mức ý nghĩa α = 0.01: H0: μ ≤ 5.72 và H1: μ > 5.72 Giá trị z tính được là z = (X̄ − μ0) / (s/√n) = (5.9 − 5.72) / (1.21/√100) ≈ 1.49 Với ngưỡng bác bỏ ở mức 1% cho kiểm định một phía là z0.99 ≈ 2.33, ta không bác bỏ H0; p-value khoảng 0.07 Kết luận: không có bằng chứng ở mức ý nghĩa 1% cho thấy điểm trung bình năm nay vượt qua tiêu chuẩn năm ngoái 5.72 để đạt danh hiệu thi đua.
Giải: Giả thiết H0:μ=μ0 =5.72 ( điểm năm nay bằng năm trước)
Vì 𝑍 0 < 𝑍 𝛼 nên chấp nhận H0 Vậy điểm môn toán năm nay không cao hơn năm trước với mức ý nghĩa 1%, nên không đạt được tiêu chuẩn nhận danh hiệu thi đua.
Trường hợp có những tham số chưa biết
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍 0 = 𝑋−𝜇 0 √𝑛 có phân phối chuẩn N(0; 1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍 0 = 𝑋−𝜇 0 √𝑛 có phân phối chuẩn N(0; 1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Để kiểm định giả thiết về trung bình tổng thể μ khi tổng thể giả định có μ = μ0 và σ chưa biết, ta xét mẫu có kích thước n với trung bình mẫu x̄ và phương sai mẫu hiệu chỉnh s^2 Do σ chưa biết, ta sử dụng kiểm định t của Student với biến t = (x̄ − μ0) / (s/√n) Theo phân phối t_{n−1}, quyết định bác bỏ H0 dựa vào ngưỡng t_{α/2, n−1} cho kiểm định hai phía hoặc t_{α, n−1} cho kiểm định một phía Nếu |t| > t_{α/2, n−1} (hoặc t > t_{α, n−1}), ta bác bỏ H0 ở mức ý nghĩa α; ngược lại không bác bỏ H0 Kết quả kiểm định cho phép suy diễn về μ dựa trên dữ liệu mẫu và mức ý nghĩa đã chọn.
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇 0 = 𝑋−𝜇 0 √𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Tìm 𝑇 𝛼 từ bảng phân phối Student
Nếu 𝑇 0 ≤ 𝑇 𝛼 , thì chấp nhận H Nếu 𝑇 0 > 𝑇 𝛼 thì bác bỏ H
Một vưòn ươm cây giống, theo quy định khi nào cây cao trung bình trên 1m thì đem ra trồng Đo ngẫu nhiên 25 cây, được số liệu:
Với mức ý nghĩa 5%, có thể đem cây ra trồng không, gải thiết chiều cao của cây theo luật phân phối chuẩn
Gọi μ là chiều cao trung bình của cây trong vườn Từ mẫu ta có:
H0:μ=μ0 =1 ( chưa nên đem cây ra trồng)
Vì 𝑇 0 > 𝑇 𝛼 thì bác bỏ H, nên ta kết luận nên đem cây ra trồng
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇 0 = 𝑋−𝜇 0 √𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Tìm 𝑇 𝛼 từ bảng phân phối Student
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇 0 = 𝑋−𝜇 0 √𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ
Từ đó ta có quy tắc kiểm định sau :
Tìm 𝑇 𝛼 từ bảng phân phối Student
4.2.2 Kiểm định so sánh hai trung bình
Cho hai biến ngẫu nhiên độc lập X và Y có phân phối chuẩn X ~ N(μ1, σ1^2) và Y ~ N(μ2, σ2^2) với mẫu kích thước n1 và n2 Giả thiết H0: μ1 = μ2 Trong trường hợp σ1^2 và σ2^2 đã biết, bài toán được xem ở ba dạng đối thuyết: H1: μ1 > μ2; H1: μ1 < μ2; và xét hai phía μ1 ≠ μ2 Thống kê kiểm định sử dụng khi hai phương sai đã biết là z = ( x̄ − ȳ ) / sqrt( σ1^2/n1 + σ2^2/n2 ), quyết định dựa trên giá trị tới hạn hoặc giá trị p.
Ta có quy tắc kiểm định như sau:
Tìm 𝑍 𝛼 từ hệ thức 2𝛷(𝑍 𝛼 ) = 1 − 𝛼;Tính thống kê
Nếu 𝑍 0 ≤ 𝑍 𝛼 , thì chấp nhận H Nếu 𝑍 0 > 𝑍 𝛼 thì bác bỏ H ii Trường hợp 𝜎 1 2 ; 𝜎 2 2 chưa biết: chia thành 3 đối thuyết H1:μ1>μ2
Trong thống kê, bài toán Behrens–Fisher đề cập đến ước lượng sự khác biệt giữa hai giá trị trung bình của hai quần thể phân phối chuẩn và kiểm định giả thuyết liên quan đến sự khác biệt này Bài toán này được xem xét khi phương sai của hai quần thể không được giả định là bằng nhau và dựa trên hai mẫu độc lập.
Các giải pháp cho bài toán Behrens-Fisher được trình bày dưới hai quan điểm: cổ điển và suy luận Bayes, và một trong hai phương án có thể bị xem là không hợp lệ về mặt hình thức theo một quan điểm khác Nếu xem xét chỉ suy luận thống kê cổ điển, ta có thể tìm các giải pháp dễ áp dụng về mặt thực tế, ưu tiên sự đơn giản hơn bất kỳ sự không chính xác nào trong các câu xác suất tương ứng Khi yêu cầu độ chính xác của mức ý nghĩa của các thử nghiệm thống kê, có thể có thêm yêu cầu rằng thủ tục phải sử dụng tối đa thông tin thống kê có trong tập dữ liệu Ai cũng biết có thể đạt được một thử nghiệm chính xác bằng cách loại bỏ ngẫu nhiên dữ liệu từ tập dữ liệu lớn hơn cho đến khi các kích thước mẫu bằng nhau, ghép từng cặp dữ liệu và lấy chênh lệch, sau đó dùng phân phối Student để kiểm tra sự chênh lệch giữa hai kỳ vọng bằng 0; điều này rõ ràng sẽ không được xem là tối ưu theo bất kỳ nghĩa nào.
Việc ước lượng khoảng thời gian cho vấn đề này cho thấy giới hạn của cách tiếp cận Frequentist, khi không có giải pháp chính xác và chỉ có các phép gần đúng Các phương pháp Bayesian tiêu chuẩn không cho ra một câu trả lời biểu diễn bằng công thức đơn giản, song các kỹ thuật tính toán hiện đại của phân tích Bayesian cho phép xác định các giải pháp ước lượng thời gian một cách cơ bản và chính xác hơn Như vậy, sự khác biệt giữa hai khuôn khổ tiếp cận — Frequentist và Bayesian — nằm ở cách tiếp cận và khả năng ước lượng thời gian: Frequentist dựa trên mẫu và sai số, trong khi Bayesian dựa trên phân phối xác suất và các thuật toán tính toán để đạt được ước lượng có độ tin cậy cao hơn.
Ta có quy tắc kiểm định như sau:
Tìm 𝑇 𝛼 = 𝑇 𝛼/2 (𝑛 1 + 𝑛 2 − 2) từ bảng phân phối Student
Nếu 𝑇 0 ≤ 𝑇 𝛼 , thì chấp nhận H Nếu 𝑇 0 > 𝑇 𝛼 thì bác bỏ H
Để so sánh hai phương án sản xuất, ta dùng kiểm định hai mẫu với giả thuyết mu1 = mu2 Dữ liệu: Phương án 1 n1 = 6, x̄1 = 2.5, s1^2 = 0.1; Phương án 2 n2 = 5, x̄2 = 3.3, s2^2 = 0.195 Hiệu số x̄1 − x̄2 = −0.8, và SE = sqrt(0.1/6 + 0.195/5) ≈ 0.236, nên t ≈ −3.39 Với cách ước lượng Welch, df ≈ 7.1 và p-value hai-ta-ta ≈ 0.012 Ở mức ý nghĩa α = 0.05, ta bác bỏ giả thuyết mu1 = mu2 và kết luận có sự khác biệt có ý nghĩa giữa hai phương án Phương án 1 có mức tiêu thụ nguyên liệu trung bình thấp hơn phương án 2 (2.5 so với 3.3), nên được xem là lựa chọn phù hợp hơn.
Giải: H0:𝜇 1 = 𝜇 2 (số trung bình các đơn vị nguyên liệu cần thiết để sản xuất ra một sản phẩm của hai phương pháp là bằng nhau)
Vì 𝑇 0 > 𝑇 𝛼 thì bác bỏ H, nên số trung bình các đơn vị nguyên liệu để sản xuất ra một sản phẩm là không bằng nhau
A Kiểm định phương sai (A chi-square test) i Phép thử chi bình phương (Cochran, 1989)có thể được sử dụng để kiểm tra xem phương sai của một tập hợp có bằng một giá trị xác định hay không Thử nghiệm này có thể là thử nghiệm hai phía hoặc thử nghiệm một phía Phép thử hai phía kiểm tra phương án thay thế rằng phương sai thực nhỏ hơn hoặc lớn hơn giá trị được chỉ định Phép thử một phía chỉ kiểm tra theo một hướng Việc lựa chọn kiểm tra hai phía hay một phía là do vấn đề quyết định ii Giả sử tổng thể có phân phối chuẩn, phương sai 2 , Mẫu có kích thước n, trung bình mẫu n, phương sai mẫu hiệu chỉnh s 2 Hãy kiểm định giả thiết
Từ đó ta có quy tắc kiểm định:
Một kiểm tra chi-bình phương đã được thực hiện trên một tập dữ liệu Phương sai quan sát được đối với 100 phép đo đường kính bánh răng là 0,00003969 (độ lệch chuẩn là 0,0063) Chúng tôi sẽ kiểm tra giả thuyết rỗng với phân phối chuẩn có phương sai thực bằng 0,01 và mức ý nghĩa là 5%.
Giải: Gọi H0:=0 =0.01( giả thiết phương sai hiện tại bằng phương sai thực)
Giá trị thống kê kiểm định là 0,393, thấp hơn nhiều so với giá trị tới hạn ở mức thấp nhất; do đó, chúng tôi bác bỏ giả thuyết không và kết luận rằng phương sai không bằng 0,01.
B So sánh phương sai ( F-test)
Cho hai biến ngẫu nhiên độc lập X và Y, trong đó X có phân phối chuẩn
𝑐ó 𝑝ℎươ𝑛𝑔 𝑠𝑎𝑖 𝜎 1 2 mẫu kích thước n1, biến Y có phân phối chuẩn
𝑐ó 𝑝ℎươ𝑛𝑔 𝑠𝑎𝑖 𝜎 2 2 mẫu kích thước n2 Ta có giả thiết H0:𝜎 1 = 𝜎 2
2 2 Khi đó thống kê F có phân phối Fisher với n1 -1 và n2 -1 bậc tự do, nếu giả thuyết H0 là đúng thì:
Từ đó ta có quy tắc kiểm định:
𝟐 ,n 1 −1,n 2 −1 và 𝒇 𝜶,n 1 −1,n 2 −1 và𝒇 𝟏−𝜶/𝟐,n 1 −1,n 2 −1 từ bảng phân phối 𝑭
Kiểm tra F được thiết kế cho bộ dữ liệu gồm 480 phép đo độ bền gốm từ hai lô vật liệu, với các thống kê tóm tắt cho từng lô được hiển thị ở bên dưới Đợt 1 cho phép so sánh giữa hai lô về độ bền trung bình, độ lệch chuẩn và phạm vi biến thiên, từ đó cung cấp cái nhìn toàn diện về tính nhất quán và độ tin cậy của dữ liệu đo lường.
Trung bình = 688,9987 Độ lệch chuẩn = 65,54909 Đợt 2:
Trung bình = 611.1559 Độ lệch chuẩn = 61,85425
Chúng tôi đang kiểm tra giả thuyết rỗng rằng phương sai của hai lô là bằng nhau
Bậc tự do của tử số: N1 - 1 = 239; Bậc tự do của mẫu số: N2 - 1 = 239
Vùng từ chối: Từ chối H0 nếu F 1,2894
Kiểm định F chỉ ra rằng không có đủ bằng chứng để bác bỏ giả thuyết rằng hai phương pháp xử lý bằng nhau ở mức ý nghĩa 0,05
A Kiểm định giải thiết về tỷ lệ tổng thể
Giả sử tổng thể có tỷ lệ p Mẫu có kích thước n, tỷ lệ mẫu f kiểm định giả thiết
H0:p=p0 với mức ý nghĩa α Với 3 trường hợp đối thuyết H1:p>p1; H1:p 𝑍 𝛼 thì bác bỏ H
Trong một vùng dân cư, tỷ lệ báo cáo người thất nghiệp THPT được giả thiết là p Thực tế, một cuộc khảo sát gồm 625 thanh niên cho thấy 300 người đã tốt nghiệp THPT, cho thấy p̂ = 300/625 = 0.48 Ta kiểm định H0: p = 0.5 với mức ý nghĩa α = 0.05 Công thức z cho tỷ lệ mẫu là z = (p̂ − p0) / sqrt(p0(1 − p0)/n), nên z = (0.48 − 0.5) / sqrt(0.5 × 0.5 / 625) = −0.02 / 0.02 = −1.0 Vì giá trị tuyệt đối của z = 1.0 nhỏ hơn zα/2 = 1.96, chúng ta không bác bỏ H0 ở mức ý nghĩa 5% Do đó, chưa có bằng chứng để cho rằng tỷ lệ báo cáo thất nghiệp THPT khác với 0.5 trong mẫu này; kết quả cho thấy tỷ lệ này có thể được coi là không khác biệt ở mức ý nghĩa 5%.
Vậy 𝑍 𝛼 > 𝑍 0 thì báo cáo đáng tin với mức ý nghĩa 5%
B Kiểm định so sánh hai tỷ lệ
Giả sủ tổng thể I và II lần lượt có tỷ lệ p1, p2,, có kích thước n1, n2, có tỷ lệ mẫu f1, f2, Kiểm định giả thiết H0 :p1=p2 với mức ý nghĩa α
Nếu 𝑍 0 ≤ 𝑍 𝛼 , thì chấp nhận H Nếu 𝑍 0 > 𝑍 𝛼 thì bác bỏ H
Cho rằng sản phẩm sản xuất vào ngày thứ hai có tỉ lệ phế phẩm cao hơn so với các ngày khác trong tuần, người ta đã lấy mẫu 100 sản phẩm từ ngày thứ hai và phân tích để xác định mức độ phế phẩm Kết quả cho thấy có sự chênh lệch đáng kể về tỉ lệ phế phẩm so với các ngày khác, cho thấy cần áp dụng biện pháp kiểm soát chất lượng nghiêm ngặt hơn và tối ưu hoá quy trình sản xuất vào ngày thứ hai để giảm lãng phí và nâng cao hiệu suất.
Trong một kiểm tra chất lượng, có 8 phế phẩm trên 200 sản phẩm được lấy từ ngày đầu tiên; ở ngày thứ hai và các ngày khác, số phế phẩm là 12 trên 200 sản phẩm Gọi tỷ lệ phế phẩm của ngày thứ hai và của các ngày khác lần lượt là p1 và p2 Ta tiến hành kiểm định giả thuyết H0: p1 = p2 để xem liệu tỷ lệ phế phẩm giữa ngày thứ hai và các ngày khác có khác biệt đáng kể hay không.
:p1=p2 với đối thuyết H1:p1≠p2 Mức ý nghĩa 5%
Vậy 𝑍 𝛼 > 𝑍 0 thì chất lượng hàng ở ngày thứ hai và các ngày khác là như nhau với mức ý nghĩa 5%
4.3 Kiểm định giả thiết phi tham số
Thống kê phi tham số là nhánh của thống kê không dựa trên các tham số của phân phối xác suất, ví dụ không giới hạn ở các tham số truyền thống như giá trị trung bình hay phương sai Thống kê phi tham số dựa trên việc không có phân phối cụ thể hoặc có một phân phối được chỉ định mà các tham số của phân phối đó lại không được xác định Thống kê phi tham số bao gồm cả thống kê mô tả và thống kê suy luận, phục vụ cho việc phân tích dữ liệu và rút ra kết luận khi các giả định tham số bị vi phạm Kiểm tra phi tham số thường được sử dụng khi các giả định của kiểm tra tham số bị vi phạm, nhằm đảm bảo kết quả tin cậy dù dữ liệu không tuân thủ phân phối chuẩn.
4.3.1 Kiểm định quy luật phân phối (Chi-Square Goodness-of-Fit Test)
Kiểm định bằng phân phối Chi-Square là phép thử phi tham số nhằm đánh giá mức độ khác biệt giữa giá trị quan sát được của một hiện tượng với giá trị kỳ vọng Trong kiểm định độ phù hợp Chi-Square, khái niệm độ phù hợp được dùng để so sánh phân phối mẫu quan sát với phân phối xác suất mong đợi Thử nghiệm này xác định mức độ phù hợp giữa phân phối lý thuyết (ví dụ chuẩn, nhị thức hoặc Poisson) với phân phối thực nghiệm Dữ liệu mẫu được chia thành các khoảng (bins) và ta đếm số lượng quan sát rơi vào từng khoảng, so với số lượng dự kiến cho mỗi khoảng để đánh giá sự khác biệt giữa quan sát và kỳ vọng.
A Trường hợp không có những tham số chưa biết