Kiểm định thống kê tậptrung vào rút ra kết luận về phân bố từ tập mẫu được rút ra.Kiểm định thống kê bao gồm dự đoán các thông số và kiểm định giả thuyết; từ đó đưa ra kết luận vềgiá trị
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG & TIN HỌC
Trang 2MỤC LỤC
1 Kiểm định giả thuyết 4
a) Quy trình kiểm định giả thuyết 4
2 Các kiểm định dùng một mẫu 5
a) Những sai lầm trong kiểm định giả thuyết 6
b) Lựa chọn kiểm định thống kê 8
c) Đưa ra kết luận 9
3 Kiểm định hai phía cho giá trị trung bình 12
a) p-values 13
b) Kiểm định một mẫu về tỉ lệ 14
4 Kiểm định giả thuyết dùng hai mẫu ( Two-Sample Hypothesis Tests ) 16
a) Kiểm định giả thuyết hai mẫu về giá trị trung bình 17
b) Kiểm định hai mẫu cặp 21
c) So sánh 2 phương sai 24
5 Phân tích phương sai (ANOVA) 25
a) Các giả thuyết của ANOVA 29
6 Kiểm định độc lập với Chi-Square Test 30
a) Lưu ý khi sử dụng kiểm định Chi-Square 33
7 Kết luận 34
Danh mục tài liệu tham khảo 35
Trang 3Lời mở đầu
Các nhà quản lý cần biết rằng các quyết định họ đưa ra có hiệu quả hay không?
Ví dụ, họ muốn biết đáp án cho những câu hỏi sau: Chiến dịch quảng cáo trongcông ty có làm tăng doanh số bán hàng? Vị trí của 1 sản phẩm trong cửa hàng
có quan trọng hay không? Phương thức sản xuất mới này có cải thiện năng suấthoặc chất lượng sản phẩm trong nhà máy hay không? Rất nhiều ứng dụng trongdoanh nghiệp bao gồm tìm kiếm các bằng chứng thống kê rằng quyết định hoặcthay đổi quy trình sản xuất đã đáp ứng mục tiêu của họ Kiểm định thống kê tậptrung vào rút ra kết luận về phân bố từ tập mẫu được rút ra.Kiểm định thống kê bao gồm dự đoán các thông số và kiểm định giả thuyết; từ đó đưa ra kết luận vềgiá trị của các biến trên tập dữ liệu Phương pháp thống kê cơ bản để thực hiện việc này là kiểm định giả thuyết Kiểm định giả thuyết là một kĩ thuật giúp ta đưa ra các kết luận có ý nghĩa về mặt thống kê về các biến Trong báo cáo này,
em giới thiệu một số phương pháp phổ biến trong kinh doanh sử dụng phần
mềm Excell với công cụ Data Analysis có sẵn để triển khai chúng trong môi
trường bảng tính Nhiều quy trình kiểm định đòi hỏi kiến thức thống kê nâng cao để hiểu lý thuyết không liên quan Do đó, em tập trung vào các ứng dụng đơn giản, gắn với thực tế trong kinh doanh để hiểu mục đích và ứng dụng của các kỹ thuật hơn là các nguyên tắc lý thuyết của chúng
Trang 41 Kiểm định giả thuyết
Kiểm định giả thuyết bao gồm đưa ra những suy luận về 2 mệnh đề trái ngược nhau ( được gọi là hypothesis) liên quan đến giá trị của một hay nhiều biến, ví
dụ như trung bình (mean), độ lệch chuẩn (standard deviation), phương sai (variance) Giả thuyết được đưa ra kiểm định được gọi là giả thuyết gốc, ký hiệu là H0; nó thường là giả thuyết đơn trong các bài toán kiểm định tham số Các giả thuyết khác với gốc được gọi là giả thuyết đối hay đối thuyết (có thể đơn hoặc phức), ký hiệu là H1 Ta thừa nhận khi đã chọn cặp H0, H1 thì việc chấp nhận H0 chính là bác bỏ H1, và ngược lại Việc kiểm định một giả thuyết
là đúng hay sai dựa trên thông tin mẫu sẽ được gọi là kiểm định thống kê
VÍ DỤ 1.1 Kiểm định giả thuyết về mặt pháp lý
Trong hệ thống luật pháp ở Mỹ, một bị cáo được coi là vô tội cho đến khi họ chứng minh được mình vô tội; Giả thuyết gốc H0: Không có tội , giả thuyết H1: có tội Nếu bằng chứng (dữ liệu mẫu) chỉ ra rằng bị cáo có tội, thì ta sẽ từ chối giả định vô tội ( từ chối H0) Nếu bằng chứng không đủ để chỉ ra phạm tội, thì chúng ta không thể bác bỏ giả thuyết không có tội; tuy nhiên, ta đã chứng minh rằng bị cáo vô tội Trong thực tế, bạn chỉ có thể kết luận rằng một bị cáo có tội từ các bằng chứng; bạn vẫn chưa chứng minh điều đó!
a) Quy trình kiểm định giả thuyết
1 Xác định tham số của quần thể cần quan tâm và hình thành các giả thuyết để kiểm tra
2 Chọn mức ý nghĩa , là xác suất đưa ra kết luận sai lầm nhất khi giả thuyết được giả định là thực sự đúng
3 Xác định quy tắc quyết định để dựa vào đó đưa ra kết luận
4 Thu thập dữ liệu và tính toán các giá trị của thống kê
5 Áp dụng quy tắc quyết định cho kiểm định và đưa ra kết luận
Trang 5Ta áp dụng quy trình trên cho 2 loại điểm định giả thuyết; một là các kiểm định dùng một mẫu(one-sample test) ;hai là các kiểm định dùng nhiều nhiều mẫu ( multiple-sample tests ).
2 Các kiểm định dùng một mẫu
Kiểm định một mẫu bao gồm bao gồm các kiểm định về các thông tin trong tậpquan sát (population parameter) ví dụ như trung bình,,kiểm định về tỷ lệ,kiểm định về độ lệch chuẩn ,… Để tiến hành test, ta sử dụng một population
parameter từ tập quan sát Có 3 dạng kiểm định một mẫu:
H0: population parameter ≥ const vs H1: population parameter< const
H0: population parameter ≤ const vs H1: population parameter> const
H0: population parameter=const vs H1: population parameter const
Chú ý rằng các kiểm định một mẫu này luôn so sánh một population parametervới một hằng số Các mệnh đề trong giả thuyết không ( null hypothesis ) được biểu diễn thành các kí hiệu ≥ , ≤hoặc
Một vấn đề là làm thế nào để xác định các giả thuyết null và đối thuyết Trong kiểm định giả thuyết,giả thuyết gốc H0 luôn giả sử là đúng và sử dụng dữ liệu
để quyết định xem liệu đối thuyết H1 có đúng hay không Về mặt thống kê, ta không thể “chứng minh” rằng H0 đúng, ta chỉ có thể bác bỏ giả thuyết đó Do
vậy, nếu ta không thể bác bỏ giá thuyết H0, ta chỉ có thể nói rằng chưa đủ căn
cứ để kết luận rằng đối thuyết H1 là đúng Tuy nhiên, bác bỏ giả thuyết gốc H0
có ý nghĩa hơn về mặt thống kê rằng H0 không đúng và đối thuyết H1 là đúng
Vì vậy, các bằng chứng về thống kê nên được coi là đối thuyết
VÍ DỤ 1.2 Một phát biểu về kiểm định một mẫu :
Trang 6CadSoft, nhà sản xuất phần mềm thiết kế hỗ trợ máy tính cho nghành công nghiệp hàng không vũ trụ nhận nhiều cuộc gọi về việc hỗ trợ kĩ thuật Trong quá khứ, thời gian trung bình cho mỗi lần phản hồi là ít nhất 25 phút Công ty này đã nâng cấp hệ thống thông tin của họ và tin rằng sẽ giảm được thời gian cho mỗi lần phản hồi khách hàng Công ty thu thập 44 dữ liệu về thời gian phản hồi trong file Excel CadSoft Technical Support Response Times:
Nếu hệ thống thông tin mới cải thiện về thời gian phản hồi, dữ liệu này có thể xác
nhận rằng thời gian phản hồi ít hơn 25 phút; mệnh đề trên được gọi là đối thuyết H1
Vì vậy, các giả thuyết gốc và đối thuyết lần lượt là
H0:thời gian phản hồitrung bình≥ 25 phút
H1: thời gian phản hồi trungbình<25 phút
Ta thường viết các giả thuyết trên sử dụng các kí hiệu thường dùng trong thống kê Trong trường hợp này, thời gian trung bình được kí hiệu là Ta viết lại thành:
H0:≥25
H1:<25
a) Những sai lầm trong kiểm định giả thuyết
Kiểm định giả thuyết đưa ra 1 trong 4 các kết quả sau:
1 Giả thuyết gốc (H0¿ đúng, và kiểm định không đủ căn cứ để bác bỏ H0
2 Giả thuyết gốc (H0¿ sai, và kiểm định chấp nhận đối thuyết H1¿
3 Giả thuyết gốc H0 đúng, nhưng ta lại bác bỏ giả thuyết đúng ( Sai lầm loại I – Type I error)
4 Chấp nhận một giả thuyết H0 sai ( Sai lầm loại II – Type II error )
Trang 7Xác suất mắc phải sai lầm loại I ,kí hiệu là ¿P(bác bỏ H0∨H0đúng) với là mức
ý nghĩa của tiêu chuẩn kiểm định tương ứng) Giá trị của được xác định bởi người thực hiện kiểm định và được chọn trước khi tiến hành kiểm định Các mức thường được sử dụng là 0.1 ,0.05 và 0.01
P
(
chấp nhận H0|
H0sai)
=¿ Không giống , không thể chi định giá trị trướcVÍ DỤ 1.3 phụ thuộc vào giá trị của kỳ vọng
Xét giả thuyết trong ví dụ về CadSoft:
H0:thời gian phản hồi trung bình≥ 25 phút
H1: thời gian phản hồi trungbình<25 phút
Giả sử nếu kì vọng rút ra từ tập mẫu về thời gian phản hồi là 15 phút,ta sẽ bác bỏ giả thiết gốc (H0¿ Nếu kì vọng là 24 phút, ngay cả khi vẫn < 25 phút, chúng ta vẫn có khả năng chấp nhận giả thuyết H0 cao hơn rằng thời gian phản hồi trung bình > 25 phút do các sai số trong tập mẫu VÌ vậy, kì vọng trong thực càng xa với giá trị đưa ra trong giả thuyết, càng nhỏ Trong thực tế, ta không thể đồng thời làm giảm cả 2 giá trị , vì cứ giảm thì tăng và ngược lại Vì vậy, người đưa ra quyết định phải cân nhắc sự đánh đổi về 2 giá trị này Do đó, nếu bạn chọn mức ý nghĩa =0.01 thay vì 0.05 và giữ nguyên tập mẫu, điều này sẽ làm giảm xác suất mắc sai lầm loại I nhưng
sẽ làm tang xác suất mắc sai lầm loại II
Giá trị 1−¿ được gọi là lực lượng của kiểm định và đại diện cho
P
(
bác bỏ H0|
H0sai)
.Chúng ta mong muốn xác suất trên là lớn (tương đương với giá trị b nhỏ) để có thể đưa ra kết luận hợp lý Lực lượng của kiểm định có mối quan hệ với kích thước tập mẫu; tang khi kích thước tập mẫu tang, cho phép ta phát hiện sự khác biệt nhỏ giữa thống kê mẫuvà các thông tin trong tập quan sát với độ chính xác cao hơn Tuy nhiên, việc thu thập dữ liệu còn hạn chế về công cụ, chi phí thực hiện Vì vậy,
Trang 8nếu bạn chọn mức ý nghĩa nhỏ, bạn nên cố gắng khắc phục bằng cách lấy tập mẫu đủ lớn khi tiến hành kiểm định
b) Lựa chọn kiểm định thống kê
Các quyết định về bác bỏ hay chấp nhận giả thuyết gốc (H0) dựa trên tính toán kiểm định thống kê trên tập dữ liệu mẫu Các kiểm định thống
kê được sử dụng phụ thuộc vào loại giả thuyết kiểm định; các loại giả thuyết kiểm định khác nhau sử dụng loại kiểm định riêng.Các kiểm địnhthống kê thích hợp thường phụ thuộc vào một vài giả thuyết về phân phối;ví dụ như đã biết hay chưa biết giá trị độ lệch chuẩn Các biểu thứcdưới đây chỉ ra 2 loại kiểm định giả thuyết một mẫu (one-sample
hypothesis) về kỳ vọng cùng với các kiểm định thống kê tương ứng của chúng m0 được gọi là giá trị theo giả thuyết của kỳ vọng; là ‘hằng số’ trong các biểu thức dưới đây:
Loại kiểm định Tiêu chuẩn kiểm định
Kiểm định giả thuyết một mẫu,σ biết z=
´
x−m0σ
√
nKiểm định giả thuyết một mẫu,σ chưa biết t=
´
x−m0s
√
nVÍ DỤ 1.4 Tính toán giá trị của kiểm định
Đối với ví dụ về CadSoft, thời gian phản hồi trung bình trong tập mẫu có 44 khách hàng là ´x=21.91 phút và có độ lệch chuẩn s=19.49;Giá trị trung bình theo giả thuyết đưa ra là m0=25.Bạn có thể tự hỏi tại sao chúng ta phải kiểm tra thống kê này khi rõ ràng 21.91 < 25 Lý do đưa ra là sai số mẫu Hoàn toàn có khả năng là giá trị trung bình này trên toàn tập quan sát có thể ≥ 25 và kết quả ´x=21.91 chỉ là may mắn khi ta
Trang 9lấy kết quả đó từ một tập mẫu đó.Do đó,sẽ rất nguy hiểm nếu chúng ta đưa ra kết luận chỉ dựa trên giá trị trung bình của tập mẫu mà không thưc hiện kiểm định giả thuyết.
Vì ta không biết giá trị của độ lệch chuẩn nên thống kê sử dụng trong bài toán này là:
√
n=21.91−2519.49 /
√
44=−1.05Ở biểu thức trên, tử số là độ lệch giữa trung bình mẫu và trung bình theo giả thuyết Lấy tử số chia cho độ lệch chuẩn,
Ý tưởng này là nền tảng của kiểm định giả thuyết – nếu trung bình mẫu “cách xa” so với trung bình theo giả thuyết thì giả thuyết gốc (H0¿ bị bác bỏ
là phân phối chuẩn Đối với kiểm định một phía
(one-tailed test), giá trị tới hạn là điểm mà đánh dấu ranh giới giữa vùng chấp nhận
và vùng bác bỏ giả thuyết mà phần diện tích của vùng bác bỏ giả thuyết được
kí hiệu là Ví dụ ¿0.05,
Trang 10Giá trị tới hạn chia phân phối mẫu thành 2 phần: vùng chấp nhận và vùng bác
bỏ Nếu giả thuyết gốc (H0¿ sai,nhiều khả năng giá trị từ kiểm định thống kê này sẽ rơi vào vùng bác bỏ; nếu đúng thì ta bác bỏ giả thuyết;ngược lại, ta không đủ cơ sở để bác bỏ giả thuyết gốc này Vùng bác bỏ được chọn sao cho xác suất rơi vào đó nếu (H0¿ đúng là xác suất mắc sai lầm loại I ,
Vùng bác bỏ này xuất hiện ở phía cuối của các đồ thị phân phối mẫu đại diện cho thống kê đó và phụ thuộc vào cấu trúc của các cặp giả thuyết H0, H1
Ví dụ :Nếu H1là đối lập ( ¿❑0) với H0¿) thì vùng bác bỏ sở nằm ở hai đầu của đồ thị phân phối (hình dưới) Đây được gọi là kiểm định 2 phía (two-tailed test of hypothesis)
Nếu H1bất đối xứng lệch về phải: ¿❑0 (trái: ¿) thì vùng bác bỏ nằm tương ứng ở 1 phía phải (trái) của đồ thị phân phối (hình dưới)
Giá trị tới hạn(critical value) giúp dễ dàng hơn trong việc xác định liệu giá trị tính được từ kiểm định thống kê có rơi vào vùng bác bỏ của phân phối mẫu hay không Ví dụ, trong kiểm định 1 phía về bên phải, nếu giá trị thống kê lớn hơn giá trị tới hạn,ta sẽ bác bỏ giá thuyết gốc H0; tương
tự với kiểm định 1 phía về bên trái, nếu giá trị đó nhỏ hơn giá trị tới hạn,
Trang 11ta cũng sẽ bác bỏ H0 vì giá trị đó rơi vào vùng bác bỏ giả thuyết Đối vớikiểm định hai phía, nếu giá trị thống kê lớn hơn hoặc nhỏ hơn các giá trịtới hạn tương ứng (upper critical value và lower critical value), ta cũng
sẽ bác bỏ giả thuyết
VÍ DỤ 1.5 Tính toán giá trị tới hạn và đưa ra kết luận
Trong ví dụ về CadSoft, nếu mức ý nghĩa ¿0.05 thì giá trị tới hạn cho kiểm định
1 phía là giá trị của hàm phân phối Student( t- distribution) với n-1 bậc tự do vàdiện tích phần bác bỏ là 0.05 có dạng t ,n−1 Giá trị này có thể tìm được bằng cách tra bảng phân vị Student hoặc sử dụng hàm Excel T INV (1−,n−1) Do
đó, giá trị tới hạn có giá trị = t0.05,43=T INV (0.95,43)=1.68 Vì phân phối
Student có trung bình bằng = 0 và đây là kiểm định 1 phía lệch về bên trái, ta sẽlấy giá trị âm (-1,68) để làm giá trị tới hạn
So sánh giá trị thống kê t (-1.68) với giá trị tới hạn,ta thấy -1.05 > -1.68 và giá trị này không nằm trong vùng bác bỏ Do đó, ta không có đủ căn cứ để bác bỏ giả thuyết gốc
H0, từ đó không thể kết luận rằng thời gian phản hồi trung bình cải thiện xuống còn ít hơn 25 phút Ngay cả khi trung bình mẫu < 25, ta cũng không thể kết luận rằng trung bình của toàn bộ tập quan sát cũng nhỏ hơn 25 vì còn có các sai số
3 Kiểm định hai phía cho giá trị trung bình
Trang 12Về cơ bản, mọi kiểm định giả thuyết đều tương tự nhau, bạn chỉ cần đảm bảo việc chọn đúng loại kiểm định, giá trị tới hạn, và vùng bác bỏ,phụ thuộc vào loại giả thuyết Ví dụ dưới đây mô tả việc kiểm định hai phía cho giá trị trung bình
VÍ DỤ 1.6 Kiểm định hai phía cho giá trị trung bình
Hình dưới đây hiển thị một phần dữ liệu được thu tập trong cuộc khảo sát 34 người bởi một công ty du lịch Giả sử công ty này muốn nhắn tới các cá nhân trong độ tuổi khoảng 35 Do vậy,họ muốn kiểm định xem liệu độ tuổi trung bình của nhóm người trên có bằng 35 ha không Các giả thuyết của kiểm định này là :
H0:tuổi trungbình=35
H1: tuổitrung bình35
(Một phần dữ liệu được lấy ra từ khảo sát 34 người )
Trung bình tính được bằng 38.677 và độ lệch chuẩn của mẫu là 7.858
Ta sử dụng thống kê Student:
t=´x−m0s
√
n=38.677−357.858/
√
34 =2.73 (*)Vì đây là kiểm định giả thuyết 2 phía,nên khác với kiểm định một phía ở ví dụ trên, vùng bác bỏ và giá trị tới hạn là khác nhau Với mức ý nghĩa a=0.05, ta sẽ bác bỏ giả thuyết H0 nếu giá trị (*) rơi vào vùng bác bỏ , tức nhỏ hơn −ta /2 ,n−1 hoặc lớn hơn
Trang 13t a/ 2 ,n−1 Sử dụng hàm Excel T INV 2 T (0.05 , 33) để tính t0.025,33, ta được 2.0345; do đó 2giá trị tới hạn là ± 2.0345 và vùng bác bỏ là (−∞,−2.0345)∪(2.0345 ,+∞) Vì giá trị (*) rơi vào vùng bác bỏ (2.73 > 2.0345), từ đó có thể kết luận rằng bác bỏ được giả thuyết
H0 rằng tuổi trung bình trong cuộc khảo sát đó là 35
a) p-values
Một cách tiếp cận khác để so sánh giá trị kiểm định thống kê với giá trị tới hạn trong kiểm định giả thuyết là p-value P-value là xác suất tìm ra kết quả nếu coi giả thuyết gốc (H0¿ là đúng;p-value này giúp ta đưa ra bằng chứng để chấp nhận hay bác bỏ giả thuyết(H¿¿0)¿ Để đưa ra kết luận, ta so sánh p-value này với mức ý nghĩa a; nếu pvalue<a thì bác bỏ giả thuyết gốc (H0¿ và ngược lại
Đối với kiểm định thống kê Student: Sử dụng hàm trong Excel
Kiểm định một đuôi (one-tailed test):
Đuôi trên (upper tail): p−value=T DIST (t ,n−1 ,TRUE)
Đuôi dưới(lower tail): p−value=1−T DIST (t , n−1 , TRUE)
Kiểm định hai đuôi (two-tailed test):
t>0 ,p−value=T DIST 2 T (t , n−1)
t<0, p−value=T DIST 2 T (−t , n−1 ,)
VÍ DỤ 1.7 Sử dụng p-value
Trang 14Đối với ví dụ CadSoft, kiểm định t-test cho giả thuyết trong ví dụ về thời gian đáp ứng
có giá trị là -1,05 Nếu giá trị trung bình thực là 25, thì giá trị p-value là xác suất đạt được giá trị thống kê -1,05 hoặc ít hơn (Diện tích phía bên trái của - 1,05 trong hình
1.3) Chúng ta có thể tính giá trị p-value bằng hàm Excel T.DIST(−1.05,43,TRUE) = 0.1498 Vì
Nói cách khác, có khoảng 15% khả năng giá trị kiểm định là - 1,05 hoặc nhỏ hơn nếu giả thuyết gốc là đúng Đây là một xác suất khá cao, do đó khó có thể kết luận rằng giá trị trung bình thực sự nhỏ hơn 25 và chúng ta có thể quy kết thực tế là giá trị kiểm định nhỏ hơn giá trị giả thuyết đối với lỗi lấy mẫu và không bác bỏ giả thuyết không
Đối với kiểm định giả thuyết hai đuôi của Vacation Surveytrong ví dụ 1.6, giá trị p-value cho kiểm định này là 0,010, cũng có thể được tính bằng hàm Excel T.DIST.2T (2,73,33); do đó, từ
0,010 < 0,05, ta bác bỏ giả thuyết gốc H0
b) Kiểm định một mẫu về tỉ lệ
Nhiều phương pháp quan trọng trong kinh doanh, chẳng hạn như thị phần hoặc
tỷ lệ giao hàng được trả lại đúng hạn, được biểu thị bằng tỷ lệ Ta có thể tiến hành kiểm tra giả thuyết về tỷ lệ quần thể theo cách tương tự như đã làm với giá trị trung bình Kiểm định thống kê sử dụng một mẫu có dạng:
z= ^p−π0
√
π0(1−π0)/nVÍ DỤ 1.8 Kiểm định một mẫu cho tỉ lệ
CadSoft cũng lấy mẫu 44 khách hàng và hỏi họ về việc đánh giá chất lượng sản phẩm của công ty dựa trên 5 mức độ khác nhau
0 – rất tệ
1 – tệ
2 – tốt
3 – rất tốt
Trang 15 4 – tuyệt vời
Dữ liệu này theo dõi sự hài lòng của khách hàng bằng cách xem xét tỉ lệ phản hồi của
họ ở hai mức cao nhất ( mức 3,4) Trong quá khứ, tỉ lệ này có trung bình rơi vào khoảng 75% Đối với dữ liệu gồm 44 khách hàng lấy ra ở trên, có 35 trong 44 khách hàng có mức độ hài lòng về sản phẩm ở mức 3,4 ; tỉ lệ đạt tới 79.5% Câu hỏi: Có đủ căn cứ để kết luận rằng tỷ lệ khách hàng hài lòng về sản phẩm ở 2 mức cao nhất có vượt quá 75% trong quá khứ hay không ?
Để trả lời câu hỏi trên, ta sử dụng kiểm định về tỷ lệ với các giả thuyết:
Vì phân phối mẫu của z là phân phối chuẩn nên giá trị tới hạn của z với mức ý nghĩa
=0.05 được tính bằng NORM S INV (0.95)=1.645 Vì 0.69 < 1.645 nên ta không thể bác bỏ giả thuyết gốc H0 Do vậy,ngay cả khi tỉ lệ này ở trong tập mẫu đang xét > 0.75(0.795) nhưng về mặt thống kê ta chưa đủ căn cứ để cho rằng tỉ lệ khách hàng hài lòng
về sản phẩm tăng lên
Trang 16Giá trị p-value có thể được tính bằng
1−NORM S DIST (0.69 , TRUE)=0.24>0.05nên ta cũng kết luận rằng không thể loại bỏ giả thuyết gốc H0
Đối với kiểm định một đuôi phía dưới (lower-tailed test) ,p-value có thể được tính bằng diênh tích phần bên trái của kiểm định thống kê đó:
NORM S DIST (z , TRUE); Nếu là kiểm định hai đuôi,
p−value=2∗NORM S DIST (z , TRUE) nếu z < 0 hoặc
p−value=2∗(1−NORM S DIST (−z ,TRUE ))nếu z> 0
4 Kiểm định giả thuyết dùng hai mẫu ( Two-Sample
Hypothesis Tests )
Nhiều ứng dụng trong thực tế về kiểm định giả thuyết hai mẫu về sự khác nhau
về trung bình, tỷ lệ, hoặc các thông tin khác trong tập quan sát (population parameters): sự khác biệt về dây chuyền, năng suất của nhà máy đặt tại 2 địa điểm khác nhau; phương thức làm việc cũ và mới ,… và trong nhiều tình huốngkhác Tương tự với kiểm định dùng một mẫu, kiểm định giả thuyết hai mẫu cũng có các trường hợp sau:
Kiểm định đuôi dưới (lower-tailed test):
H0: population parameter 1− population parameter 2≥ D0
H1: population parameter 1− population parameter 2<D0
Với D0=const
Kiểm định đuôi trên (upper-tailed test):
H0: population parameter 1− population parameter 2≤ D0
H1: population parameter 1− population parameter 2>D0
Với D0=const
Trang 17 Kiểm định hai đuôi (two-tailed test):
H0: population parameter 1− population parameter 2=D0
H1: population parameter 1− population parameter 2 D0
a) Kiểm định giả thuyết hai mẫu về giá trị trung bình
Trong kiểm định giả thuyết về hai mẫu, ta xây dựng các giả thuyết có dạng:
H0: μ1−μ2¿
H0: μ1−μ2{¿,>, hoặc}0
Kiểm định 2 mẫu về trung bình, chưa biết ❑2 Excel z-test: Two-sample for meansKiểm định 2 mẫu về trung bình, chưa biết ❑2
,các của 2 mẫu là khác nhau
Excel t-test: Two-sample assumingunequal variances
Kiểm định 2 mẫu về trung bình, chưa biết ❑2
,các của 2 mẫu là bằng nhau
Excel t-test: Two-sample assumingequal variances
Kiểm định trung bình cho mẫu cặp (paired) Excel t-test: Paired two-sample for
meansKiểm định 2 mẫu về phương sai Excel F-test Two-sample for
variances
VÍ DỤ 1.9 So sánh thời gian đáp ứng yêu cầu (Lead Time) của các nhà cung
cấp