Khai phá dữ liệu kiểm định thống kê trong excel

Kiểm định thống kê tậptrung vào rút ra kết luận về phân bố từ tập mẫu được rút ra.Kiểm định thống kê bao gồm dự đoán các thông số và kiểm định giả thuyết; từ đó đưa ra kết luận vềgiá trị

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG & TIN HỌC

Trang 2

MỤC LỤC

1 Kiểm định giả thuyết 4

a) Quy trình kiểm định giả thuyết 4

2 Các kiểm định dùng một mẫu 5

a) Những sai lầm trong kiểm định giả thuyết 6

b) Lựa chọn kiểm định thống kê 8

c) Đưa ra kết luận 9

3 Kiểm định hai phía cho giá trị trung bình 12

a) p-values 13

b) Kiểm định một mẫu về tỉ lệ 14

4 Kiểm định giả thuyết dùng hai mẫu ( Two-Sample Hypothesis Tests ) 16

a) Kiểm định giả thuyết hai mẫu về giá trị trung bình 17

b) Kiểm định hai mẫu cặp 21

c) So sánh 2 phương sai 24

5 Phân tích phương sai (ANOVA) 25

a) Các giả thuyết của ANOVA 29

6 Kiểm định độc lập với Chi-Square Test 30

a) Lưu ý khi sử dụng kiểm định Chi-Square 33

7 Kết luận 34

Danh mục tài liệu tham khảo 35

Trang 3

Lời mở đầu

Các nhà quản lý cần biết rằng các quyết định họ đưa ra có hiệu quả hay không?

Ví dụ, họ muốn biết đáp án cho những câu hỏi sau: Chiến dịch quảng cáo trongcông ty có làm tăng doanh số bán hàng? Vị trí của 1 sản phẩm trong cửa hàng

có quan trọng hay không? Phương thức sản xuất mới này có cải thiện năng suấthoặc chất lượng sản phẩm trong nhà máy hay không? Rất nhiều ứng dụng trongdoanh nghiệp bao gồm tìm kiếm các bằng chứng thống kê rằng quyết định hoặcthay đổi quy trình sản xuất đã đáp ứng mục tiêu của họ Kiểm định thống kê tậptrung vào rút ra kết luận về phân bố từ tập mẫu được rút ra.Kiểm định thống kê bao gồm dự đoán các thông số và kiểm định giả thuyết; từ đó đưa ra kết luận vềgiá trị của các biến trên tập dữ liệu Phương pháp thống kê cơ bản để thực hiện việc này là kiểm định giả thuyết Kiểm định giả thuyết là một kĩ thuật giúp ta đưa ra các kết luận có ý nghĩa về mặt thống kê về các biến Trong báo cáo này,

em giới thiệu một số phương pháp phổ biến trong kinh doanh sử dụng phần

mềm Excell với công cụ Data Analysis có sẵn để triển khai chúng trong môi

trường bảng tính Nhiều quy trình kiểm định đòi hỏi kiến thức thống kê nâng cao để hiểu lý thuyết không liên quan Do đó, em tập trung vào các ứng dụng đơn giản, gắn với thực tế trong kinh doanh để hiểu mục đích và ứng dụng của các kỹ thuật hơn là các nguyên tắc lý thuyết của chúng

Trang 4

1 Kiểm định giả thuyết

Kiểm định giả thuyết bao gồm đưa ra những suy luận về 2 mệnh đề trái ngược nhau ( được gọi là hypothesis) liên quan đến giá trị của một hay nhiều biến, ví

dụ như trung bình (mean), độ lệch chuẩn (standard deviation), phương sai (variance) Giả thuyết được đưa ra kiểm định được gọi là giả thuyết gốc, ký hiệu là H0; nó thường là giả thuyết đơn trong các bài toán kiểm định tham số Các giả thuyết khác với gốc được gọi là giả thuyết đối hay đối thuyết (có thể đơn hoặc phức), ký hiệu là H1 Ta thừa nhận khi đã chọn cặp H0, H1 thì việc chấp nhận H0 chính là bác bỏ H1, và ngược lại Việc kiểm định một giả thuyết

là đúng hay sai dựa trên thông tin mẫu sẽ được gọi là kiểm định thống kê

VÍ DỤ 1.1 Kiểm định giả thuyết về mặt pháp lý

Trong hệ thống luật pháp ở Mỹ, một bị cáo được coi là vô tội cho đến khi họ chứng minh được mình vô tội; Giả thuyết gốc H0: Không có tội , giả thuyết H1: có tội Nếu bằng chứng (dữ liệu mẫu) chỉ ra rằng bị cáo có tội, thì ta sẽ từ chối giả định vô tội ( từ chối H0) Nếu bằng chứng không đủ để chỉ ra phạm tội, thì chúng ta không thể bác bỏ giả thuyết không có tội; tuy nhiên, ta đã chứng minh rằng bị cáo vô tội Trong thực tế, bạn chỉ có thể kết luận rằng một bị cáo có tội từ các bằng chứng; bạn vẫn chưa chứng minh điều đó!

a) Quy trình kiểm định giả thuyết

1 Xác định tham số của quần thể cần quan tâm và hình thành các giả thuyết để kiểm tra

2 Chọn mức ý nghĩa , là xác suất đưa ra kết luận sai lầm nhất khi giả thuyết được giả định là thực sự đúng

3 Xác định quy tắc quyết định để dựa vào đó đưa ra kết luận

4 Thu thập dữ liệu và tính toán các giá trị của thống kê

5 Áp dụng quy tắc quyết định cho kiểm định và đưa ra kết luận

Trang 5

Ta áp dụng quy trình trên cho 2 loại điểm định giả thuyết; một là các kiểm định dùng một mẫu(one-sample test) ;hai là các kiểm định dùng nhiều nhiều mẫu ( multiple-sample tests ).

2 Các kiểm định dùng một mẫu

Kiểm định một mẫu bao gồm bao gồm các kiểm định về các thông tin trong tậpquan sát (population parameter) ví dụ như trung bình,,kiểm định về tỷ lệ,kiểm định về độ lệch chuẩn ,… Để tiến hành test, ta sử dụng một population

parameter từ tập quan sát Có 3 dạng kiểm định một mẫu:

H0: population parameter ≥ const vs H1: population parameter< const

H0: population parameter ≤ const vs H1: population parameter> const

H0: population parameter=const vs H1: population parameter const

Chú ý rằng các kiểm định một mẫu này luôn so sánh một population parametervới một hằng số Các mệnh đề trong giả thuyết không ( null hypothesis ) được biểu diễn thành các kí hiệu ≥ , ≤hoặc

Một vấn đề là làm thế nào để xác định các giả thuyết null và đối thuyết Trong kiểm định giả thuyết,giả thuyết gốc H0 luôn giả sử là đúng và sử dụng dữ liệu

để quyết định xem liệu đối thuyết H1 có đúng hay không Về mặt thống kê, ta không thể “chứng minh” rằng H0 đúng, ta chỉ có thể bác bỏ giả thuyết đó Do

vậy, nếu ta không thể bác bỏ giá thuyết H0, ta chỉ có thể nói rằng chưa đủ căn

cứ để kết luận rằng đối thuyết H1 là đúng Tuy nhiên, bác bỏ giả thuyết gốc H0

có ý nghĩa hơn về mặt thống kê rằng H0 không đúng và đối thuyết H1 là đúng

Vì vậy, các bằng chứng về thống kê nên được coi là đối thuyết

VÍ DỤ 1.2 Một phát biểu về kiểm định một mẫu :

Trang 6

CadSoft, nhà sản xuất phần mềm thiết kế hỗ trợ máy tính cho nghành công nghiệp hàng không vũ trụ nhận nhiều cuộc gọi về việc hỗ trợ kĩ thuật Trong quá khứ, thời gian trung bình cho mỗi lần phản hồi là ít nhất 25 phút Công ty này đã nâng cấp hệ thống thông tin của họ và tin rằng sẽ giảm được thời gian cho mỗi lần phản hồi khách hàng Công ty thu thập 44 dữ liệu về thời gian phản hồi trong file Excel CadSoft Technical Support Response Times:

Nếu hệ thống thông tin mới cải thiện về thời gian phản hồi, dữ liệu này có thể xác

nhận rằng thời gian phản hồi ít hơn 25 phút; mệnh đề trên được gọi là đối thuyết H1

Vì vậy, các giả thuyết gốc và đối thuyết lần lượt là

H0:thời gian phản hồitrung bình≥ 25 phút

H1: thời gian phản hồi trungbình<25 phút

Ta thường viết các giả thuyết trên sử dụng các kí hiệu thường dùng trong thống kê Trong trường hợp này, thời gian trung bình được kí hiệu là  Ta viết lại thành:

H0:≥25

H1:<25

a) Những sai lầm trong kiểm định giả thuyết

Kiểm định giả thuyết đưa ra 1 trong 4 các kết quả sau:

1 Giả thuyết gốc (H0¿ đúng, và kiểm định không đủ căn cứ để bác bỏ H0

2 Giả thuyết gốc (H0¿ sai, và kiểm định chấp nhận đối thuyết H1¿

3 Giả thuyết gốc H0 đúng, nhưng ta lại bác bỏ giả thuyết đúng ( Sai lầm loại I – Type I error)

4 Chấp nhận một giả thuyết H0 sai ( Sai lầm loại II – Type II error )

Trang 7

Xác suất mắc phải sai lầm loại I ,kí hiệu là ¿P(bác bỏ H0∨H0đúng) với là mức

ý nghĩa của tiêu chuẩn kiểm định tương ứng) Giá trị của được xác định bởi người thực hiện kiểm định và được chọn trước khi tiến hành kiểm định Các mức thường được sử dụng là 0.1 ,0.05 và 0.01

P

(

chấp nhận H

|

H

sai

)

VÍ DỤ 1.3  phụ thuộc vào giá trị của kỳ vọng

Xét giả thuyết trong ví dụ về CadSoft:

H0:thời gian phản hồi trung bình≥ 25 phút

H1: thời gian phản hồi trungbình<25 phút

Giả sử nếu kì vọng rút ra từ tập mẫu về thời gian phản hồi là 15 phút,ta sẽ bác bỏ giả thiết gốc (H0¿ Nếu kì vọng là 24 phút, ngay cả khi vẫn < 25 phút, chúng ta vẫn có khả năng chấp nhận giả thuyết H0 cao hơn rằng thời gian phản hồi trung bình > 25 phút do các sai số trong tập mẫu VÌ vậy, kì vọng trong thực càng xa với giá trị đưa ra trong giả thuyết,  càng nhỏ Trong thực tế, ta không thể đồng thời làm giảm cả 2 giá trị ,  vì cứ giảm thì  tăng và ngược lại Vì vậy, người đưa ra quyết định phải cân nhắc sự đánh đổi về 2 giá trị này Do đó, nếu bạn chọn mức ý nghĩa =0.01 thay vì 0.05 và giữ nguyên tập mẫu, điều này sẽ làm giảm xác suất mắc sai lầm loại I nhưng

sẽ làm tang xác suất mắc sai lầm loại II

Giá trị 1−¿ được gọi là lực lượng của kiểm định và đại diện cho

P

(

bác bỏ H

|

H

sai

)

.

b

và các thông tin trong tập quan sát với độ chính xác cao hơn Tuy nhiên, việc thu thập dữ liệu còn hạn chế về công cụ, chi phí thực hiện Vì vậy,

Trang 8

nếu bạn chọn mức ý nghĩa nhỏ, bạn nên cố gắng khắc phục bằng cách lấy tập mẫu đủ lớn khi tiến hành kiểm định

b) Lựa chọn kiểm định thống kê

Các quyết định về bác bỏ hay chấp nhận giả thuyết gốc (H0) dựa trên tính toán kiểm định thống kê trên tập dữ liệu mẫu Các kiểm định thống

kê được sử dụng phụ thuộc vào loại giả thuyết kiểm định; các loại giả thuyết kiểm định khác nhau sử dụng loại kiểm định riêng.Các kiểm địnhthống kê thích hợp thường phụ thuộc vào một vài giả thuyết về phân phối;ví dụ như đã biết hay chưa biết giá trị độ lệch chuẩn Các biểu thứcdưới đây chỉ ra 2 loại kiểm định giả thuyết một mẫu (one-sample

hypothesis) về kỳ vọng cùng với các kiểm định thống kê tương ứng của chúng m0 được gọi là giá trị theo giả thuyết của kỳ vọng; là ‘hằng số’ trong các biểu thức dưới đây:

Loại kiểm định Tiêu chuẩn kiểm định

Kiểm định giả thuyết một mẫu,σ biết z=

´

x−m0σ

√

n

Kiểm định giả thuyết một mẫu,σ chưa biết t=

´

x−m0s

√

n

VÍ DỤ 1.4 Tính toán giá trị của kiểm định

Đối với ví dụ về CadSoft, thời gian phản hồi trung bình trong tập mẫu có 44 khách hàng là ´x=21.91 phút và có độ lệch chuẩn s=19.49;Giá trị trung bình theo giả thuyết đưa ra là m0=25.Bạn có thể tự hỏi tại sao chúng ta phải kiểm tra thống kê này khi rõ ràng 21.91 < 25 Lý do đưa ra là sai số mẫu Hoàn toàn có khả năng là giá trị trung bình này trên toàn tập quan sát có thể ≥ 25 và kết quả ´x=21.91 chỉ là may mắn khi ta

Trang 9

lấy kết quả đó từ một tập mẫu đó.Do đó,sẽ rất nguy hiểm nếu chúng ta đưa ra kết luận chỉ dựa trên giá trị trung bình của tập mẫu mà không thưc hiện kiểm định giả thuyết.

Vì ta không biết giá trị của độ lệch chuẩn nên thống kê sử dụng trong bài toán này là:

√

n

=21.91−2519.49 /

√

Ở biểu thức trên, tử số là độ lệch giữa trung bình mẫu và trung bình theo giả thuyết Lấy tử số chia cho độ lệch chuẩn,

Ý tưởng này là nền tảng của kiểm định giả thuyết – nếu trung bình mẫu “cách xa” so với trung bình theo giả thuyết thì giả thuyết gốc (H0¿ bị bác bỏ

là phân phối chuẩn Đối với kiểm định một phía

(one-tailed test), giá trị tới hạn là điểm mà đánh dấu ranh giới giữa vùng chấp nhận

và vùng bác bỏ giả thuyết mà phần diện tích của vùng bác bỏ giả thuyết được

kí hiệu là Ví dụ ¿0.05,

Trang 10

Giá trị tới hạn chia phân phối mẫu thành 2 phần: vùng chấp nhận và vùng bác

bỏ Nếu giả thuyết gốc (H0¿ sai,nhiều khả năng giá trị từ kiểm định thống kê này sẽ rơi vào vùng bác bỏ; nếu đúng thì ta bác bỏ giả thuyết;ngược lại, ta không đủ cơ sở để bác bỏ giả thuyết gốc này Vùng bác bỏ được chọn sao cho xác suất rơi vào đó nếu (H0¿ đúng là xác suất mắc sai lầm loại I ,

Vùng bác bỏ này xuất hiện ở phía cuối của các đồ thị phân phối mẫu đại diện cho thống kê đó và phụ thuộc vào cấu trúc của các cặp giả thuyết H0, H1

 Ví dụ :Nếu H1là đối lập ( ¿❑0) với H0¿) thì vùng bác bỏ sở nằm ở hai đầu của đồ thị phân phối (hình dưới) Đây được gọi là kiểm định 2 phía (two-tailed test of hypothesis)

 Nếu H1bất đối xứng lệch về phải: ¿❑0 (trái: ¿) thì vùng bác bỏ nằm tương ứng ở 1 phía phải (trái) của đồ thị phân phối (hình dưới)

Giá trị tới hạn(critical value) giúp dễ dàng hơn trong việc xác định liệu giá trị tính được từ kiểm định thống kê có rơi vào vùng bác bỏ của phân phối mẫu hay không Ví dụ, trong kiểm định 1 phía về bên phải, nếu giá trị thống kê lớn hơn giá trị tới hạn,ta sẽ bác bỏ giá thuyết gốc H0; tương

tự với kiểm định 1 phía về bên trái, nếu giá trị đó nhỏ hơn giá trị tới hạn,

Trang 11

ta cũng sẽ bác bỏ H0 vì giá trị đó rơi vào vùng bác bỏ giả thuyết Đối vớikiểm định hai phía, nếu giá trị thống kê lớn hơn hoặc nhỏ hơn các giá trịtới hạn tương ứng (upper critical value và lower critical value), ta cũng

sẽ bác bỏ giả thuyết

VÍ DỤ 1.5 Tính toán giá trị tới hạn và đưa ra kết luận

Trong ví dụ về CadSoft, nếu mức ý nghĩa ¿0.05 thì giá trị tới hạn cho kiểm định

1 phía là giá trị của hàm phân phối Student( t- distribution) với n-1 bậc tự do vàdiện tích phần bác bỏ là 0.05 có dạng t ,n−1 Giá trị này có thể tìm được bằng cách tra bảng phân vị Student hoặc sử dụng hàm Excel T INV (1−,n−1) Do

đó, giá trị tới hạn có giá trị = t0.05,43=T INV (0.95,43)=1.68 Vì phân phối

Student có trung bình bằng = 0 và đây là kiểm định 1 phía lệch về bên trái, ta sẽlấy giá trị âm (-1,68) để làm giá trị tới hạn

So sánh giá trị thống kê t (-1.68) với giá trị tới hạn,ta thấy -1.05 > -1.68 và giá trị này không nằm trong vùng bác bỏ Do đó, ta không có đủ căn cứ để bác bỏ giả thuyết gốc

H0, từ đó không thể kết luận rằng thời gian phản hồi trung bình cải thiện xuống còn ít hơn 25 phút Ngay cả khi trung bình mẫu < 25, ta cũng không thể kết luận rằng trung bình của toàn bộ tập quan sát cũng nhỏ hơn 25 vì còn có các sai số

3 Kiểm định hai phía cho giá trị trung bình

Trang 12

Về cơ bản, mọi kiểm định giả thuyết đều tương tự nhau, bạn chỉ cần đảm bảo việc chọn đúng loại kiểm định, giá trị tới hạn, và vùng bác bỏ,phụ thuộc vào loại giả thuyết Ví dụ dưới đây mô tả việc kiểm định hai phía cho giá trị trung bình

VÍ DỤ 1.6 Kiểm định hai phía cho giá trị trung bình

Hình dưới đây hiển thị một phần dữ liệu được thu tập trong cuộc khảo sát 34 người bởi một công ty du lịch Giả sử công ty này muốn nhắn tới các cá nhân trong độ tuổi khoảng 35 Do vậy,họ muốn kiểm định xem liệu độ tuổi trung bình của nhóm người trên có bằng 35 ha không Các giả thuyết của kiểm định này là :

H0:tuổi trungbình=35

H1: tuổitrung bình35

(Một phần dữ liệu được lấy ra từ khảo sát 34 người )

Trung bình tính được bằng 38.677 và độ lệch chuẩn của mẫu là 7.858

Ta sử dụng thống kê Student:

t=´x−m0s

√

n

=38.677−357.858/

√

Vì đây là kiểm định giả thuyết 2 phía,nên khác với kiểm định một phía ở ví dụ trên, vùng bác bỏ và giá trị tới hạn là khác nhau Với mức ý nghĩa a=0.05, ta sẽ bác bỏ giả thuyết H0 nếu giá trị (*) rơi vào vùng bác bỏ , tức nhỏ hơn −ta /2 ,n−1 hoặc lớn hơn

Trang 13

t a/ 2 ,n−1 Sử dụng hàm Excel T INV 2 T (0.05 , 33) để tính t0.025,33, ta được 2.0345; do đó 2giá trị tới hạn là ± 2.0345 và vùng bác bỏ là (−∞,−2.0345)∪(2.0345 ,+∞) Vì giá trị (*) rơi vào vùng bác bỏ (2.73 > 2.0345), từ đó có thể kết luận rằng bác bỏ được giả thuyết

H0 rằng tuổi trung bình trong cuộc khảo sát đó là 35

a) p-values

Một cách tiếp cận khác để so sánh giá trị kiểm định thống kê với giá trị tới hạn trong kiểm định giả thuyết là p-value P-value là xác suất tìm ra kết quả nếu coi giả thuyết gốc (H0¿ là đúng;p-value này giúp ta đưa ra bằng chứng để chấp nhận hay bác bỏ giả thuyết(H¿¿0)¿ Để đưa ra kết luận, ta so sánh p-value này với mức ý nghĩa a; nếu pvalue<a thì bác bỏ giả thuyết gốc (H0¿ và ngược lại

Đối với kiểm định thống kê Student: Sử dụng hàm trong Excel

 Kiểm định một đuôi (one-tailed test):

 Đuôi trên (upper tail): p−value=T DIST (t ,n−1 ,TRUE)

 Đuôi dưới(lower tail): p−value=1−T DIST (t , n−1 , TRUE)

 Kiểm định hai đuôi (two-tailed test):

 t>0 ,p−value=T DIST 2 T (t , n−1)

 t<0, p−value=T DIST 2 T (−t , n−1 ,)

VÍ DỤ 1.7 Sử dụng p-value

Trang 14

Đối với ví dụ CadSoft, kiểm định t-test cho giả thuyết trong ví dụ về thời gian đáp ứng

có giá trị là -1,05 Nếu giá trị trung bình thực là 25, thì giá trị p-value là xác suất đạt được giá trị thống kê -1,05 hoặc ít hơn (Diện tích phía bên trái của - 1,05 trong hình

1.3) Chúng ta có thể tính giá trị p-value bằng hàm Excel T.DIST(−1.05,43,TRUE) = 0.1498 Vì

Nói cách khác, có khoảng 15% khả năng giá trị kiểm định là - 1,05 hoặc nhỏ hơn nếu giả thuyết gốc là đúng Đây là một xác suất khá cao, do đó khó có thể kết luận rằng giá trị trung bình thực sự nhỏ hơn 25 và chúng ta có thể quy kết thực tế là giá trị kiểm định nhỏ hơn giá trị giả thuyết đối với lỗi lấy mẫu và không bác bỏ giả thuyết không

Đối với kiểm định giả thuyết hai đuôi của Vacation Surveytrong ví dụ 1.6, giá trị p-value cho kiểm định này là 0,010, cũng có thể được tính bằng hàm Excel T.DIST.2T (2,73,33); do đó, từ

0,010 < 0,05, ta bác bỏ giả thuyết gốc H0

b) Kiểm định một mẫu về tỉ lệ

Nhiều phương pháp quan trọng trong kinh doanh, chẳng hạn như thị phần hoặc

tỷ lệ giao hàng được trả lại đúng hạn, được biểu thị bằng tỷ lệ Ta có thể tiến hành kiểm tra giả thuyết về tỷ lệ quần thể theo cách tương tự như đã làm với giá trị trung bình Kiểm định thống kê sử dụng một mẫu có dạng:

z= ^p−π0

√

π

VÍ DỤ 1.8 Kiểm định một mẫu cho tỉ lệ

CadSoft cũng lấy mẫu 44 khách hàng và hỏi họ về việc đánh giá chất lượng sản phẩm của công ty dựa trên 5 mức độ khác nhau

 0 – rất tệ

 1 – tệ

 2 – tốt

 3 – rất tốt

Trang 15

 4 – tuyệt vời

Dữ liệu này theo dõi sự hài lòng của khách hàng bằng cách xem xét tỉ lệ phản hồi của

họ ở hai mức cao nhất ( mức 3,4) Trong quá khứ, tỉ lệ này có trung bình rơi vào khoảng 75% Đối với dữ liệu gồm 44 khách hàng lấy ra ở trên, có 35 trong 44 khách hàng có mức độ hài lòng về sản phẩm ở mức 3,4 ; tỉ lệ đạt tới 79.5% Câu hỏi: Có đủ căn cứ để kết luận rằng tỷ lệ khách hàng hài lòng về sản phẩm ở 2 mức cao nhất có vượt quá 75% trong quá khứ hay không ?

Để trả lời câu hỏi trên, ta sử dụng kiểm định về tỷ lệ với các giả thuyết:

Vì phân phối mẫu của z là phân phối chuẩn nên giá trị tới hạn của z với mức ý nghĩa

=0.05 được tính bằng NORM S INV (0.95)=1.645 Vì 0.69 < 1.645 nên ta không thể bác bỏ giả thuyết gốc H0 Do vậy,ngay cả khi tỉ lệ này ở trong tập mẫu đang xét > 0.75(0.795) nhưng về mặt thống kê ta chưa đủ căn cứ để cho rằng tỉ lệ khách hàng hài lòng

về sản phẩm tăng lên

Trang 16

Giá trị p-value có thể được tính bằng

1−NORM S DIST (0.69 , TRUE)=0.24>0.05nên ta cũng kết luận rằng không thể loại bỏ giả thuyết gốc H0

Đối với kiểm định một đuôi phía dưới (lower-tailed test) ,p-value có thể được tính bằng diênh tích phần bên trái của kiểm định thống kê đó:

NORM S DIST (z , TRUE); Nếu là kiểm định hai đuôi,

p−value=2∗NORM S DIST (z , TRUE) nếu z < 0 hoặc

p−value=2∗(1−NORM S DIST (−z ,TRUE ))nếu z> 0

4 Kiểm định giả thuyết dùng hai mẫu ( Two-Sample

Hypothesis Tests )

Nhiều ứng dụng trong thực tế về kiểm định giả thuyết hai mẫu về sự khác nhau

về trung bình, tỷ lệ, hoặc các thông tin khác trong tập quan sát (population parameters): sự khác biệt về dây chuyền, năng suất của nhà máy đặt tại 2 địa điểm khác nhau; phương thức làm việc cũ và mới ,… và trong nhiều tình huốngkhác Tương tự với kiểm định dùng một mẫu, kiểm định giả thuyết hai mẫu cũng có các trường hợp sau:

 Kiểm định đuôi dưới (lower-tailed test):

H0: population parameter 1− population parameter 2≥ D0

H1: population parameter 1− population parameter 2<D0

Với D0=const

 Kiểm định đuôi trên (upper-tailed test):

H0: population parameter 1− population parameter 2≤ D0

H1: population parameter 1− population parameter 2>D0

Với D0=const

Trang 17

 Kiểm định hai đuôi (two-tailed test):

H0: population parameter 1− population parameter 2=D0

H1: population parameter 1− population parameter 2 D0

a) Kiểm định giả thuyết hai mẫu về giá trị trung bình

Trong kiểm định giả thuyết về hai mẫu, ta xây dựng các giả thuyết có dạng:

H0: μ1−μ2¿

H0: μ1−μ2{¿,>, hoặc}0

Kiểm định 2 mẫu về trung bình, chưa biết ❑2 Excel z-test: Two-sample for meansKiểm định 2 mẫu về trung bình, chưa biết ❑2

,các của 2 mẫu là khác nhau

Excel t-test: Two-sample assumingunequal variances

Kiểm định 2 mẫu về trung bình, chưa biết ❑2

,các của 2 mẫu là bằng nhau

Excel t-test: Two-sample assumingequal variances

Kiểm định trung bình cho mẫu cặp (paired) Excel t-test: Paired two-sample for

meansKiểm định 2 mẫu về phương sai Excel F-test Two-sample for

variances

VÍ DỤ 1.9 So sánh thời gian đáp ứng yêu cầu (Lead Time) của các nhà cung

cấp

Tiêu đề	Khai phá dữ liệu kiểm định thống kê trong excel
Người hướng dẫn	TS. Lê Chí Ngọc
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Khoa học Máy Tính và Thống Kê
Thể loại	Tiểu luận cuối kỳ
Thành phố	Hà Nội

Định dạng
Số trang	35
Dung lượng	3,12 MB