1. Trang chủ
  2. » Giáo án - Bài giảng

Tài liệu hướng dẫn sử dụng Minitab Cơ Bản - Áp dụng trong kỹ thuật thống kê công nghiệp & Quản lý chất lượng

139 5 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tài liệu hướng dẫn sử dụng Minitab Cơ bản - Áp dụng trong kỹ thuật thống kê công nghiệp & quản lý chất lượng
Tác giả Huỳnh Tấn Đạt
Chuyên ngành Kỹ thuật thống kê công nghiệp và Quản lý chất lượng
Thể loại Tài liệu hướng dẫn thực hành Minitab
Năm xuất bản 2025
Thành phố TP.HCM
Định dạng
Số trang 139
Dung lượng 6,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • PHẦN 1: HISTOGRAM (4)
  • PHẦN 2: BOXPLOT (11)
  • PHẦN 3: BIỂU ĐỒ PARETO (14)
  • PHẦN 4: KIỂM ĐỊNH TRUNG BÌNH 1 MẪU (18)
  • PHẦN 5: KIỂM ĐỊNH T-TEST HAI MẪU (22)
  • PHẦN 6: KIỂM ĐỊNH CHI-SQUARED (27)
  • PHẦN 7: PHÂN TÍCH ANOVA 1 YẾU TỐ (35)
  • PHẦN 8: PHÂN TÍCH ANOVA 2 YẾU TỐ (48)
  • PHẦN 9: KIỂM ĐỊNH TỶ LỆ 1 MẪU (54)
  • PHẦN 10: KIỂM ĐỊNH TỶ LỆ 2 MẪU (57)
  • PHẦN 11: BIỂU ĐỒ PHÂN TÁN (64)
  • PHẦN 12: TƯƠNG QUAN (67)
  • PHẦN 13: HỒI QUY TUYẾN TÍNH ĐƠN BIẾN (73)
  • PHẦN 14: HỒI QUY ĐA BIẾN (78)
  • PHẦN 15: BIỂU ĐỒ TRÒN (80)
  • PHẦN 16: BIỂU ĐỒ CỘT (83)
  • PHẦN 17: BIỂU ĐỒ ĐƯỜNG (85)
  • PHẦN 18: BIỂU ĐỒ NHIỆT (92)
  • PHẦN 19: BIỂU ĐỒ THỜI GIAN (95)
  • PHẦN 20: BIỂU ĐỒ XBAR-R (97)
  • PHẦN 23: BIỂU ĐỒ CHẠY (109)
  • PHẦN 24: BIỂU ĐỒ Z-MR (113)
  • PHẦN 25: BIỂU ĐỒ KIỂM SOÁT P (118)
  • PHẦN 26: BIỂU ĐỒ KIỂM SOÁT NP (122)
  • PHẦN 27: BIỂU ĐỒ KIỂM SOÁT C (127)
  • PHẦN 28: BIỂU ĐỒ KIỂM SOÁT U (130)
  • PHẦN 29: CHỈ SỐ NĂNG LỰC QUÁ TRÌNH Cp & Cpk (133)
  • PHẦN 30: BIỂU ĐỒ NHÂN QUẢ (137)

Nội dung

HỌC MINITAB DỄ DÀNG – THỰC HÀNH NGAY Mình đã tổng hợp 1 File PDF duy nhất Hướng dẫn Minitab để mọi người có thể tiện theo dõi và học tập chỉ với cài cú click. Chỉ cần dò mục lục là bạn sẽ tìm được ngay phần lý thuyết cô đọng nhất, kèm theo file thực hành, giúp bạn dễ hiểu và ứng dụng vào công việc thực tế. - Đây là một tài liệu tự học chứa đựng nhiều tâm huyết và thời gian của mình, hi vọng được mọi người đón nhận. - Giá trọn bộ: 300.000 VND (mua 1 lần, dùng trọn đời) - Nếu bạn quan tâm, hãy liên hệ qua: Email: datht.cntp@gmail.com hoặc Zalo: 0392997642.

HISTOGRAM

Biểu đồ tần số (Histogram) là công cụ trực quan dùng để tóm tắt sự biến thiên của dữ liệu bằng hình ảnh Đôi khi nó còn được gọi là biểu đồ cột hoặc biểu đồ phân bố mật độ, nhưng mục đích chính của histogram là hiển thị tần suất các giá trị rơi vào các khoảng chia (bin) khác nhau Nhờ vậy, người phân tích có thể nhận diện hình dạng phân phối, mức lệch và các đặc điểm của dữ liệu như trung vị, biến thiên giữa các nhóm và sự xuất hiện của các giá trị bất thường Histogram là bước phân tích mô tả căn bản hỗ trợ cho các kỹ thuật thống kê và các quyết định dựa trên dữ liệu.

- Bản chất hình ảnh của histogram cho phép chúng ta nhìn thấy những mẫu thống kê dễ dàng hơn là khi nhìn chúng trong một bảng số bình thường

- Để đại diện cho một quá trình, số lần đo N cần thiết là lớn hơn hoặc bằng 50

2 Lợi ích khi dùng biểu đồ tần số

Trong sản xuất hiện đại, các giá trị đo thường khác biệt giữa các thiết bị và lô hàng, ngay cả khi hệ thống sản xuất được tối ưu hóa ở mức cao nhất Sự khác biệt này là kết quả của biến thiên đo lường và hạn chế của công nghệ đo hiện tại, nên không thể tránh khỏi Để đảm bảo độ chính xác và độ tin cậy của dữ liệu, cần thực hiện hiệu chuẩn định kỳ, kiểm soát chất lượng và phân tích nguyên nhân gây ra sự lệch đo Việc nhận diện và quản lý biến động đo lường giúp tối ưu hóa quy trình sản xuất và nâng cao quyết định vận hành.

Sự khác biệt cho thấy trạng thái tổng thể của quá trình Trạng thái này biểu thị tần suất hay phân phối xác suất của quá trình đó Có ba điểm quan trọng cần lưu ý: giá trị trung tâm, độ rộng và hình dạng của biểu đồ tần số.

Rất khó nắm bắt trạng thái tổng thể khi chỉ nhìn vào một bảng dữ liệu đầy ắp số liệu Trong khối thông tin chi tiết ấy, chúng ta thường không nhận ra được những giá trị vượt quá giới hạn cho phép, khiến các điểm bất thường dễ bị bỏ qua và bức tranh dữ liệu trở nên méo mó Để nâng cao hiệu quả phân tích dữ liệu và giám sát hiệu suất, cần ứng dụng các phương pháp tổng hợp, cảnh báo ngưỡng và trực quan hóa như biểu đồ và dashboard nhằm nhận diện nhanh các giá trị vượt ngưỡng và nắm bắt trạng thái tổng thể một cách rõ ràng.

- Khi đưa dữ liệu lên biểu đồ, tổng thể vấn đề trở nên nhận biết dễ dàng hơn

Biểu đồ tần suất là công cụ hữu ích để phân tích khối lượng dữ liệu lớn, giúp bạn nhìn thấy xu hướng và tần suất xuất hiện của các giá trị trong tập dữ liệu Nhờ thể hiện phân phối dữ liệu một cách trực quan, biểu đồ này cung cấp một bức tranh toàn cảnh và hỗ trợ quyết định dựa trên dữ liệu một cách nhanh chóng và chính xác.

3 Một số hình dạng của biểu đồ tần số:

Dạng phân phối Diễn giải

Phân phối chuẩn là một hình thể đối xứng, đỉnh nằm giữa dãy số liệu, đại diện cho dữ liệu được sinh ra từ một quá trình ngẫu nhiên Độ lệch chuẩn của dạng chuông cho biết mức biến động của dữ liệu và có thể báo hiệu sự hiện diện của những yếu tố phức tạp hoặc tác động bên ngoài Việc xem xét biến đổi dạng chuông là một phần của phân tích dữ liệu, nhưng sự lệch khỏi chuẩn không nhất thiết là điều xấu; có nhiều phân phối không phải dạng chuông lại phù hợp và hữu ích trong một số trường hợp.

Dạng thung lũng, hay phân phối hai đỉnh, xuất hiện khi dữ liệu có hai khu vực tập trung nổi bật ở hai phía và phần ở giữa hiếm gặp hơn Dạng này thường là sự kết hợp của hai phân phối dạng chuông (phân phối chuẩn), cho thấy dữ liệu đến từ hai nhóm hoặc hai trạng thái khác nhau Khi xem biểu đồ histogram hoặc density, ta sẽ thấy hai đỉnh riêng biệt và một vùng giữa thấp hơn, hình thành một thung lũng Nhận diện dạng thung lũng giúp hiểu sự đa dạng của mẫu và lựa chọn mô hình phù hợp, như mô hình hỗn hợp Gaussian Các tham số quan trọng gồm trọng lượng của mỗi thành phần, vị trí đỉnh và độ lệch chuẩn của từng phân phối con, từ đó cho biết kích thước, vị trí và mức độ phân tán của hai nhóm dữ liệu Dạng thung lũng thường xuất hiện trong nhiều lĩnh vực như tài chính, y học, sinh học và nghiên cứu thị trường, nơi hai nguồn dữ liệu hoặc hai trạng thái tồn tại đồng thời.

QT khác nhau đang hoạt động và có nhiều cách diễn giải cho dạng này Để phân tích một cách chi tiết và toàn diện hơn, hãy thử áp dụng các kế hoạch phân chia khác nhau nhằm tách các QT và các điều kiện riêng biệt Việc phân chia theo từng tiêu chí giúp làm rõ cấu trúc cũng như mối liên hệ giữa các yếu tố, từ đó nâng cao sự nhận diện và đánh giá các yếu tố liên quan đến QT Đây là phương pháp phân tích chi tiết, mang lại cái nhìn sâu sắc và dễ áp dụng cho người đọc.

Phân phối có dạng bằng phẳng, không có đỉnh nhọn và hai bên có sự chênh lệch rất nhỏ, cho thấy dữ liệu được cân bằng ở hai phía Mô hình này có thể là kết quả của nhiều phân phối dạng chuông khác nhau, với trung tâm trải đều trên suốt dãy số liệu Để nhận diện các QT khác nhau đang vận hành, hãy vẽ sơ đồ đường đi và quan sát hoạt động một cách chi tiết Một trường hợp tồi tệ có thể xảy ra khi các yếu tố nhiễu hoặc bất thường làm lệch phân phối khỏi đường cong chuẩn, ảnh hưởng đến hiệu quả của các QT đang vận hành.

Trong tổ chức, thiếu quy trình làm việc rõ ràng và sự huấn luyện đầy đủ khiến mọi người thực hiện công việc theo cách riêng của họ Sự thiếu chuẩn hóa này tạo ra biến động lớn trong quá trình làm việc và làm tăng độ dao động của số liệu quan sát được Để nâng cao tính nhất quán và độ tin cậy của dữ liệu, cần thiết lập quy trình chuẩn, triển khai đào tạo đồng bộ và xác định các tiêu chí đo lường hiệu quả một cách rõ ràng.

Các giá trị cao và thấp xen kẽ đều đặn cho thấy sai lệch trong đo đạc, sai sót khi tập hợp số liệu để xây dựng biểu đồ tần số, hoặc một lệch hệ thống do cách làm tròn số liệu Dạng dữ liệu này thường phản ánh lỗi thu thập và xử lý dữ liệu chứ không phải đặc trưng thật của mẫu Do đó, cần xem xét lại quy trình thu thập dữ liệu và cách xây dựng biểu đồ tần số trước khi đánh giá các đặc điểm của QT có thể gây ra mô hình này.

Phân phối bất đối xứng là dạng có đỉnh lệch khỏi tâm của tập dữ liệu, với mật độ phân bố giảm nhanh ở một bên và giảm nhẹ ở bên còn lại Minh họa ở hình (a) thể hiện phân phối không đối xứng dương, do đuôi phân bố kéo dài sang bên phải và hướng tới giá trị tăng dần Ngược lại, một phân phối âm sẽ có đuôi kéo dài sang bên trái, biểu thị xu hướng giảm ở phía đối diện (hình (b)).

Dạng này mô tả hiện tượng khi một giới hạn thực tế hoặc giới hạn kỹ thuật tồn tại ở một phía và gần với giá trị danh nghĩa Điều này có nghĩa là kết quả lệch về một hướng nhỏ so với chuẩn, nhưng vẫn nằm trong phạm vi cho phép Ví dụ, số lỗi dệt trên một lô vải có thể nằm ở phía gần giá trị danh nghĩa và không vượt quá ngưỡng cho phép, cho thấy quá trình sản xuất đang ở mức ổn định và cần theo dõi để đảm bảo chất lượng.

100 yard vải tơ không thể nào nhỏ hơn zero

Nếu trung bình QT là 0,7 lỗi trên 100 yard, sự xuất hiện không thường xuyên của ba hoặc bốn lỗi trên 100 yard sẽ dẫn đến một phân phối có phân bố không đối xứng dương Các giới hạn kỹ thuật một phía (chỉ một giá trị lớn nhất hay nhỏ nhất) thường dẫn đến phân phối không đối xứng Những phân phối như vậy không hẳn là xấu, nhưng nhóm làm việc cần đặt dấu hỏi về tác động của các giá trị phần phân bố kéo dài Liệu chúng có thể gây sự không thỏa mãn cho khách hàng (thời gian chờ đợi lâu)? Dẫn đến chi phí cao hơn (đổ quá mức vào vật chứa)? Các giá trị lệch về một phía này có thể gây ra các vấn đề trong vận hành theo QT hay không? Nếu phần phân bố kéo dài này có thể có ảnh hưởng xấu đến CL thì nhóm phải điều tra và xác minh nguyên nhân đưa đến những giá trị đó.

Đây là một dạng bất đối xứng của phân phối dữ liệu, với đỉnh nằm tại hoặc gần một rìa của dãy số liệu và một đầu của phân phối có dốc đứng rất cao, sau đó giảm đều hoặc giảm nhẹ ở phần còn lại Hình (a) minh họa sự cắt ở phía bên trái và một phần phân phối lệch dương rõ rệt, và tất nhiên ta cũng có thể gặp trường hợp ngược lại ở hình (b) Phân phối bị cắt tại rìa cho thấy sự bất đối xứng và ảnh hưởng đến cách diễn giải các tham số thống kê.

BOXPLOT

Biểu đồ hộp, hay còn gọi là Box Plot hoặc Box and Whisker plot, là biểu đồ hộp và râu do John Tukey sáng tạo vào năm 1977 để mô tả nhanh phân bố dữ liệu Nó gồm 5 thành phần của phân bố dữ liệu: tối thiểu, Q1 (ngưỡng phần tư thứ nhất), trung vị, Q3 (ngưỡng phần tư thứ ba) và tối đa Hộp biểu diễn khoảng giữa Q1 và Q3, đường kẻ ở giữa hộp là giá trị trung vị, còn các râu kéo dài từ hộp đến các giá trị tối thiểu và tối đa; các điểm nằm ngoài râu (nếu có) được xem là ngoại lệ.

• Tứ phân vị thứ nhất (Q1)

• Tứ phân vị thứ ba (Q3)

2.2 ĐẶC TRƯNG CỦA BIỂU ĐỒ HỘP

Biểu đồ hộp giúp biểu diễn các đại lượng quan trọng của dãy số như giá trị nhỏ nhất (min), giá trị lớn nhất (max), tứ phân vị (quartile) và khoảng biến thiên tứ phân vị (Interquartile Range - IQR) một cách trực quan và dễ hiểu Boxplot cho biết vị trí của các quartile và độ rộng của IQR, từ đó người xem có cái nhìn ngắn gọn về phân bố và mức biến thiên của dữ liệu Nó cũng giúp nhận diện dữ liệu bất thường và so sánh các tập dữ liệu dựa trên min, max, Q1, Q3 và IQR một cách hiệu quả.

- Khoảng lệch tứ phân (Interquartile Range - IQR) được xác định như sau:

Với một dãy số liệu có n phần tử được sắp xếp theo thứ tự tăng dần

Các số tứ phân vị ký hiệu là Q1, Q2, Q3 là những số có vị trí:

Ví dụ 1: Cho dãy số -13.8; -19.8, 12; 13.6; 14.3; 25.5; 43.6; 36.3 Hãy tìm các số tứ phân vị

Bước 1: Sắp xếp lại dãy số trên theo thứ tự tăng dần:

Với n=8, ta có vị trí của các tứ phân vị như sau:

 Q1 nằm ở vị trí thứ 2 cộng cho 0.25 x (vị trí 3 – vị trí 2)

 Q2 nằm ở vị trí thứ 4 cộng cho 0.5 x (vị trí 5 – vị trí 4)

 Q3 nằm ở vị trí thứ 6 cộng cho 0.75 x (vị trí 7 – vị trí 6)

Giá trị -19.8 -13.8 -7.35 12 13.6 13.95 14.3 25.5 33.6 36.3 43.6 Khoảng lệch tứ phân (IQR):

Ví dụ 2: Một doanh nghiệp có 24 điểm bán hàng Số liệu về doanh thu (đv: triệu đồng) theo điểm bán được cho bởi dãy số liệu sau:

• Tìm trung bình, trung vị, mode của dãy trên

• Tìm phương sai, độ lệch chuẩn nếu xem doanh số các điểm bán hàng hình thành một đám đông

• Xác định các điểm tứ phân vị và vẽ biểu đồ Boxplot

Ví dụ 3: Một siêu thị thu thập số liệu bán hàng từ 20 người bán hàng của họ như sau:

Hãy tìm các số tứ phân vị thứ nhất và thứ ba của dãy trên

Ví dụ 4 mô tả một công ty sản xuất linh kiện điện tử theo dõi tỷ lệ làm lại (%) trong 3 giai đoạn sau khi thực hiện các thay đổi trong quy trình kiểm tra chất lượng Mục tiêu là giảm tỷ lệ sản phẩm bị làm lại sau khi kiểm tra nội bộ, từ đó nâng cao chất lượng và hiệu quả sản xuất Dữ liệu được trình bày bằng biểu đồ boxplot cho từng giai đoạn nhằm thể hiện phân phối và biến động của tỷ lệ làm lại Việc so sánh biểu đồ boxplot giữa ba giai đoạn giúp đánh giá ảnh hưởng của các thay đổi quy trình kiểm tra và nhận diện các yếu tố gây biến động Kết quả đánh giá dựa trên biểu đồ boxplot cho thấy xu hướng giảm hoặc biến động của tỷ lệ làm lại giữa các giai đoạn, từ đó cung cấp cơ sở để điều chỉnh quy trình nhằm tối ưu hóa chất lượng.

Bảng 1: Tỷ lệ làm lại (%) theo tháng

BIỂU ĐỒ PARETO

Trong thực tế, doanh nghiệp phải đối mặt với hàng loạt vấn đề cải tiến chất lượng Nếu không có phương thức xác định và ưu tiên những vấn đề quan trọng để tập trung giải quyết, nguồn lực sẽ bị phân tán, thời gian lãng phí và hiệu quả của các hoạt động cải tiến sẽ không cao Vì vậy, xây dựng hệ thống xác định mức độ ưu tiên, đánh giá tác động và lên kế hoạch hành động cho các vấn đề then chốt là cách tối ưu hoá nguồn lực, rút ngắn chu trình cải tiến và nâng cao chất lượng sản phẩm cũng như quy trình vận hành.

Biểu đồ Pareto là đồ thị hình cột thể hiện dữ liệu chất lượng được thu thập theo thứ tự từ cao xuống thấp nhằm xác định các vấn đề cần ưu tiên giải quyết trước Qua biểu đồ, người xem thấy rõ sai sót phổ biến nhất và thứ tự ưu tiên khắc phục, đồng thời đánh giá được kết quả của các hoạt động cải tiến chất lượng Nhờ vậy, biểu đồ Pareto giúp tập trung nguồn lực, nâng cao hiệu quả của quá trình cải tiến và kích thích tinh thần trách nhiệm của người lao động tham gia vào các sáng kiến cải tiến.

Đồ thị Pareto, do Vilfredo Pareto—nhà kinh tế học người Ý—đưa ra lần đầu để giải quyết các vấn đề kinh tế ở Ý, sau này được Joseph Juran—một nhà quản lý chất lượng người Mỹ—áp dụng từ những năm 1950 Nguyên tắc Pareto dựa trên quy tắc 80/20, cho thấy 80% ảnh hưởng của một vấn đề xuất phát từ 20% nguyên nhân chủ yếu, giúp xác định những yếu tố then chốt và tối ưu hóa nguồn lực để cải tiến chất lượng.

Hình 3.1: Biểu đồ Pareto thể hiện lỗi sản phẩm

3.2 XÂY DỰNG BIỂU ĐỒ PARETO:

Bước Nội dung thực hiện

1 Chuẩn bị một bảng checksheet để thu thập dữ liệu của các yếu tố gây ảnh hưởng đến chất lượng sản phẩm

2 Sắp xếp dữ liệu trong bảng từ lớn đến bé

3 Tính tỷ lệ phần trăm (%) của từng dạng sai sót

4 Xác định tỷ lệ phần trăm (%) tích lũy

Vẽ đồ thị cột theo tỷ lệ phần trăm của các dạng sai sót đã tính ở trên để trực quan hóa mức độ phổ biến của từng sai sót; sắp xếp thứ tự vẽ từ dạng sai sót có tỷ lệ lớn nhất đến nhỏ nhất, giúp nhận diện nhanh các sai sót chính và hỗ trợ phân tích dữ liệu hiệu quả.

6 Vẽ đường cong tích lũy theo số % tích lũy đã tính

7 Viết tiêu đề nội dung và ghi tóm tắt các đặc trưng của sai sốt lên đồ thị

Những cột có độ cao lớn biểu thị sai hỏng phổ biến nhất và nên được ưu tiên xử lý để cải thiện an toàn đường bộ Những cột này tương ứng với các đoạn đường cong có tốc độ tăng tần suất tích lũy nhanh nhất, hay nói cách khác là có độ dốc lớn nhất trong dữ liệu.

Những cột có giá trị thấp hơn đại diện cho sai hỏng ít quan trọng hơn, tương ứng với một đoạn trên đường cong có tần suất tích lũy tăng chậm và độ dốc nhỏ hơn Khi mức độ sai hỏng giảm, tần suất tích lũy tăng với tốc độ chậm hơn, cho thấy mối liên hệ trực tiếp giữa mức độ nghiêm trọng của sai hỏng và độ dốc của đường cong Do đó, nhận diện và phân tích các cột thấp giúp đánh giá rủi ro và ưu tiên xử lý các sai hỏng có tác động nhỏ, đồng thời cung cấp thông tin có giá trị cho quá trình ra quyết định và tối ưu hóa quy trình.

Ví dụ này cho thấy sau khi kiểm tra 400 xe máy Honda sản xuất tại Việt Nam, một số lỗi cơ bản được phát hiện và ghi nhận trong bảng dưới Để xác định các lỗi chiếm tỷ trọng cao và ưu tiên khắc phục, cần dựng biểu đồ Pareto dựa trên dữ liệu lỗi thu được Biểu đồ Pareto sẽ làm rõ các nguyên nhân lỗi chính và giúp phân bổ nguồn lực một cách hiệu quả nhằm tối ưu hóa chất lượng sản phẩm Việc tập trung cải tiến vào các lỗi có tần suất cao sẽ rút ngắn thời gian sửa chữa và giảm chi phí bảo trì.

TT Loại khuyết tật Số sản phẩm khuyết tật

Số sản phẩm khuyết tật

Tỷ lệ % các dạng khuyết tật

Tỷ lệ % khuyết tật tích lũy

Nhận xét: Nhìn vào biểu đồ biết được thứ tự thực hiện công việc:

Hàn Sơn Lắp ráp Tiện Khác

KHUYẾT TẬT CỦA 400 XE MÁY HONDA

Số sản phẩm khuyết tật Tỷ lệ % khuyết tật tích lũy

• Tập trung nguồn lực giải quyết dứt điểm những khuyết tật về hàn, sau đó đến các khuyết tật về sơn, lắp ráp, tiện và khuyết tật khác

Khuyết tật về hàn, sơn và lắp ráp có mối quan hệ cùng chiều, nghĩa là khi khắc phục được khuyết tật ở khâu hàn sẽ đồng thời làm giảm thiểu khuyết tật ở khâu sơn và lắp ráp Vì vậy, tập trung cải thiện khuyết tật hàn là bước then chốt để nâng cao chất lượng sản phẩm, giảm thiểu các sai hỏng về sơn và lắp ráp.

Hình 3.2: Biểu đồ Pareto các dạng lỗi được biểu diễn dưới dạng cột

Dựa trên điểm gãy của đường cong tích lũy, hai bộ phận đầu tiên là sơ chế thức ăn nóng và sơ chế thực phẩm nguội nằm ở vùng cần cải tiến trước, còn các bộ phận khác ở vùng ít quan trọng hơn Do đó, cần đề xuất các phương pháp cải tiến việc phân chia khẩu phần ở hai bộ phận này nhằm tối ưu chất lượng và an toàn thực phẩm đồng thời nâng cao hiệu quả vận hành Các giải pháp có thể bao gồm chuẩn hóa kích thước và trọng lượng khẩu phần, áp dụng quy trình chia khẩu phần tự động hoặc bán tự động, và tăng cường đào tạo nhân viên về vệ sinh, kiểm soát dinh dưỡng và tuân thủ các chuẩn an toàn Việc tập trung cải tiến ở hai bộ phận này sẽ đẩy mạnh hiệu suất tổng thể và đảm bảo an toàn thực phẩm cho toàn bộ quy trình chế biến.

Số sản phẩm khuyết tật

Khác Tiện Lắp ráp Sơn Hàn

KIỂM ĐỊNH TRUNG BÌNH 1 MẪU

Kiểm định One-Sample t Test trong Minitab là một phương pháp thống kê được dùng để kiểm tra xem trung bình của một mẫu có khác biệt đáng kể so với một giá trị giả định (giá trị trung bình kỳ vọng hay trung bình chuẩn) hay không Phương pháp này thích hợp khi độ lệch chuẩn population chưa biết và mẫu tuân theo phân phối chuẩn hoặc kích thước mẫu đủ lớn để giả định phân phối t Thước đo t được tính bằng công thức t = (x̄ − μ0) / (s/√n), trong đó x̄ là trung bình mẫu, μ0 là giá trị giả thuyết, s là độ lệch chuẩn mẫu và n là kích thước mẫu Kết quả trả về từ Minitab gồm t-statistic, bậc tự do df = n−1 và p-value, cho phép quyết định xem có thể bác bỏ giả thuyết rằng μ bằng μ0 ở mức ý nghĩa đã chọn hay không Nếu p-value nhỏ hơn α, kết luận trung bình mẫu khác biệt đáng kể so với giá trị giả định; ngược lại, không có đủ bằng chứng để kết luận khác biệt Ngoài ra, kết quả còn cung cấp khoảng tin cậy cho giá trị trung bình của quần thể để hiểu rõ mức độ ổn định của ước lượng.

2 KHI NÀO DÙNG T-TEST 1 MẪU?

Sử dụng t-test 1 mẫu khi:

• Dữ liệu là dạng phân phối chuẩn

• Một tập dữ liệu mẫu đơn

• Biết giá trị trung bình cần so sánh (ví dụ: tiêu chuẩn, quy định, giả thuyết )

• Không biết phương sai tổng thể (𝜎), chỉ biết phương sai mẫu (s) Nếu biết trước phương sai tổng thể thì dùng Z-test

3 CÁC ỨNG DỤNG TRONG THỰC TẾ:

3.1 Kiểm tra trọng lượng sản phẩm (Sản xuất):

Ứng dụng kiểm tra One-Sample t-Test với n = 30 túi được lấy mẫu ngẫu nhiên cho bài kiểm tra, với trọng lượng trung bình mẫu 98.7 g và độ lệch chuẩn 2.5 g so với cam kết 100 g T statistic tính được = (98.7 − 100) / (2.5 / √30) ≈ −2.85, df = 29 Giá trị p hai phía ≈ 0.008 cho thấy sự khác biệt trọng lượng trung bình thực tế so với 100 g là có ý nghĩa thống kê ở mức α = 0.05 Khoảng tin cậy 95% cho trọng lượng trung bình là khoảng 97.8 g đến 99.6 g, đồng nghĩa toàn bộ khoảng tin cậy nằm dưới 100 g Kết luận: trọng lượng trung bình của các túi hiện tại thấp hơn 100 g một cách có ý nghĩa thống kê.

• H1 (giả thuyết thay thế): Có sự khác biệt hay không (≠ 100)

Nếu P-value < 0.05 → Trọng lượng thực tế khác so với cam kết

→ Cần điều chỉnh quy trình

3.2 Kiểm tra hiệu quả điều trị (Y tế):

Trong nghiên cứu này, một loại thuốc giảm huyết áp được kỳ vọng làm giảm huyết áp trung bình xuống dưới 140 mmHg Nghiên cứu thực hiện trên 20 bệnh nhân; sau 4 tuần, huyết áp trung bình là 136.2 mmHg với độ lệch chuẩn 5.6 Mục tiêu là kiểm tra xem huyết áp trung bình sau điều trị có giảm đáng kể dưới 140 hay không bằng One-Sample t-Test Kết quả cho thấy t(19) ≈ -3.03, p-value một phía ≈ 0.003, cho thấy huyết áp trung bình sau điều trị thấp hơn 140 mmHg một cách có ý nghĩa Se = 5.6/√20 ≈ 1.253, do đó t = (136.2 - 140)/1.253 ≈ -3.03 Khoảng tin cậy 95% cho mu là khoảng 133.6–138.8 mmHg, cho thấy toàn bộ phạm vi tin cậy nằm dưới 140 mmHg.

• H1: (giả thuyết thay thế): μ < 140mmHg

• Dạng kiểm định: Một phía (left-tailed)

→ Nếu P-value < 0.05 → Thuốc có hiệu quả trong việc làm giảm huyết áp

3.3 Đánh giá chất lượng đào tạo (Giáo dục):

Một trung tâm đào tạo tiếng Anh cam kết học viên sau khóa học đạt TOEIC trung bình từ 600 trở lên Khảo sát trên 35 học viên cho thấy điểm trung bình mẫu là 585, độ lệch chuẩn 40 Để xác định giả thuyết liệu mức trung bình thực sự ≥ 600 có đúng như cam kết hay không, ta áp dụng kiểm định t một mẫu với mu0 = 600 Kết quả: t(34) = (585 − 600) / (40/√35) ≈ −2,22 và p-value một phía ≈ 0,016 Với mức ý nghĩa 5%, kết quả cho thấy không có bằng chứng để cho rằng mức trung bình thực tế bằng hoặc lớn hơn 600; ngược lại, có dấu hiệu cho thấy trung bình có thể nhỏ hơn 600 Khoảng tin cậy 95% cho μ là khoảng [571,3; 598,7], không chứa 600.

• Dạng kiểm định: Một phía (left-tailed)

→ Nếu P-value < 0.05 → Điểm không đạt như kỳ vọng → Xem xét lại chất lượng đào tạo

BÀI TẬP ỨNG DỤNG THỰC TẾ:

Trong một dây chuyền sản xuất dầu gội đầu hoạt động đúng chuẩn, các chai dầu gội sẽ có trọng lượng trung bình quanh 20 ounces Để kiểm tra chất lượng và đảm bảo tính đồng nhất của sản phẩm, một mẫu ngẫu nhiên gồm 9 chai dầu gội được đo trọng lượng và ghi nhận kết quả Kết quả đo trọng lượng của 9 chai sẽ cho phép tính toán trọng lượng trung bình mẫu và so sánh sai lệch với mục tiêu 20 ounces, từ đó đánh giá mức độ phù hợp của quá trình sản xuất với tiêu chuẩn chất lượng và cần thiết có sự điều chỉnh nếu có sai lệch.

Dữ liệu mẫu gồm n = 9 trọng lượng chai dầu lần lượt là 21.4, 19.7, 19.7, 20.6, 20.8, 20.1, 19.7, 20.3 và 20.9 g Giả sử trọng lượng các chai tuân theo phân bố Normal, ta tiến hành kiểm định giả thuyết ở mức ý nghĩa 5% để xác định xem dây chuyền có hoạt động đúng chuẩn hay không Trung bình mẫu là khoảng 20.36 g và độ lệch chuẩn mẫu khoảng 0.61 g Giả định trọng lượng mục tiêu μ0 = 20.0 g, kiểm định t với df = 8 cho giá trị t khoảng 1.76, nhỏ hơn ngưỡng tới hạn 2.306 ở mức ý nghĩa 5% hai phía, nên không thể bác bỏ giả thuyết H0 Kết quả cho thấy dữ liệu hiện tại không có bằng chứng để kết luận dây chuyền đang hoạt động ngoài giới hạn; với phân bố Normal và ý nghĩa 5%, dây chuyền có thể đang vận hành đúng chuẩn.

Ví dụ 2 mô tả quá trình kiểm định thời gian sản xuất trong phân xưởng cơ khí Giả sử thời gian trung bình để tiện hoàn tất chi tiết ống là không dưới 10 giây Để kiểm tra giả thuyết này, ta chọn ngẫu nhiên một mẫu gồm 10 chi tiết và ghi nhận thời gian hoàn tất từng chi tiết theo đơn vị giây Dữ liệu thời gian được ghi nhận sẽ được dùng cho phân tích thống kê nhằm so sánh với giả thuyết ban đầu, từ đó rút ra kết luận về hiệu suất sản xuất và khả năng đáp ứng chuẩn thời gian của quy trình gia công.

Ví dụ 3 mô tả Công ty ABC, một hãng sản xuất bình ắc quy, tiến hành kiểm tra chất lượng sản phẩm trước khi đóng gói và chuyển đi Mẫu kiểm tra gồm 9 ắc quy Công ty tin rằng tuổi thọ trung bình của ắc quy ít nhất là 50 giờ Từ số liệu quá khứ, công ty cho rằng phân bố tuổi thọ ắc quy là Normal, với các tham số μ và σ được ước lượng từ dữ liệu trước đó.

18 độ lệch chuẩn là 3 giờ Trung bình mẫu kiểm tra là 48.2g Hãy kiểm định ở mức ý nghĩa 10% giả thuyết của công ty

• Phân bố chuẩn / Normal distribution

• Trung bình mẫu cho trước / Sample Mean: 50

• Độ lệch chuẩn / Known Standard Deviation: 3

• Trung bình mẫu kiểm tra / Tested sample mean: 48.2

KIỂM ĐỊNH T-TEST HAI MẪU

2-Sample t-test (Two-sample t-test) là một phương pháp thống kê dùng để so sánh trung bình của hai nhóm độc lập nhằm xác định xem sự khác biệt giữa hai trung bình có ý nghĩa thống kê hay không Phương pháp này kiểm tra giả thuyết về sự khác biệt giữa hai trung bình dựa trên dữ liệu từ mẫu, giúp quyết định xem hai nhóm có khác nhau về giá trị trung bình trong tổng thể hay không Đây là công cụ hữu ích trong phân tích so sánh hiệu suất, kết quả thí nghiệm hoặc hành vi người dùng giữa hai nhóm độc lập, đồng thời đòi hỏi các giả định về phân phối và tính độc lập của mẫu để đảm bảo kết quả tin cậy.

• Ví dụ đơn giản: So sánh điểm trung bình của học sinh lớp A và lớp

2 KHI NÀO DÙNG T-TEST 2 MẪU?

• Hai nhóm độc lập (không liên quan đến nhau)

• Mỗi nhóm có dữ liệu dạng định lượng (số liệu liên tục)

• Dữ liệu của hai nhóm phân phối chuẩn hoặc gần chuẩn

• Phương sai hai nhóm bằng nhau hoặc không bằng nhau (sẽ chọn loại kiểm định phù hợp)

3 CÁC BƯỚC THỰC HIỆN 2-SAMPLE T-TEST

• H0: Trung bình hai nhóm bằng nhau (μ₁ = μ₂);

• H1: Trung bình hai nhóm khác nhau (μ₁ ≠ μ₂) Hoặc μ₁ > μ₂ hoặc μ₁ < μ₂ tùy theo mục tiêu kiểm định một phía hay hai phía

2 Chọn mức ý nghĩa (α) – thường là 0.05

3 So sánh hai phương sai (chuẩn Fisher)

4 Tính thống kê t và P-value

• Nếu P-value < α → Bác bỏ H0, có sự khác biệt đáng kể

• Nếu P-value ≥ α → Không bác bỏ H₀, chưa có bằng chứng đủ mạnh

6 Kết luận và diễn giải

4 CÁC ỨNG DỤNG TRONG THỰC TẾ:

4.1 So sánh điểm kiểm tra của hai lớp học:

• Lớp A có 30 học sinh, lớp B có 35 học sinh

• Mục tiêu: kiểm tra xem lớp nào học tốt hơn về Toán

• 2-Sample t-test sẽ xác định liệu điểm trung bình giữa hai lớp có chênh lệch đáng kể không

4.2 So sánh năng suất hai dây chuyền sản xuất:

• Dây chuyền 1 và dây chuyền 2 mỗi ngày sản xuất 10 mẫu thử nghiệm

• Sử dụng 2-Sample t-test để kiểm tra xem năng suất trung bình có khác nhau hay không

• Có thể hỗ trợ ra quyết định chuyển giao công nghệ hoặc cải tiến quy trình

4.3 So sánh hiệu quả của hai loại thuốc:

• Nhóm bệnh nhân A dùng thuốc X, nhóm B dùng thuốc Y

• Sau 30 ngày, đo nồng độ cholesterol

• Dùng 2-Sample t-test để xem loại thuốc nào hiệu quả hơn trong việc giảm cholesterol

4.4 Hành vi tiêu dùng giữa nam và nữ:

• Khảo sát chi tiêu trung bình mỗi tháng của 50 nam và 50 nữ

• Dùng 2-Sample t-test để kiểm định xem có sự khác biệt trong hành vi chi tiêu không

5 LƯU Ý KHI DÙNG 2-SAMPLE T-TEST:

• Hai nhóm phải độc lập: Không nên dùng 2-Sample t-test cho dữ liệu trước–sau trên cùng đối tượng (trong trường hợp đó dùng Paired t- test)

• Kiểm tra giả định phương sai (Equal hoặc Unequal) → để chọn loại t-test phù hợp

• Nếu dữ liệu không chuẩn và số lượng mẫu nhỏ, cân nhắc dùng phép kiểm phi tham số như Mann–Whitney U test

6 BÀI TẬP ỨNG DỤNG THỰC TẾ:

Ví dụ này chọn ngẫu nhiên 7 sinh viên của một trường đại học và ghi nhận điểm thi trung bình của họ ở năm thứ nhất và năm thứ hai, các giá trị được trình bày trong bảng dưới Để đánh giá xem có sự khác biệt về điểm trung bình giữa năm I và năm II ở mức ý nghĩa 5%, ta thực hiện kiểm định t ghép cho các quan sát ghép cặp Kết quả kiểm định sẽ cho p-value; nếu p-value < 0.05, khẳng định có sự khác biệt có ý nghĩa thống kê giữa hai năm; ngược lại, không có sự khác biệt đáng kể về điểm trung bình giữa năm I và năm II.

Ví dụ 2: Để so sánh chiều cao trung bình của thanh niên nam ở hai vùng dân cư A và B, người ta chọn ngẫu nhiên 10 thanh niên nam ở vùng

Vấn đề được trình bày là so sánh chiều cao trung bình giữa hai nhóm nam thanh niên ở hai vùng A và B dựa trên các số đo chiều cao (đơn vị cm) được cho trước Với mức ý nghĩa α = 0,01, ta thực hiện kiểm định giả thuyết để xác định liệu chiều cao trung bình giữa hai vùng có khác biệt hay không: H0: μA = μB và H1: μA ≠ μB Dữ liệu cho thấy hai mẫu độc lập và ta sẽ chọn phương pháp kiểm định phù hợp (ví dụ t-test hai mẫu độc lập hoặc z-test) tùy kích thước mẫu và giả định về phương sai Quyết định được đưa ra dựa trên giá trị p so với ngưỡng α = 0,01: nếu p-value < 0,01, kết luận có bằng chứng cho sự khác biệt về chiều cao trung bình giữa hai vùng; nếu không, không đủ bằng chứng để kết luận khác biệt ở mức ý nghĩa này.

Để đưa ra kết luận ở mức ý nghĩa 5%, cần bảng dữ liệu IQ của 20 trẻ (mẫu 10 nuôi bằng sữa mẹ và 10 nuôi bằng sữa công thức) Với dữ liệu này, người ta sẽ thực hiện kiểm định t hai mẫu độc lập, và nếu p-value < 0.05 thì kết luận có sự khác biệt có ý nghĩa giữa hai nhóm, ngược lại không có bằng chứng cho sự khác biệt.

TT Nhóm sữa mẹ Nhóm sữa công thức

Ví dụ 4 trình bày cách so sánh hiệu suất của hai máy tiện bằng cách đo thời gian cắt của mỗi máy trong 10 lần thử (đơn vị giây) Dữ liệu thu được sẽ được phân tích ở mức ý nghĩa 5% để xem liệu máy mới có thể cho thời gian cắt ngắn hơn máy cũ hay không Thông thường, người ta tính các tham số mô tả như trung bình và độ lệch chuẩn của thời gian cắt cho từng máy, sau đó tiến hành kiểm định giả thuyết với t-test hoặc các phương pháp phi tham số tùy thuộc vào phân phối dữ liệu Nếu giá trị p nhỏ hơn 0,05, ta có bằng chứng thống kê cho thấy máy mới cho thời gian cắt ngắn hơn và do đó được xem là tốt hơn máy cũ về hiệu suất gia công; ngược lại, nếu p ≥ 0,05, không có bằng chứng để kết luận sự cải thiện của máy mới.

TT Máy mới Máy cũ

KIỂM ĐỊNH CHI-SQUARED

Kiểm định Khi-Bình phương (Chi-Square Test) là một phương pháp thống kê được dùng để đánh giá sự khác biệt giữa tần suất quan sát được ghi nhận và tần suất kỳ vọng, hoặc để kiểm tra mối liên hệ giữa hai biến phân loại trong một tập dữ liệu Phương pháp này so sánh các tần số quan sát với các tần số kỳ vọng dưới giả thuyết độc lập, tính toán thống kê chi bình phương và xác định xem sự khác biệt có ý nghĩa thống kê hay chỉ do ngẫu nhiên, từ đó cho phép kết luận về sự phụ thuộc giữa các biến hoặc tính độc lập của chúng Thông qua bảng chéo (contingency table), kiểm định này giúp khám phá mối liên hệ giữa các biến như giới tính, độ tuổi, trình độ học vấn hoặc các đặc trưng phân loại khác trong dữ liệu.

- Dữ liệu phải là dạng phân loại (categorical)

- Các quan sát độc lập với nhau

- Kiểm định độc lập: Xác định xem hai biến phân loại có mối liên hệ với nhau hay không (ví dụ: giới tính và quyết định mua hàng)

Kiểm định độ phù hợp là quá trình so sánh tần suất quan sát được với tần suất mong đợi theo một phân phối lý thuyết cụ thể Mục đích của kiểm định này là đánh giá mức độ khớp giữa dữ liệu thực nghiệm và phân phối được giả định, từ đó xác định xem sự khác biệt có ý nghĩa hay chỉ là do biến động ngẫu nhiên Ví dụ phổ biến bao gồm kiểm tra với phân phối đều hoặc phân phối theo tỷ lệ cho trước, giúp xác định cách dữ liệu phân bổ như thế nào so với giả thuyết ban đầu.

4 CÁC ỨNG DỤNG THỰC TẾ:

• Kiểm tra kênh quảng cáo (Facebook, Google, TV) có ảnh hưởng đến hành động mua hàng

• Kiểm tra xem độ tuổi hoặc khu vực có ảnh hưởng đến mức độ hài lòng của khách hàng

• Kiểm tra xem phương pháp học nhóm, cá nhân, online có liên quan đến kết quả học tập

• Phân tích xem học sinh nam/nữ có xu hướng chọn chuyên ngành khác nhau không

• Kiểm tra xem giới tính có ảnh hưởng đến tỷ lệ mắc bệnh tiểu đường không

• So sánh tỷ lệ xuất hiện tác dụng phụ ở các nhóm tuổi khác nhau

- Trong sản xuất và quản lý chất lượng:

• Kiểm tra xem lỗi sản phẩm có liên quan đến máy móc hay ca làm việc không

• Kiểm tra xem nhà cung cấp khác nhau (A/B/C, ) có tỷ lệ lỗi sản phẩm khác nhau không

- Trong xã hội học & chính trị:

• Hành vi bầu cử: Kiểm tra xem độ tuổi hoặc khu vực địa lý có ảnh hưởng đến sự lựa chọn ứng viên

- Dữ liệu phải là dạng phân loại (categorical):

• Biến phân tích phải là biến rời rạc: giới tính, khu vực, loại sản phẩm, hành vi,…

• Không áp dụng cho biến liên tục như chiều cao, cân nặng, doanh thu, trừ khi đã phân loại thành nhóm

- Giá trị trong bảng là số đếm (frequencies), không phải tỷ lệ (%) hoặc trung bình:

• Dùng số lượng quan sát thực tế, không dùng phần trăm hoặc giá trị trung bình

• Ví dụ đúng: 20 người mua, 30 người không mua

• Ví dụ sai: 60% mua, 40% không mua

- Tần suất kỳ vọng nên ≥ 5 trong ít nhất 80% số ô:

• Quy tắc thường dùng: không quá 20% số ô có kỳ vọng nhỏ hơn 5

• Nếu vi phạm điều kiện này, kết quả kiểm định có thể sai lệch hoặc không tin cậy

Để đảm bảo tính khách quan và độ tin cậy của dữ liệu, mọi quan sát phải được thu thập với giả định về sự độc lập giữa các quan sát Điều này đồng nghĩa với việc không được lặp lại quan sát từ cùng một cá nhân hoặc cùng một sự kiện, tránh trùng lặp làm sai lệch kết quả Khi dữ liệu có liên hệ phụ thuộc, ví dụ cùng người trả lời nhiều lần hoặc nhiều quan sát có liên hệ với một nguồn, cần áp dụng phương pháp phân tích và thiết kế nghiên cứu phù hợp khác để đảm bảo bài toán thống kê được giải quyết đúng cách Việc nhận diện và xử lý các quan hệ phụ thuộc từ đầu giúp nâng cao tính hợp lệ nội dung và độ tin cậy của kết quả nghiên cứu.

- Kiểm định chỉ cho biết có hay không có mối liên hệ giữa các biến, không nói được mối quan hệ mạnh hay yếu

- Hãy kiểm tra giá trị kỳ vọng, đóng góp của từng ô (cell contribution) để xác định yếu tố nào gây khác biệt Minitab có bảng

“Contribution to Chi-Square” giúp xác định ô nào lệch nhiều nhất

- Nếu cỡ mẫu quá nhỏ, kiểm định Khi-Bình phương dễ cho kết luận sai

6 CÔNG THỨC TÍNH 𝝌 𝟐 VÀ P-VALUE:

• Oij: tần số quan sát hàng i cột j (Observed frequency)

• Eij: Tần suất kỳ vọng hàng i cột j (Expected frequency)

Dùng hàm excel để lấy giá trị tra bảng:

=CHISQ.INV.RT(Probability, df)

- Probability là mức ý nghĩa (thường là 0.05)

- df: là bậc tự do được tính bằng ( r −  − 1 ) ( c 1 ) Trong đó r là số hàng và c là số cột

- Nếu 𝝌 𝟐 < 𝝌 𝜶 𝟐 ⇒ Chấp nhận giả thuyết H0, kết luận 2 đại lượng có mối liên hệ

- Nếu 𝝌 𝟐 > 𝝌 𝜶 𝟐 ⇒ Bác bỏ giả thuyết H0, kết luận 2 đại lượng không có mối liên hệ

Dùng excel để tính giá trị P-value bằng hàm:

=CHISQ.DIST.RT(x, deg_freedom)

- x: là giá trị 𝜒 2 tính toán được

- deg_freedom: là bậc tự do được tính bằng ( r −  − 1 ) ( c 1 ) Trong đó r là số hàng và c là số cột

- Nếu P-value > α ⇒ Chấp nhận giả thuyết H0, kết luận 2 đại lượng có mối liên hệ

- Nếu P-value < α ⇒ Bác bỏ giả thuyết H0, kết luận 2 đại lượng không có mối liên hệ

Trường hợp tính thủ công:

- Nếu 𝝌 𝟐 < 𝝌 𝜶 𝟐 ⇒ kết luận 2 đại lượng có mối liên hệ

- Nếu 𝝌 𝟐 > 𝝌 𝜶 𝟐 ⇒ kết luận 2 đại lượng không có mối liên hệ

Trường hợp tính bằng Minitab:

- Nếu P-value > α ⇒ kết luận 2 đại lượng có mối liên hệ

- Nếu P-value < α ⇒ kết luận 2 đại lượng không có mối liên hệ

Ví dụ 1 (Chất lượng) mô tả cách đánh giá hiệu quả tăng chất lượng của một biện pháp công nghệ mới trên một dây chuyền sản xuất bằng cách thu thập số liệu và trình bày trong bảng dưới đây Với mức ý nghĩa α = 0,05, ta tiến hành kiểm định thống kê để xác định xem việc áp dụng công nghệ mới và chất lượng có liên quan hay không Kết quả kiểm định sẽ cho biết p-value; nếu p-value < 0,05, kết luận có liên quan và công nghệ mới được cho là có tác động đến chất lượng; ngược lại, nếu p-value ≥ 0,05, không có bằng chứng cho thấy sự liên quan giữa công nghệ mới và chất lượng.

Phế phẩm (cái) Tổng hàng

- H0: Công nghệ mới và chất lượng độc lập (không liên quan)

- H1: Chất lượng phụ thuộc vào công nghệ mới (có liên quan)

Tra bảng ta hoặc dùng hàm ta được 0.05,1 2 =3.84

Ra quyết định: χ 2 = 10 > χ 0.05,1 2 = 3.84 ⇒Bác bỏ H0

Hoặc tính P-value bằng hàm excel:

Ra quyết định: P-value = 0.002 < 0.05 ⇒ Bác bỏ H 0

*Thực hiện trong Minitab ví dụ trên để kiểm chứng kết quả

Ví dụ 2 trình bày kết quả điều trị trên hai nhóm bệnh nhân: một nhóm dùng thuốc và một nhóm dùng giả dược, được tóm tắt trong bảng dưới đây Với mức ý nghĩa 5%, phân tích xác định xem tỷ lệ khỏi bệnh ở nhóm dùng thuốc có khác với nhóm giả dược hay không Kết quả cho biết có hay không có sự khác biệt về tỷ lệ khỏi bệnh giữa hai nhóm ở mức ý nghĩa này, từ đó đánh giá hiệu quả của thuốc so với giả dược dựa trên dữ liệu trong bảng.

- H 0 : Không có sự khác biệt về tỷ lệ khỏi bệnh giữa nhóm dùng thuốc và nhóm dùng giả dược (hiệu quả tương đương)

- H 1 : Có sự khác biệt về tỷ lệ khỏi bệnh giữa hai nhóm (hiệu quả khác nhau)

Biện pháp điều trị Khỏi bệnh Không khỏi bệnh

→ Nghĩa là công nghệ mới và chất lượng có liên quan với nhau, cụ thể là việc áp dụng công nghệ mới đã làm tăng chất lượng sản phẩm.

Ví dụ 3 mô tả một kỹ sư chất lượng tại một nhà máy sản xuất ô muốn kiểm tra xem máy ép và ca làm việc có liên quan với nhau về số lượng ô bị loại bỏ hay không Với mức ý nghĩa α = 0.05, kỹ sư tiến hành kiểm định giả thuyết nhằm xác định sự liên quan giữa thiết bị và ca làm việc đối với số lượng ô bị loại bỏ, từ đó đưa ra quyết định cải thiện quy trình sản xuất.

- H 0 : Máy ép và ca làm việc không liên quan với nhau về số lượng ô bị loại bỏ (hai biến độc lập)

- H 1 : Máy ép và ca làm việc có liên quan với nhau về số lượng ô bị loại bỏ (hai biến không độc lập)

Machine ID (Máy) Ca 1 Ca 2 Ca 3 Tổng

Ví dụ 4 mô tả bốn thầy giáo A, B, C và D giảng cùng một giáo trình thống kê Ban chủ nhiệm khoa tiến hành một cuộc khảo sát nhằm đánh giá chất lượng giảng dạy của từng thầy dựa trên kết quả học tập của sinh viên Kết quả thu được từ bảng khảo sát cho thấy sự khác biệt về tỷ lệ đỗ giữa học sinh được giảng dạy bởi các thầy Với mức ý nghĩa 1%, có thể kết luận rằng tỷ lệ đỗ của sinh viên học với các thầy A, B, C và D khác nhau một cách đáng kể, cho thấy chất lượng giảng dạy có sự biến thiên giữa các thầy và cần xem xét thêm các yếu tố ảnh hưởng.

C, D là như nhau được không?

- H 0 : Tỷ lệ đỗ như nhau giữa các thầy A, B, C, D

- H 1 : Tỷ lệ đỗ khác nhau giữa các thầy

Giáo viên Đạt Không đạt

Ví dụ 5 mô tả một cuộc khảo sát tại thành phố X nhằm xác định cơ cấu phương tiện giao thông được công chức sử dụng khi đi làm Nghiên cứu được thực hiện trên hai nhóm giới tính là nam và nữ, với kết quả trình bày trong bảng dữ liệu đi kèm Dựa trên mức ý nghĩa 1%, câu hỏi nghiên cứu là có sự khác biệt về cơ cấu sử dụng phương tiện giao thông giữa hai nhóm nam và nữ hay không, từ đó đánh giá tác động của giới tính đến lựa chọn phương tiện đi làm.

- H 0 : Cơ cấu sử dụng phương tiện giao thông là như nhau giữa nam và nữ

- H 1 : Cơ cấu sử dụng phương tiện giao thông là khác nhau giữa nam và nữ

Giới tính Xe máy Xe buýt Xe đạp

Ví dụ 6 mô tả cách so sánh tác dụng của hai loại vaccine A và B bằng cách tiêm cho 348 trẻ em, được chia thành hai nhóm: một nhóm tiêm vaccine A, nhóm kia tiêm vaccine B Kết quả phản ứng được ghi trong bảng dưới Với mức ý nghĩa 5%, phân tích so sánh giữa vaccine A và vaccine B về mức độ phản ứng được thực hiện bằng các phương pháp thống kê phù hợp (ví dụ kiểm định chi-square hoặc Fisher exact) để xác định xem có sự khác biệt đáng kể hay không Kết quả sẽ cho biết vaccine nào có tỉ lệ phản ứng cao hơn hoặc cho thấy hai vaccine không khác biệt về tác động phản ứng.

• H0: Không có sự liên quan giữa vaccines và mức độ phản ứng

• H1: Có sự liên quan giữa vaccines và mức độ phản ứng

Vaccine Nhẹ Trung bình Mạnh

PHÂN TÍCH ANOVA 1 YẾU TỐ

One-way ANOVA (phân tích phương sai một yếu tố) là phương pháp thống kê dùng để kiểm định xem có sự khác biệt có ý nghĩa thống kê về trung bình giữa hai hoặc nhiều nhóm dựa trên một yếu tố phân loại (biến độc lập) Phương pháp này so sánh các giá trị trung bình giữa các nhóm và cho biết mức độ khác biệt giữa chúng thông qua giả thuyết về sự đồng nhất trung bình và chỉ số F Kết quả cho phép xác định nhóm nào có trung bình khác biệt hoặc kết luận rằng các nhóm có trung bình bằng nhau ở mức ý nghĩa được chọn, với các giả định như phân phối chuẩn và đồng nhất phương sai giữa các nhóm được xem xét One-way ANOVA thường được dùng trong nghiên cứu so sánh ảnh hưởng của một yếu tố phân loại lên biến phụ thuộc, giúp phát hiện sự tác động của yếu tố đó lên trung bình tổng thể của dữ liệu.

- One-way nghĩa là có một yếu tố phân loại duy nhất (ví dụ: loại thuốc, loại sản phẩm, phương pháp giảng dạy, )

- Mỗi yếu tố đó có nhiều mức (levels) — ví dụ: nếu yếu tố là “loại phân bón”, thì các mức có thể là A, B, C,

- Kiểm tra trung bình của các nhóm (khi biến độc lập là phân loại, biến phụ thuộc là định lượng)

- Câu hỏi ví dụ: Liệu ba máy sản xuất có cho sản phẩm có trung bình trọng lượng khác nhau không?

- Kiểm tra xem 3 phương pháp học khác nhau (A, B, C) có ảnh hưởng khác nhau đến điểm thi của sinh viên không

- Giả thuyết không (H 0 ): Các nhóm có cùng trung bình

- Giả thuyết đối (H 1 ): Có ít nhất một cặp trung bình khác nhau

- Các nhóm độc lập với nhau

- Phân phối chuẩn trong từng nhóm

- Phương sai đồng nhất giữa các nhóm (homogeneity of variance)

5 PHÂN TÍCH ANOVA THỦ CÔNG:

Nguyên lý của ANOVA (phân tích phương sai) cho biết khi các giá trị trung bình của các nhóm không bằng nhau, sự khác biệt giữa các nhóm sẽ là nguồn chính của biến thiên dữ liệu Trong khi đó, độ lệch trung bình của mẫu phản ánh biến thiên Within-group và thường ở mức tương đối nhỏ so với độ lệch giữa các nhóm Nhờ phân tách tổng biến thiên thành biến thiên giữa các nhóm và biến thiên Within, ANOVA cho phép đánh giá xem sự khác biệt về trung bình giữa các nhóm có ý nghĩa thống kê hay không và hỗ trợ quyết định so sánh giữa các nhóm một cách hiệu quả.

Nguồn Tổng bình phương df Trung bình bình phương Tỷ số F

- SSTO: Tổng bình phương (df = n – 1)

- SSTR: Tổng bình phương của nhân tố (df = r – 1)

- SSE: Tổng bình phương của sai số (df = n – r)

Trung bình bình phương của nhân tố và sai số:

Trị thống kê: Trong phân tích ANOVA thì tỷ số MSTR

MSE sẽ tuân theo phân bố F, có bậc tự do tử số là r – 1, bậc tự do mẫu số là n – r khi giả thuyết

Ví dụ: cho bảng số liệu từ ba đám đông như ở bảng dưới Kiểm định giả thuyết sau với mức ý nghĩa 1% Đám đông 1 Đám đông 2 Đám đông 3

Toàn bộ kết quả được trình bày trong bảng dưới:

Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F

- Tra giá trị tới hạn F (F critical value):

=F.INV.RT(probability, deg_freedom1, deg_freedom2)

Probability: mức ý nghĩa α (ví dụ: 0.05, 0.01) deg_freedom1: bậc tự do ở tử số (r − 1) deg_freedom2: bậc tự do ở mẫu số (n − r)

Vì F = 37.62 > F α = 8.65 ⇒ Bác bỏ H 0 Kết luận: Trị trung bình của 3 mẫu trên là khác nhau

Ví dụ: So sánh độ cứng bốn loại sơn bằng One-Way ANOVA

Một kỹ sư hóa học muốn so sánh độ cứng (hardness) của bốn loại hỗn hợp sơn (blends) Cho mỗi loại sơn, 6 mẫu được phun lên kim loại, sau đó bảo dưỡng và đo độ cứng

- H 0 (giả thuyết không): Trung bình độ cứng của tất cả các loại sơn bằng nhau

- H₁ (giả thuyết đối): Có ít nhất một loại sơn có độ cứng khác biệt

- H0 (giả thuyết không): Trung bình độ cứng của tất cả các loại sơn bằng nhau

- H1 (giả thuyết đối): Có ít nhất một loại sơn có độ cứng khác biệt

Với P-value = 0.004 (nhỏ hơn 0.05) → bác bỏ H₀

→ Tức là có sự khác biệt độ cứng đáng kể giữa ít nhất hai loại sơn

• Đây là sai số chuẩn của hồi quy (Standard error of the regression) hay còn gọi là độ lệch chuẩn của phần dư (residuals)

• Ý nghĩa: Trung bình mỗi giá trị quan sát lệch khỏi trung bình nhóm khoảng 3.95 đơn vị

• Giá trị càng nhỏ → mô hình càng phù hợp, tức là các điểm dữ liệu gần trung bình nhóm hơn

• Đây là hệ số xác định R² (R-squared): Cho biết tỷ lệ phần trăm phương sai của biến phụ thuộc (Y) được giải thích bởi yếu tố phân loại (Paint)

• Ý nghĩa: Khoảng 47.44% biến động của độ cứng được giải thích bởi sự khác nhau giữa các loại sơn

• R² càng cao → mô hình càng giải thích được nhiều về dữ liệu Tuy nhiên với ANOVA, R² không phải là chỉ số chính để kết luận có khác biệt nhóm hay không — P-value mới là chỉ số then chốt

• Đây là R² điều chỉnh (Adjusted R-squared): giống R² nhưng có điều chỉnh cho số nhóm (predictors) và kích thước mẫu

• Nó hữu ích hơn R² khi bạn so sánh mô hình có số nhóm khác nhau

• Đây là R² dự đoán (Predicted R-squared): Ước lượng khả năng mô hình dự đoán tốt đến mức nào với dữ liệu mới (ngoài tập huấn luyện)

• Trong trường hợp này, chỉ 24.32% phương sai có thể được giải thích cho dữ liệu mới

Chú ý: Nếu R-sq(pred) thấp hơn nhiều so với R² hoặc R²(adj), đây có thể là dấu hiệu cho thấy mô hình không ổn định hoặc đang bị overfit, đặc biệt khi mẫu dữ liệu nhỏ Sự chênh lệch lớn này cho thấy mô hình có khả năng khớp quá mức với dữ liệu huấn luyện và kém tổng quát trên dữ liệu mới Để cải thiện độ ổn định và hiệu suất dự báo, cân nhắc giảm độ phức tạp của mô hình, tăng kích thước mẫu hoặc áp dụng các kỹ thuật điều chỉnh như regularization.

- Những nhóm không chia sẻ cùng một chữ cái (A/B) là khác biệt về mặt thống kê

- Ví dụ: Blend 4 (A) khác Blend 2 (B), vì không có chung chữ A hoặc B

- Khoảng tin cậy giữa Blend 4 và Blend 2 là (3.114, 15.886) – không chứa 0 → khác biệt có ý nghĩa thống kê

- Những cặp còn lại chứa 0 → không có khác biệt rõ ràng giữa các cặp đó

7 GIẢI THÍCH CÁC TÙY CHỌN SO SÁNH:

• Chỉ so sánh các nhóm với một nhóm đối chứng (control group), không so sánh tất cả các cặp

• Hiệu quả khi bạn chỉ quan tâm đến việc nhóm nào khác biệt với nhóm chuẩn

Ví dụ: Control group level: 'Buổi sáng' → Nghĩa là nhóm “Buổi sáng” là chuẩn để:

• So sánh buổi trưa với buổi sáng

• So sánh buổi tối vs buổi sáng

→Nhưng không so sánh Buổi trưa vs Buổi tối

7.2 Fisher (LSD – Least Significant Difference)

• So sánh từng cặp trung bình nhưng không kiểm soát tốt sai số loại I tổng thể nếu có nhiều nhóm

• Chỉ nên dùng khi ANOVA cho kết quả có ý nghĩa thống kê (p < 0.05)

• Nhạy hơn (phát hiện dễ hơn) nhưng nguy cơ kết luận sai cao hơn nếu dùng sai cách

→ Nói cách khác: ít nghiêm ngặt hơn Tukey

7.3 Hsu MCB (Multiple Comparisons with the Best)

• So sánh các nhóm với nhóm có trung bình tốt nhất, thường dùng khi ta muốn tìm "nhóm tốt nhất" hoặc "hiệu quả nhất”

• Thích hợp trong tối ưu hóa sản phẩm, thử nghiệm công nghiệp

Best: Largest mean is best → Nghĩa là so với nhóm có giá trị trung bình lớn nhất

So sánh tất cả các nhóm Tukey

So sánh với nhóm chuẩn Dunnett Đơn giản, ít nhóm, chấp nhận rủi ro Fisher

Tìm nhóm tốt nhất Hsu MCB

Ví dụ 1: Ở một bệnh viện lớn, số ca cấp cứu được ghi nhận từ 5 ngày ngẫu nhiên Với mức ý nghĩa 5%, ta kiểm tra xem số ca cấp cứu trung bình ở ba buổi trong ngày—sáng, chiều và tối—có bằng nhau hay không Kết quả kiểm định sẽ cho biết nên chấp nhận hay bác bỏ giả thuyết đồng nhất về số ca cấp cứu giữa ba khung giờ này.

Buổi sáng Buổi chiều Buổi tối

- H0: Số ca cấp cứu trung bình trong 3 buổi là như nhau (P≥0.05)

- H1: Số ca cấp cứu trung bình trong 3 buổi là khác nhau (P 0.22 (tỷ lệ thực tế cao hơn 22%)

KIỂM ĐỊNH TỶ LỆ 2 MẪU

Kiểm định hai tỷ lệ (2-Proportions Test) là một phép kiểm định giả thuyết dùng để so sánh hai tỷ lệ phần trăm độc lập từ hai nhóm khác nhau, nhằm xem sự khác biệt giữa chúng có ý nghĩa thống kê hay không Phương pháp này dựa trên dữ liệu từ hai mẫu độc lập và cho phép đánh giá xem liệu sự khác biệt observed giữa hai tỷ lệ có thể được giải thích bằng ngẫu nhiên hay không Việc áp dụng kiểm định này giúp người phân tích đưa ra kết luận có cơ sở khoa học về hiệu quả hoặc tác động của một yếu tố đối với hai nhóm và hỗ trợ quyết định dựa trên bằng chứng.

Ví dụ điển hình cho phân tích chất lượng là so sánh tỷ lệ sản phẩm lỗi giữa hai dây chuyền sản xuất để đánh giá hiệu suất và phát hiện sự khác biệt Dữ liệu ở dạng nhị phân thường được dùng là thành công/thất bại hoặc có/không, đúng/sai, cho phép ước lượng tỷ lệ lỗi và so sánh giữa các nhóm Để đưa ra kết luận đáng tin cậy, người làm phân tích có thể tính toán tỷ lệ lỗi theo từng dây chuyền và áp dụng các kiểm định thống kê phù hợp như chi-squared hoặc Fisher Exact để xem sự khác biệt có ý nghĩa hay không, từ đó tối ưu hoá quy trình sản xuất và nâng cao hiệu quả Kết quả phân tích giúp nhận diện nguyên nhân tiềm ẩn và hỗ trợ quyết định cải tiến chất lượng.

Phương pháp này dùng để kiểm tra xem một thay đổi, biện pháp hoặc điều kiện có dẫn đến kết quả tốt hơn hay xấu hơn về mặt tỉ lệ phần trăm Ý tưởng chính là so sánh tỉ lệ khỏi bệnh giữa nhóm được can thiệp và nhóm đối chứng (ví dụ nhóm dùng giả dược) để đánh giá sự khác biệt Kết quả được diễn giải thông qua mức chênh lệch tỉ lệ khỏi bệnh và có thể được kiểm định bằng các phương pháp thống kê nhằm xác định xem sự khác biệt là ngẫu nhiên hay có ý nghĩa thực tế Ví dụ điển hình là so sánh tỉ lệ khỏi bệnh giữa nhóm dùng thuốc và nhóm dùng giả dược.

Để xác định xem hai nhóm độc lập có sự khác biệt thực sự về kết quả hay không, chúng ta kiểm tra sự khác biệt giữa các chỉ số kết quả và đánh giá tính hợp lệ của sự khác biệt đó Ví dụ điển hình là so sánh tỷ lệ khách hàng hài lòng tại hai chi nhánh khác nhau để xem sự chênh lệch có ý nghĩa thống kê hay chỉ là ngẫu nhiên Quá trình này thường bắt đầu với giả thuyết H0 cho rằng hai chi nhánh có cùng tỷ lệ hài lòng, sau đó chọn phương pháp kiểm định phù hợp và diễn giải kết quả dựa trên giá trị p và khoảng tin cậy, từ đó rút ra kết luận về sự khác biệt thực sự giữa hai nhóm độc lập.

Việc ra quyết định dựa trên dữ liệu dựa vào kết quả kiểm định cho phép doanh nghiệp hoặc nhà nghiên cứu duy trì phương pháp hiện tại khi không có sự khác biệt, hoặc thay đổi và áp dụng những cải tiến mới khi có bằng chứng thể hiện hiệu quả Ví dụ, nếu dây chuyền sản xuất B có tỷ lệ lỗi thấp hơn đáng kể so với dây chuyền A, doanh nghiệp có thể xem xét áp dụng các yếu tố thành công từ dây chuyền B vào dây chuyền A để nâng cao hiệu suất và chất lượng tổng thể.

Đây là một công cụ phân tích dữ liệu phổ biến trong các lĩnh vực y học, xã hội học, giáo dục và hành vi, giúp các nhà nghiên cứu đánh giá kết quả và rút ra các kết luận có giá trị Ví dụ điển hình là so sánh tỷ lệ học sinh đạt điểm cao giữa hai phương pháp giảng dạy để đo lường hiệu quả của từng phương pháp và từ đó tối ưu chương trình giảng dạy Quá trình sử dụng công cụ này bao gồm thu thập dữ liệu, xác định các chỉ số đo lường phù hợp và thực hiện phân tích thống kê nhằm tạo ra kết quả tin cậy và có thể áp dụng vào thực tiễn giảng dạy và nghiên cứu.

Đánh giá tác động của cải tiến hoặc thay đổi quy trình là bước thiết yếu để xác định hiệu quả và ảnh hưởng thực tế lên kết quả hoạt động Trước và sau khi thực hiện thay đổi, người ta có thể dùng test hai tỷ lệ (two-proportions test) để so sánh các chỉ số liên quan giữa hai nhóm và từ đó ước lượng tác động của cải tiến Test hai tỷ lệ giúp kiểm định giả thuyết H0 rằng hai tỷ lệ bằng nhau và quyết định xem sự khác biệt có ý nghĩa thống kê hay không Quy trình thực hiện gồm xác định hai nhóm liên quan, lựa chọn mức ý nghĩa, tính toán p-value và khoảng tin cậy cho sự khác biệt giữa hai tỷ lệ, từ đó hỗ trợ quyết định có nên mở rộng hoặc điều chỉnh quy trình.

• Trước khi đào tạo: 70% nhân viên đạt tiêu chuẩn

• Sau đào tạo: 85% nhân viên đạt tiêu chuẩn

• Có phải đào tạo thực sự hiệu quả không?

Tóm tắt: 2 Proportions Test được sử dụng khi bạn muốn kiểm tra:

- Sự khác biệt tỷ lệ giữa hai nhóm độc lập

- Đánh giá hiệu quả của một thay đổi

- Hỗ trợ quyết định cải tiến hoặc giữ nguyên

- Đảm bảo quyết định dựa trên bằng chứng thống kê, không phải cảm tính

- H0: p1 = p2: Tức là không có sự khác biệt giữa hai tỷ lệ

- H1: Tùy vào mục đích nghiên cứu, ta chọn một trong 3 dạng:

Dạng kiểm định H 1 Khi nào dùng

Hai phía (≠) p1 ≠ p2 Kiểm tra có sự khác biệt, không quan tâm lớn hay nhỏ Một phía () p1 > p2 Kiểm tra nhóm 1 có tỷ lệ lớn hơn nhóm 2

Ví dụ 1 mô tả một cán bộ hỗ trợ tài chính tại trường đại học muốn xác định xem sinh viên nam hay sinh viên nữ có khả năng kiếm việc làm trong mùa hè cao hơn Dữ liệu từ khảo sát sinh viên và hồ sơ tuyển dụng được phân tích để so sánh hai giới về cơ hội tìm kiếm và nhận việc làm mùa hè, thời gian tìm việc và mức độ cạnh tranh ở các ngành Kết quả cho thấy có sự khác biệt giữa nam và nữ tùy thuộc vào ngành học và yếu tố liên quan khác, từ đó trường có thể điều chỉnh các hoạt động tư vấn nghề nghiệp và chương trình hỗ trợ tài chính để tối ưu hóa cơ hội việc làm cho sinh viên mùa hè.

- Nam: 802 người, trong đó 725 người có việc làm

- Nữ: 712 người, trong đó 573 người có việc làm

Với mức ý nghĩa 5%, hãy nhận định xem tỷ lệ sinh viên nam và nữ có việc làm vào mùa hè có khác nhau không?

- H0: Không có khác biệt về tỷ lệ có việc làm

- H1: Có sự khác biệt về tỷ lệ có việc làm

1 Chọn Stat > Basic Statistics > 2 Proportions

2 Từ danh mục sổ xuống, chọn Summarized data

3 Sample 1 (Nam): Number of events = 725 (số người có việc) Number of trials = 802 (tổng số nam)

4 Sample 2 (Nữ): Number of events = 573 Number of trials = 712

5 Nhấn OK để thực hiện kiểm định

- Kết quả phân tích trên Minitab:

Method p₁: proportion where Sample 1 = Event p₂: proportion where Sample 2 = Event

Difference: p₁ - p₂ Định nghĩa rõ ràng tỷ lệ p1 của sample 1, p2 của sample 2 Sự khác biệt tính bằng p1 – p2

- N: tổng số quan sát của mỗi nhóm

- Event: là số lượng thành công

CI based on normal approximation Ước lượng tỷ lệ chênh lệch p 1 – p 2 :

- Nam có tỷ lệ có việc làm cao hơn nữ khoảng 9.9%

- 95% chắc chắn rằng chênh lệch thực sự trong tổng thể nằm trong khoảng từ 6.37% đến 13.48%

Vì giá trị P=0.000, nhỏ hơn mức ý nghĩa 0.05, nên nhân viên hỗ trợ tài chính bác bỏ giả thuyết

H0 Kết quả cho thấy có sự khác biệt giữa tỷ lệ sinh viên nam và tỷ lệ sinh viên nữ có việc làm thêm mùa hè

Note: Minitab offers the option “Use pooled estimate of proportion,” which combines the two samples to estimate a common proportion This approach should be used only when the null hypothesis is H0: p1 = p2.

- x x 1 , 2 : số lần thành công của mỗi nhóm

- n n 1 , 2 : tổng số quan sát của mỗi nhóm

Ví dụ từ bài toán trên:

Pooled proportion là tỷ lệ thành công chung của hai nhóm được gộp lại, đại diện cho ước lượng tốt nhất cho tỷ lệ thành công chung khi giả định không có sự khác biệt giữa hai nhóm Việc sử dụng pooled proportion giúp ước lượng tỷ lệ thành công chung một cách ổn định và nhất quán, phục vụ cho các phân tích so sánh và kiểm định giả thuyết về sự giống nhau giữa các nhóm.

- Minitab (và nhiều phần mềm thống kê) sử dụng pooled proportion để tính phương sai (variance) trong phép kiểm định Z của 2 tỷ lệ

Ví dụ 2: Coca-Cola đang nghiên cứu công thức mới và so sánh tỉ lệ người thích giữa công thức cũ và công thức mới Dữ liệu: công thức cũ n1=500, x1=120 (p1̂=0,24); công thức mới n2=1000, x2=300 (p2̂=0,30) Với α=0,02, ta kiểm định H0: p1 = p2 và Ha: p2 > p1 để xem công thức mới có làm tăng tỉ lệ người thích không Pooled p̂ = (120+300)/(500+1000) = 0,28 Sai số chuẩn SE = sqrt(p̂(1−p̂)(1/n1+1/n2)) ≈ sqrt(0,28×0,72×(0,002+0,001)) ≈ 0,0246 Hiệu số p2̂ − p1̂ = 0,06; z = 0,06/0,0246 ≈ 2,44 Với mức ý nghĩa α=0,02, z_critical một phía khoảng 2,05; z = 2,44 > 2,05 nên bác bỏ H0, kết luận công thức mới làm tăng tỉ lệ người thích Coca-Cola có ý nghĩa thống kê.

Công thức Số người ưa thích

Tổng số người thử (N) (Number of Trials)

- H0: p1 ≥ p2: Công thức mới không tăng tỷ lệ ưa thích

- H1: p1 < p2:Công thức mới làm tăng tỷ lệ ưa thích

Dữ liệu cho hai nhóm: nam n1 = 100, x1 = 42 (p1̂ = 0.42) và nữ n2 = 200, x2 = 92 (p2̂ = 0.46) Tỷ lệ gộp p̂ = (42 + 92) / (100 + 200) ≈ 0.4467 Sai số chuẩn của hiệu hai tỷ lệ SE ≈ sqrt[p̂(1 − p̂)(1/n1 + 1/n2)] ≈ sqrt(0.4467×0.5533×(0.01 + 0.005)) ≈ 0.0609 Thống kê z ≈ (0.42 − 0.46) / 0.0609 ≈ −0.66 P-value hai-ta ≈ 0.51 Kết luận: α = 0.05, không có bằng chứng cho thấy tỷ lệ cử tri nam và nữ bỏ phiếu cho ứng viên A khác nhau trong dữ liệu mẫu này.

Nhóm Số người ủng hộ A

Tổng số được hỏi (N) (Number of Trials)

- H0: p1 = p2: Không có khác biệt về tỷ lệ ủng hộ ứng viên A

- H1: p1 ≠ p2:Có khác biệt về tỷ lệ ủng hộ ứng viên A

Ví dụ 4: Hai giáo sư A và B cùng dạy một môn ở hai trường đại học lớn Trong 400 sinh viên theo học giáo sư A có 80 sinh viên thi trượt, và trong 500 sinh viên theo học giáo sư B có 120 sinh viên thi trượt Đặt H0: hai giáo sư có cùng tỷ lệ trượt, Ha: hai tỷ lệ trượt khác nhau Tỷ lệ trượt của A là 0.20, của B là 0.24, chênh lệch p1 − p2 = −0.04 Dùng kiểm định hai mẫu tỉ lệ với p̂ gộp = (80 + 120)/(400 + 500) = 200/900 ≈ 0.2222, sai số chuẩn SE = sqrt[p̂(1 − p̂)(1/n1 + 1/n2)] ≈ sqrt[0.2222 × 0.7778 × 0.0045] ≈ 0.0279 Thống kê z = (p1 − p2)/SE ≈ −1.43 Với mức ý nghĩa 5%, giá trị z tới hạn ±1.96; z = −1.43 nên chưa bác bỏ H0, p-value khoảng 0.15 Kết quả cho thấy bằng chứng không đủ để kết luận hai giáo sư có sự khác biệt có ý nghĩa thống kê về tỷ lệ trượt sinh viên.

Giáo sư Số thí sinh trượt

Tổng số sinh viên (N) (Number of Trials)

- H0: p1 = p2: Không có khác biệt về tỷ lệ sinh viên trượt

- H1: p1 ≠ p2: Có khác biệt về tỷ lệ sinh viên trượt

Ví dụ 5 mô tả một cuộc nghiên cứu nhằm so sánh tỷ lệ học sinh bỏ học trước khi tốt nghiệp giữa hai vùng dân cư A và B Ở vùng A, trong số học sinh được theo dõi, tỷ lệ bỏ học phản ánh những thách thức liên quan đến việc hoàn thành chương trình học; ở vùng B, tỷ lệ này cho thấy sự khác biệt so với vùng A Nghiên cứu sử dụng phân tích dữ liệu thống kê để so sánh hai vùng, kiểm định sự khác biệt và xác định các yếu tố liên quan như điều kiện kinh tế, chất lượng trường học và sự hỗ trợ từ gia đình Kết quả cho thấy có sự chênh lệch đáng kể giữa vùng A và vùng B, từ đó gợi ý các biện pháp can thiệp nhằm giảm tỷ lệ bỏ học trước khi tốt nghiệp và cải thiện kết quả giáo dục ở cả hai vùng.

600 học sinh được theo dõi thì có 90 học sinh bỏ học Ở vùng B, trong số

400 thì có 48 em bỏ học Với mức ý nghĩa 2%, hãy kiểm định xem tỷ lệ bỏ học giữa hai vùng có khác nhau không?

Vùng Số học sinh bỏ học

Tổng số học sinh(N) (Number of Trials)

- H0: p1 = p2: Không có khác biệt về tỷ lệ học sinh bỏ học

- H1: p1 ≠ p2: Có khác biệt về tỷ lệ học sinh bỏ học

Cuộc thăm dò dư luận do Washington Post tiến hành sau cái chết của một ngôi sao bóng rổ cho thấy sự thay đổi rõ rệt trong quan điểm công chúng về việc vận động viên sử dụng chất kích thích bất hợp pháp trong thể thao Có 729 người trên 1656 người được hỏi cho rằng đây là một vấn đề nổi cộm, trong khi một năm trước chỉ có 301 trên 1432 người đồng ý (tỷ lệ từ khoảng 21% lên khoảng 44%) Với mức ý nghĩa 1%, phép thử hai tỷ lệ cho thấy sự khác biệt này là có ý nghĩa thống kê (p-value rất nhỏ, xấp xỉ 0) Kết quả cho thấy đã có sự thay đổi có ý nghĩa trong quan điểm công chúng về vấn đề này.

Quan điểm Số người đồng tình

Tổng số được hỏi (N) (Number of Trials)

- H0: p1 = p2: Không có khác biệt về quan điểm

- H1: p1 ≠ p2: Có khác biệt về quan điểm

Ví dụ 7: Trong mùa bóng vừa rồi, cầu thủ tiền đạo A ghi được 8 bàn trong

Ngày đăng: 27/09/2025, 09:11

HÌNH ẢNH LIÊN QUAN

Hình 3.1: Biểu đồ Pareto thể hiện lỗi sản phẩm - Tài liệu hướng dẫn sử dụng Minitab Cơ Bản - Áp dụng trong kỹ thuật thống kê công nghiệp & Quản lý chất lượng
Hình 3.1 Biểu đồ Pareto thể hiện lỗi sản phẩm (Trang 14)
Hình 3.2: Biểu đồ Pareto các dạng lỗi được biểu diễn dưới dạng cột - Tài liệu hướng dẫn sử dụng Minitab Cơ Bản - Áp dụng trong kỹ thuật thống kê công nghiệp & Quản lý chất lượng
Hình 3.2 Biểu đồ Pareto các dạng lỗi được biểu diễn dưới dạng cột (Trang 17)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w