Bước 1: Lập bảng số liệu Khai báo số liệu và thiết lập các giá trị thành dạng bảng dễ xử lí hơn Kết quả xuất ra: Bước 2: Lập bảng ANOVA Dùng hàm lm để phân tích số liệu Sau đó chúng ta
Trang 2MỤC LỤC
Bài 1……… 3
Câu 1……… 3
Câu 2……… 6
Bài 2……….14
Bài 3……….17
Bài 4……….20
Bài 5……….24
Tài liệu tham khảo…….……… …………29
Trang 3Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên
các giá trị quan sát Yijk(i=1,2,…,r: yếu tố A; j=1,2,…,r: yếu tố B;
k=1,2,…,r: yếu tố C)
Mô hình
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T k, thí dụ T 1=Y111+Y421+Y +Y241) 334
Trang 4𝑟 𝑖=1 −𝑇…2
𝑟 2 MSR = 𝑆𝑆𝑅
(𝑟−1) F =R
𝑀𝑆𝑅 𝑀𝑆𝐸
Yếu tố
𝑟
𝑐 𝑗=1 −𝑇…2
𝑟 2 MSF =(𝑟−1)𝑆𝑆𝐹 F = 𝑀𝑆𝐹𝑀𝑆𝐸Sai s ố (r-1)(r-2) SSE=SST-
(SSF+SSR+SSC) MSE =
𝑆𝑆𝐸 (𝑟−1)(𝑟−2)
Tổng
cộng SST=∑ ∑ ∑ 𝑌𝑖𝑗𝑘2
𝑘 𝑗
“Các giá trị trung bình bằng nhau”
𝐻1: 𝜇1 ≠ 𝜇2 ≠ ⋯ ≠ 𝜇𝑘 “Có ít nhất hai giá trị trung bình khác nhau”
Giả thiết H yếu tố pH): pH không ảnh hưởng đến hiệu suất phản ứng.0 (
Giả thiết H yếu tố nhiệt độ): Nhiệt độ không ảnh hưởng đến hiệu suất phản ứng.0 (Giả thiết H yếu tố chất xúc tác): Chất xúc tác không ảnh hưởng đến hiệu suất 0 (phản ứng
Trang 5Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này
Bước 1: Lập bảng số liệu
Khai báo số liệu và thiết lập các giá trị thành dạng bảng dễ xử lí hơn
Kết quả xuất ra:
Bước 2: Lập bảng ANOVA
Dùng hàm lm để phân tích số liệu
Sau đó chúng ta lập bảng ANOVA b ng lằ ệnh summary.aov và được kết quả
Trang 6Bước 3: Kết quả và biện lu n ậ
Trang 7
Hãy cho biết yếu tố nhiệt độ và/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt dộ 115oC trong vòng 50p thì hiệu suất phản ứng sẽ là bao nhiêu?
Bài g iải
Cơ sở lí thuyêt:
i Dạng bài: Phân tích tương quan và hồi quy tuyến tính
ii Khái niệm thống kê và trắc nghiệm
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên
quan đến biến số độc lập X (i=1,2, ,k) thay vì chỉ có một như trong hồi quy k i tuyến tính đơn giản
Bình phương trung
bình
Giá trị thống
kê
Tổng
Trang 8
H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa
H1: βi ≠ 0 ↔ Tồn tại vài hệ số hồi quy có ý nghĩa
t < (N-k-1) → Chấp nh n Hậ 0
- Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp
H1: βi ≠ 0 ↔ Phương trình hồi quy thích h p v i ít nh t vài h s B ợ ớ ấ ệ ố i
F < F (1, N-k-α 1) → Chấp nhận H0
Giả thiết :
H01 yếu tố thời gian không liên quan tuyến tính với hiệu suất phản ứng tổng hợp H02 yếu tố nhiệt độ không liên quan tuyến tính với hiệu suất phản ứng tổng hợp H03 hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ
i Đánh giá: với lý thuyết ở trên việc xử lý số liệu khá cồng kềnh cho nên
Trang 9Bước 2: Tổng hợp các số liệu đã nhập thành 1 data.frame và gọi data
Bước 3: Xét mối liên hệ giữa từng yếu tố thời gian, nhiệt độ tới hiệu suất
Trang 10Bước 4: Kết quả và biện luận:
1 Xét liên hệ giữa thời gian và hiệu suất phản ứng
- Phương trình hồi quy: Ŷ|x1=f(X1)
- Kết luận: Yếu tố thời gian không có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp
Trang 11
2 Xét liên hệ giữa nhiệt độ và hiệu suất phản ứng:
- Phương trình hồi quy: Ŷ|x2 = f(X2)
- Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng của phản ứng tổng hợp
Trang 12
3 Xét liên hệ giữa thời gian và nhiệt độ với hiệu suất phản ứng:
- Phương trình hồi quy: Ŷ|x1,x2 = f(X1,X2)
Ŷ|x1,x2 = -12,70 + 0,04X + 0,13X1 2 (R2 = 0,97; S = 0,33) t0 = 11,528 > t0,025 = 2,365 (hay P = 2,260.10 v -5< α = 0,05)
Trang 13- Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu
tố là thời gian và nhiệt độ
Vậy ở điều kiện nhiệt độ 115°C, trong vòng 50 phút thì hiệu suất phản ứng sẽ là:
Trang 14Ta cần kiểm định xem X có độc lập với Y hay không?
Phát biểu giả thuyết
H 1 : Tồn tại (i,j) sao cho Pij ≠ pi qj
Trang 15Khảo sát thực tế N phần tử, ta được bảng kết quả sau
trong đó các n ijgọi là tần số thực nghiệm
Ước lượng của p ivà q jlần lượt bằng
Gọi Nij là số phần tử có đặc tính (x ;y i j ) trong phần tử khảo sát, thì N ~B(N,P ij ij )
Khi đó, E(N )=NP ij ij =Np i q j khi H 0 đúng
Đặt g i là t n số lý thuy ọ ầ ết
Với N ij và E ij =NP ij , bi n ng u nhiên ế ẫ ∑ ∑ (𝑁 −𝐸𝑖𝑗 𝑖𝑗 ) 2
𝐸 𝑖𝑗
𝑠 𝑗=1
𝑟 𝑖=1 sẽ hội tụ theo phân phối
về biến ngẫu nhiên Chi bình phương
Tổng cột
Trang 16Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này
Bước 1: Chúng ta khai báo bảng số liệu 3 nhóm phương tiện và gắn chúng vào 1
data.frame như sau:
Kết quả xuất ra :
Bước 2: chúng ta thay hàng “1” và “2” bằng 2 giá trị biểu thị cho nữ và nam:
Sau đó dùng lệnh chisq.testđể tính giá trị và thu được kết quả như sau:
Bước 3: dùng hàm qchisq(1-α, df) để tìm giá trị χ^2α :
Trang 17BÀI 3:
Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống Kết quả được cho như sau:
So sánh tỷ số bằng Kiểm định Khi bình phương (Chi-squared Test)
Đối với một thí nghiệm có hai kết quả (binomial experiment), ví dụ như ở một quốc gia, để điều tra về tỷ lệ giới tính với kết quả là: nam hay nữ; thì người ta thường so sánh hai tỷ số (nam, nữ) với nhau Song, đối với một thí nghiệm có nhiều kết quả (multinomial experiment), ví dụ như đánh giá mức độ hài lòng của khán giả về một tiết mục với những kết quả là: rất hay, hay, bình thường, tệ, rất tệ;
ta cần so sánh nhiều tỷ số Nếu bắt cặp từng tỷ số để so với nhau thì rất phức tạp và tốn thời gian, thậm chí có thể không chính xác hay không đáng tin cậy
Vì thế, phương pháp so sánh tỷ số bằng Kiểm định Khi bình phương
(Chi-squared Test) giúp chúng ta so sánh không những hai mà còn nhiều tỷ số (tỷ
lệ hoặc xác suất) một cách tiện lợi và chính xác hơn Kiểm định Khi bình phương (hay còn gọi tắt là Kiểm định χ ) là phân phối xác suất, không có tính đối xứng và 2chỉ có giá trị ≥ 0
Trang 18Trong bài tập số 3 này, ta có một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống Kết quả của “thí nghiệm” này gồm: Rất thỏa mãn, Tương đối, Không Ta đặt ra câu hỏi là liệu mức độ thỏa mãn cuộc sống có phân bố giống nhau trong 5 thành phố trên hay không? Với mức ý nghĩa α
= 3%
Đầu tiên, ta đặt ra hai giả thiết:
H0: mức độ thỏa mãn cuộc sống trong 5 thành phố có phân bố giống nhau H1: mức độ thỏa mãn cuộc sống trong 5 thành phố có phân bố khác nhau
𝑟
𝑖=1
𝑂𝑖𝑗: t n s ầ ố thực nghi m (observed frequency) c a ô thu c hàng i và c t j ệ ủ ộ ộ
𝐸𝑖𝑗: tần số lý thuyết (expected frequency) của ô thuộc hàng i và cột j
r: số hàng
c: số cột
Trang 19Xác suất P(X > χ ) với bậc tự do (degree of freedom) df = (r –2 1)(c – 1)
Bằng ngôn ngữ lập trình Rstudio, ta sẽ tính được xác suất này, thông qua biến P-value
Nếu P(X > χ ) > α 2 chấp nhận H0, bác bỏ H1
Nếu P(X > χ ) ≤ α 2 chấp nhận H , bác bỏ H1 0
Giải quyết vấn đề và trả lời câu hỏi của đề bài
Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này
Bước 1: Nhập dữ liệu từ đề vào hệ thống
Bước 2: Kiểm định Khi bình phương bằng hàm chisq.test
Phần code nhập dữ liệu vào và kiểm định Khi bình phương
Kết quả xuất trên màn hình Console ra
Trang 20Bước 3: Trả lời câu hỏi và đưa ra kết luận
Kết quả trên màn hình Console cho ta thấy được:
a) Lượng báo bán ra 5 qu n có th c s khác nhau không? ở ậ ự ự
b) Chọn 𝛼 = 2% Hỏi lượng báo bán ra có chịu yếu tố ngày trong tuần không?
Trang 21Mô hình
Yếu tố khảo sát
Trang 22Trắc nghiệm
Giả thiết
“Các giá trị trung bình bằng nhau”
“Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê:
Biện luận:
Bài giải
Đặt H: Lượng báo bán ra ở năm quận không thực sự khác nhau
H: Lượng bán bán ra ở năm quận có sự khác nhau
Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này
Kết quả nhận được ra màn hình:
Kết quả phân tích phương sai:
Tính toán giá trị F từ thuật toán: qf(0.98, df1 = 0 - 1 = 4, df2 = 30 5 = 25) 5 –
F0 = 3.5494 23
Trang 23F_value = 1.635
Do F_value < F 0nên ta chấp nhận giả thiết H0
Kết luận: Với mức ý nghĩa α = 2%, lượng báo bán ra ở năm quận không thực
sự khác nhau
b) Câu hỏi thứ 2 hỏi lượng báo bán ra có chịu yếu tố ngày trong tuần hay không? Đây là bài toán kiểm định tính độc lập của yếu tố và số liệu
H0: Lượng báo bán ra không phụ thuộc vào ngày
H1: Lượng báo bán ra có phụ thuộc vào ngày
Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này
Kết quả thu được:
● Giải thích các thuật toán sử dụng:
df(): Tìm các giá trị thống kê của phân phối F
aov(): Thực hiện phân tích phương sai (Phân tích ANOVA)
Trang 24● Giải thích các thuật ngữ thống kê:
1) Bậc tự do (df)
- Bậc tự do trong tiếng Anh là Degrees Of Freedom
- Bậc tự do đề cập đến số lượng các giá trị độc lập tối đa của một hệ, là các giá trị có thể thay đổi tự do trong mẫu dữ liệu
Trang 25Mô hình
Yếu tố khảo sát
Giá trị thống
kê Yếu tố
Trang 26Trắc nghiệm
Giả thiết
“Các giá trị trung bình bằng nhau”
“Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê:
Biện luận:
Quy tắc dùng P-value để bác bỏ hay không bác bỏ :
Bác bỏ Chấp nhận
Bài giải
Đặt giả thuyết là giá thuê nhà ở 5 thành phố không có sự khác biệt
Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này
Bước 1: Nhập dữ liệu vào R
Bước 2: Thiết lập các giá trị thành dạng bảng dễ xử lí hơn
Ta tạo thành 1 bảng có 2 cột: cột 1 gồm tất cả các giá tiền thuê, cột 2 gồm các thành phố có giá tiền tương ứng
Trang 28Giá trị P Value chính là giá trị được khoanh đỏ :
-Bước 4: Kết quả và biện luận
Với bài này, ta chọn mức ý nghĩa
Ta có :
Vây bác bỏ
Kết luận : Có sự khác biệt về giá thuê nhà ở 5 thành phố nói trên
Trang 29TÀI LIỆU THAM KHẢO
Nguyễn Đình Huy, 2018 Giáo trình xác suất thống kê, lần 10, NXB Đại học Quốc
Gia TPHCM.