1. Trang chủ
  2. » Giáo Dục - Đào Tạo

baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO

29 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 1,66 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bước 1: Lập bảng số liệu Khai báo số liệu và thiết lập các giá trị thành dạng bảng dễ xử lí hơn Kết quả xuất ra: Bước 2: Lập bảng ANOVA Dùng hàm lm để phân tích số liệu Sau đó chúng ta

Trang 2

MỤC LỤC

Bài 1……… 3

Câu 1……… 3

Câu 2……… 6

Bài 2……….14

Bài 3……….17

Bài 4……….20

Bài 5……….24

Tài liệu tham khảo…….……… …………29

Trang 3

Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên

các giá trị quan sát Yijk(i=1,2,…,r: yếu tố A; j=1,2,…,r: yếu tố B;

k=1,2,…,r: yếu tố C)

Mô hình

Mô hình vuông la tinh ba yếu tố được trình bày như sau:

Yếu tố C (T k, thí dụ T 1=Y111+Y421+Y +Y241) 334

Trang 4

𝑟 𝑖=1 −𝑇…2

𝑟 2 MSR = 𝑆𝑆𝑅

(𝑟−1) F =R

𝑀𝑆𝑅 𝑀𝑆𝐸

Yếu tố

𝑟

𝑐 𝑗=1 −𝑇…2

𝑟 2 MSF =(𝑟−1)𝑆𝑆𝐹 F = 𝑀𝑆𝐹𝑀𝑆𝐸Sai s ố (r-1)(r-2) SSE=SST-

(SSF+SSR+SSC) MSE =

𝑆𝑆𝐸 (𝑟−1)(𝑟−2)

Tổng

cộng SST=∑ ∑ ∑ 𝑌𝑖𝑗𝑘2

𝑘 𝑗

“Các giá trị trung bình bằng nhau”

𝐻1: 𝜇1 ≠ 𝜇2 ≠ ⋯ ≠ 𝜇𝑘  “Có ít nhất hai giá trị trung bình khác nhau”

Giả thiết H yếu tố pH): pH không ảnh hưởng đến hiệu suất phản ứng.0 (

Giả thiết H yếu tố nhiệt độ): Nhiệt độ không ảnh hưởng đến hiệu suất phản ứng.0 (Giả thiết H yếu tố chất xúc tác): Chất xúc tác không ảnh hưởng đến hiệu suất 0 (phản ứng

Trang 5

Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này

Bước 1: Lập bảng số liệu

Khai báo số liệu và thiết lập các giá trị thành dạng bảng dễ xử lí hơn

Kết quả xuất ra:

Bước 2: Lập bảng ANOVA

Dùng hàm lm để phân tích số liệu

Sau đó chúng ta lập bảng ANOVA b ng lằ ệnh summary.aov và được kết quả

Trang 6

Bước 3: Kết quả và biện lu n

Trang 7

Hãy cho biết yếu tố nhiệt độ và/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt dộ 115oC trong vòng 50p thì hiệu suất phản ứng sẽ là bao nhiêu?

Bài g iải

Cơ sở lí thuyêt:

i Dạng bài: Phân tích tương quan và hồi quy tuyến tính

ii Khái niệm thống kê và trắc nghiệm

Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên

quan đến biến số độc lập X (i=1,2, ,k) thay vì chỉ có một như trong hồi quy k i tuyến tính đơn giản

Bình phương trung

bình

Giá trị thống

Tổng

Trang 8

H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa

H1: βi ≠ 0 ↔ Tồn tại vài hệ số hồi quy có ý nghĩa

t < (N-k-1) → Chấp nh n Hậ 0

- Trắc nghiệm F

H0: βi = 0 ↔ Phương trình hồi quy không thích hợp

H1: βi ≠ 0 ↔ Phương trình hồi quy thích h p v i ít nh t vài h s B ợ ớ ấ ệ ố i

F < F (1, N-k-α 1) → Chấp nhận H0

Giả thiết :

H01 yếu tố thời gian không liên quan tuyến tính với hiệu suất phản ứng tổng hợp H02 yếu tố nhiệt độ không liên quan tuyến tính với hiệu suất phản ứng tổng hợp H03 hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ

i Đánh giá: với lý thuyết ở trên việc xử lý số liệu khá cồng kềnh cho nên

Trang 9

Bước 2: Tổng hợp các số liệu đã nhập thành 1 data.frame và gọi data

Bước 3: Xét mối liên hệ giữa từng yếu tố thời gian, nhiệt độ tới hiệu suất

Trang 10

Bước 4: Kết quả và biện luận:

1 Xét liên hệ giữa thời gian và hiệu suất phản ứng

- Phương trình hồi quy: Ŷ|x1=f(X1)

- Kết luận: Yếu tố thời gian không có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp

Trang 11

2 Xét liên hệ giữa nhiệt độ và hiệu suất phản ứng:

- Phương trình hồi quy: Ŷ|x2 = f(X2)

- Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng của phản ứng tổng hợp

Trang 12

3 Xét liên hệ giữa thời gian và nhiệt độ với hiệu suất phản ứng:

- Phương trình hồi quy: Ŷ|x1,x2 = f(X1,X2)

Ŷ|x1,x2 = -12,70 + 0,04X + 0,13X1 2 (R2 = 0,97; S = 0,33) t0 = 11,528 > t0,025 = 2,365 (hay P = 2,260.10 v -5< α = 0,05)

Trang 13

- Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu

tố là thời gian và nhiệt độ

Vậy ở điều kiện nhiệt độ 115°C, trong vòng 50 phút thì hiệu suất phản ứng sẽ là:

Trang 14

Ta cần kiểm định xem X có độc lập với Y hay không?

Phát biểu giả thuyết

H 1 : Tồn tại (i,j) sao cho Pij ≠ pi qj

Trang 15

Khảo sát thực tế N phần tử, ta được bảng kết quả sau

trong đó các n ijgọi là tần số thực nghiệm

Ước lượng của p ivà q jlần lượt bằng

Gọi Nij là số phần tử có đặc tính (x ;y i j ) trong phần tử khảo sát, thì N ~B(N,P ij ij )

Khi đó, E(N )=NP ij ij =Np i q j khi H 0 đúng

Đặt g i là t n số lý thuy ọ ầ ết

Với N ijE ij =NP ij , bi n ng u nhiên ế ẫ ∑ ∑ (𝑁 −𝐸𝑖𝑗 𝑖𝑗 ) 2

𝐸 𝑖𝑗

𝑠 𝑗=1

𝑟 𝑖=1 sẽ hội tụ theo phân phối

về biến ngẫu nhiên Chi bình phương

Tổng cột

Trang 16

Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này

Bước 1: Chúng ta khai báo bảng số liệu 3 nhóm phương tiện và gắn chúng vào 1

data.frame như sau:

Kết quả xuất ra :

Bước 2: chúng ta thay hàng “1” và “2” bằng 2 giá trị biểu thị cho nữ và nam:

Sau đó dùng lệnh chisq.testđể tính giá trị và thu được kết quả như sau:

Bước 3: dùng hàm qchisq(1-α, df) để tìm giá trị χ^2α :

Trang 17

BÀI 3:

Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống Kết quả được cho như sau:

So sánh tỷ số bằng Kiểm định Khi bình phương (Chi-squared Test)

Đối với một thí nghiệm có hai kết quả (binomial experiment), ví dụ như ở một quốc gia, để điều tra về tỷ lệ giới tính với kết quả là: nam hay nữ; thì người ta thường so sánh hai tỷ số (nam, nữ) với nhau Song, đối với một thí nghiệm có nhiều kết quả (multinomial experiment), ví dụ như đánh giá mức độ hài lòng của khán giả về một tiết mục với những kết quả là: rất hay, hay, bình thường, tệ, rất tệ;

ta cần so sánh nhiều tỷ số Nếu bắt cặp từng tỷ số để so với nhau thì rất phức tạp và tốn thời gian, thậm chí có thể không chính xác hay không đáng tin cậy

Vì thế, phương pháp so sánh tỷ số bằng Kiểm định Khi bình phương

(Chi-squared Test) giúp chúng ta so sánh không những hai mà còn nhiều tỷ số (tỷ

lệ hoặc xác suất) một cách tiện lợi và chính xác hơn Kiểm định Khi bình phương (hay còn gọi tắt là Kiểm định χ ) là phân phối xác suất, không có tính đối xứng và 2chỉ có giá trị ≥ 0

Trang 18

Trong bài tập số 3 này, ta có một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống Kết quả của “thí nghiệm” này gồm: Rất thỏa mãn, Tương đối, Không Ta đặt ra câu hỏi là liệu mức độ thỏa mãn cuộc sống có phân bố giống nhau trong 5 thành phố trên hay không? Với mức ý nghĩa α

= 3%

Đầu tiên, ta đặt ra hai giả thiết:

H0: mức độ thỏa mãn cuộc sống trong 5 thành phố có phân bố giống nhau H1: mức độ thỏa mãn cuộc sống trong 5 thành phố có phân bố khác nhau

𝑟

𝑖=1

𝑂𝑖𝑗: t n s ầ ố thực nghi m (observed frequency) c a ô thu c hàng i và c t j ệ ủ ộ ộ

𝐸𝑖𝑗: tần số lý thuyết (expected frequency) của ô thuộc hàng i và cột j

r: số hàng

c: số cột

Trang 19

Xác suất P(X > χ ) với bậc tự do (degree of freedom) df = (r –2 1)(c – 1)

Bằng ngôn ngữ lập trình Rstudio, ta sẽ tính được xác suất này, thông qua biến P-value

Nếu P(X > χ ) > α 2  chấp nhận H0, bác bỏ H1

Nếu P(X > χ ) ≤ α 2  chấp nhận H , bác bỏ H1 0

Giải quyết vấn đề và trả lời câu hỏi của đề bài

Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này

Bước 1: Nhập dữ liệu từ đề vào hệ thống

Bước 2: Kiểm định Khi bình phương bằng hàm chisq.test

Phần code nhập dữ liệu vào và kiểm định Khi bình phương

Kết quả xuất trên màn hình Console ra

Trang 20

Bước 3: Trả lời câu hỏi và đưa ra kết luận

Kết quả trên màn hình Console cho ta thấy được:

a) Lượng báo bán ra 5 qu n có th c s khác nhau không? ở ậ ự ự

b) Chọn 𝛼 = 2% Hỏi lượng báo bán ra có chịu yếu tố ngày trong tuần không?

Trang 21

Mô hình

Yếu tố khảo sát

Trang 22

Trắc nghiệm

Giả thiết

“Các giá trị trung bình bằng nhau”

“Ít nhất có hai giá trị trung bình khác nhau”

Giá trị thống kê:

Biện luận:

Bài giải

Đặt H: Lượng báo bán ra ở năm quận không thực sự khác nhau

H: Lượng bán bán ra ở năm quận có sự khác nhau

Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này

Kết quả nhận được ra màn hình:

Kết quả phân tích phương sai:

Tính toán giá trị F từ thuật toán: qf(0.98, df1 = 0 - 1 = 4, df2 = 30 5 = 25) 5 –

F0 = 3.5494 23

Trang 23

F_value = 1.635

Do F_value < F 0nên ta chấp nhận giả thiết H0

Kết luận: Với mức ý nghĩa α = 2%, lượng báo bán ra ở năm quận không thực

sự khác nhau

b) Câu hỏi thứ 2 hỏi lượng báo bán ra có chịu yếu tố ngày trong tuần hay không? Đây là bài toán kiểm định tính độc lập của yếu tố và số liệu

H0: Lượng báo bán ra không phụ thuộc vào ngày

H1: Lượng báo bán ra có phụ thuộc vào ngày

Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này

Kết quả thu được:

● Giải thích các thuật toán sử dụng:

df(): Tìm các giá trị thống kê của phân phối F

aov(): Thực hiện phân tích phương sai (Phân tích ANOVA)

Trang 24

● Giải thích các thuật ngữ thống kê:

1) Bậc tự do (df)

- Bậc tự do trong tiếng Anh là Degrees Of Freedom

- Bậc tự do đề cập đến số lượng các giá trị độc lập tối đa của một hệ, là các giá trị có thể thay đổi tự do trong mẫu dữ liệu

Trang 25

Mô hình

Yếu tố khảo sát

Giá trị thống

kê Yếu tố

Trang 26

Trắc nghiệm

Giả thiết

“Các giá trị trung bình bằng nhau”

“Ít nhất có hai giá trị trung bình khác nhau”

Giá trị thống kê:

Biện luận:

Quy tắc dùng P-value để bác bỏ hay không bác bỏ :

Bác bỏ Chấp nhận

Bài giải

Đặt giả thuyết là giá thuê nhà ở 5 thành phố không có sự khác biệt

Ta sẽ sử dụng ngôn ngữ lập trình Rstudio để giải bài toán này

Bước 1: Nhập dữ liệu vào R

Bước 2: Thiết lập các giá trị thành dạng bảng dễ xử lí hơn

Ta tạo thành 1 bảng có 2 cột: cột 1 gồm tất cả các giá tiền thuê, cột 2 gồm các thành phố có giá tiền tương ứng

Trang 28

Giá trị P Value chính là giá trị được khoanh đỏ :

-Bước 4: Kết quả và biện luận

Với bài này, ta chọn mức ý nghĩa

Ta có :

Vây bác bỏ

Kết luận : Có sự khác biệt về giá thuê nhà ở 5 thành phố nói trên

Trang 29

TÀI LIỆU THAM KHẢO

Nguyễn Đình Huy, 2018 Giáo trình xác suất thống kê, lần 10, NXB Đại học Quốc

Gia TPHCM.

Ngày đăng: 19/04/2022, 23:01

HÌNH ẢNH LIÊN QUAN

Mô hình - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình (Trang 3)
Mô hình vuông la tinh ba yếu tố được trình bày như sau: Yếu tố C (T..k, thí dụ T..1=Y 111+Y421+Y +Y334241)  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình vuông la tinh ba yếu tố được trình bày như sau: Yếu tố C (T..k, thí dụ T..1=Y 111+Y421+Y +Y334241) (Trang 3)
Bảng ANOVA Nguồn  sai số  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA Nguồn sai số (Trang 4)
Bước 1: Lập bảng số liệu - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
c 1: Lập bảng số liệu (Trang 5)
Bảng ANOVA Nguồn  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA Nguồn (Trang 7)
Bảng số liệu nghiên cứu việc sử dụng phương tiện đi lại của 2 nhóm công nhân nam và công nhân nữ ở thành phố công nghiệp X:  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
Bảng s ố liệu nghiên cứu việc sử dụng phương tiện đi lại của 2 nhóm công nhân nam và công nhân nữ ở thành phố công nghiệp X: (Trang 14)
Lập bảng tổng quát: - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
p bảng tổng quát: (Trang 18)
Kết quả xuất trên màn hình Console ra - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
t quả xuất trên màn hình Console ra (Trang 19)
Kết quả trên màn hình Console cho ta thấy được: χ2 = 75,725; df = (5   1)(3   1) = 8 –– - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
t quả trên màn hình Console cho ta thấy được: χ2 = 75,725; df = (5 1)(3 1) = 8 –– (Trang 20)
Mô hình - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình (Trang 21)
Bảng ANOVA - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA (Trang 21)
Mô hình - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình (Trang 25)
Bảng ANOVA - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA (Trang 25)
Bước 2: Thiết lập các giá trị thành dạng bảng dễ xử lí hơn - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
c 2: Thiết lập các giá trị thành dạng bảng dễ xử lí hơn (Trang 26)
Bước 3: Lập bảng ANOVA - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
c 3: Lập bảng ANOVA (Trang 27)

🧩 Sản phẩm bạn có thể quan tâm

w