Báo Cáo Bài Tập Lớn Xác Suất Thống Kê

TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Phương pháp phân tổ dữ liệu Đồ thị phân phối tần số và đa giác tần số Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy A Trình bày dữ liệu định tính dạng phân loại bằng các đồ thị

Trang 1

Thành phố Hồ Chí Minh, ngày 04 tháng 05 năm 2016

Trang 2

2

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử

dụng các dữ liệu đó cho các yêu cầu sau:

1)Thực hiện phương pháp phân tổ dữ liệu (A)

2)Vẽ đồ thị phân phối tần số và đa giác tần số (A)

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 98% (A)

4)Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không

1) Thực hiện phương pháp phân tổ dữ liệu (A):

Trang 3

- Ta có kết quả như sau: h=5

B4: Xác định được cận trên,cận dưới của các tổ lần lượt là:

Trang 4

4

B6: Chọn chức năng data/data analysis/histogram:

- Input range: địa chỉ chứa dữ liệu

- Bin range: địa chỉ chứa bàng phân nhóm

- Output options: vị trí xuất kết quả

- Confidence level for mean: độ tin cậy

- Cumulative percentage: tính tần suất tích lũy

Trang 6

6

b) Vẽ đa giác tần số:

B1: Sử dụng bảng phân phối tần số dữ liệu (A)

B2: Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số

B3: Quét chọn bảng

B4: Dùng chức năng Insert Line Chart trên menu Insert

Trang 8

8

Trang 10

10

B3: Vẽ biều đồ cột thể hiện số sinh viên

- Quét chọn cột số sinh viên

- Dùng chức năng Insert Column Chart trên menu Insert

Trang 11

11

B4: Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:

- Quét chọn cột số sinh viên

- Dùng chức năng Insert Column Pie trên menu Insert

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào

đó hay không

B1: Chọn dữ liệu (B) với mức ý nghĩa 5%, nhập dữ liệu vào bảng tính

Trang 12

12

B2: Đặt giả thiết kiểm định:

H0: Tổng thể có phân phối F(x)

H1: Tổng thể không có phân phối F(x)

F(x) ở đây có thể là phân phổi Poisson hay phân phối đều rời rạc

B3: Tính các đặc trưng mẫu cần thiết ở dạng ước lượng hợp lý cực đại

Tiến hành bằng Excel tương tự câu 3 ở trên, ta có kết quả như sau:

B4: Tìm miền bác bỏ: W∝ =( (∝; k-r-1); +∞)

Với k = 4 (số hàng được chia trong bảng dữ liệu mẫu)

r = 1: nếu muốn kiểm định phân phối Poisson

r = 0: nếu muốn kiểm định phân phối đều rời rạc

Dùng hàm CHINNV trong Excel để tính chi-bình phương

Cú pháp: CHINNV(probability, degrees-freedom) với probability là mức ý nghĩa, degrees-freedom là bậc tự do

Trang 13

B5: Tính tiêu chuẩn kiểm định:

Trong đó: Oi = ni là tần số từ mẫu thực nghiệm

Ei là tần số theo lý thuyết nếu giả thiết H0 đúng

Đối với kiểm định phân phối Poisson:

Ei = n*pi với n là kích thước mẫu

Đối với kiểm định phân phối đều rời rạc:

Ei = n*pi với n là kích thước mẫu

pi = P(X=xi)

2 2

i

x i

Trang 14

 Chấp nhận giả thiết H  (B) phân phối đều rời rạc

Kết luận: Vậy (B) có phù hợp với 1 phân bố xác suất nào đó (Phân phối đều rời

rạc)

Bài 2: Điểm đánh giá của 20 người dùng thử về 2 loại sản phẩm đậu phộng trước

và sau cải tiến được thu thập trên thang điểm 10 như sau:

Trước cải tiến 7 8 6 8 7 7 7 6 8 6

Sau cải tiến 8 9 5 9 5 6 8 7 8 7

Trước cải tiến 6 9 6 4 6 7 8 5 4 3

Sau cải tiến 8 8 8 7 6 7 7 6 7 6

Hãy cho biết hiệu quả của việc cải tiến sản phẩm với mức ý nghĩa 6% Tìm thêm

giá trị P trong kiểm định

Trang 15

15

1) Cơ sở lý thuyết:

Vì hai mẫu đã cho là mẫu nhỏ, phụ thuộc, chưa biết phương sai,1 chúng ta đưa về bài toán so sánh giá trị trung bình dữ liệu tương ứng từng cặp Với công cụ T-test Paired Two Sample For Means

2) Tiêu chuẩn kiểm định:

Giá trị thống kê t có phân phối Student γ=N-1

3) Giả thiết kiểm định:

H0: “Cải tiến không hiệu quả”

H1: “Cải tiến hiệu quả”

Biện luận: Nếu t < t∝ hay t < thì chấp nhận giả thiết H0

4) Thực hiện bài toán bằng Excel:

B1: Nhập bảng dữ liệu

D

D t

Trang 16

16 B2: Vào Data/Data Analysis/T-test Paired Two Simple for Means

Trang 17

17

Chú thích:

- Input Range: địa chỉ chứa dữ liệu tương ứng của mẫu 1,2

- Output Options: vị trí xuất kết quả

- Alpha: mức ý nghĩa ∝

B3: Ta có kết quả như sau:

Trang 18

18

Kết luận:

 Bác bỏ giả thiết H0  Cải tiến có hiệu quả

Bài 3: Hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái mùa

(khô và mưa: trong mỗi mùa lấy mẫu ba lần - đầu giữa và cuối) và từ ba miền (nam trung và bắc) được tóm tắt như sau:

Mùa Thời điểm

Miền Nam Trung Bắc Mùa khô

Đầu mùa 2.4 2.1 3.2 Giữa mùa 2.3 2.2 3.2 Cuối mùa 2.5 2.3 3.4 Mùa mưa

Đầu mùa 2.4 2.2 3.3 Giữa mùa 2.5 2.1 3.5 Cuối mùa 2.7 2.3 3.4 Hãy cho biết hàm lượng saponin có khác nhau theo mùa hay miền? Nếu có thì hai yếu tố mùa và miền có sự tương tác với nhau hay không? Sử dụng mức ý nghĩa 2%

BÀI LÀM 1) Cơ sở lý thuyết:

- Dạng bài: Phân tích phương sai 2 yếu tố có lặp

- Cách làm: sử dụng hàm Anova: Two-factor with replication trong Data Analysis bằng Excel

- Cơ sở lí thuyết: Phân tích phương sai nhằm đánh giá sự ảnh hưởng của 2 nhân tố A và B trên các giá trị quan sát xij, mỗi mức xij đều có sự lặp lại nhiều lần

và cần khảo sát thêm sự tương tác giữa hai yếu tố cột và hàng (điểm khác biệt so với phân tích phương sai 2 yếu tố không lặp)

0.06

t   t 

Trang 19

19

 Mẫu điều tra:

 Xử lý mẫu: tính tổng hàng, tổng cột:

Trang 20

20

 Suy ra:

 Bảng Anova:

 Kết luận:

Trang 21

21

2) Thực hiện bài toán bằng Excel:

B1: Nhập bảng dữ liệu:

B2: Vào Data/Data Analysis/ Anova: Two-Factor With Replication:

(Rows per sample: số lần lặp lại)

Trang 23

▪ FSample < FcritSample (2.782609 < 7.18775)  Chấp nhận yếu tố hàng

 Hàm lượng Sanopin như nhau theo mùa

▪ FColumns > FcritColumns (164.8696 > 5.516299)  Bác bỏ yếu tố cột

 Hàm lượng Sanopin khác nhau theo miền

▪ FInteraction < FcritInteraction (0.695652 < 5.516299)  Không có sự tương tác giữa hàng và cột  Không có sự tương tác giữa mùa và miền

tra các bệnh nhân đau mắt hột được cho trong bảng sau:

Địa phương

Hãy nhận xét xem tình hình đau mắt hột ( cơ cấu phân bố 4 mức độ) ở 3 địa

phương trên có giống nhau hay không, sử dụng mức ý nghĩa 1%

BÀI LÀM 1) Cơ sở lý thuyết:

- Dạng bài: Bài toán kiểm định nhiều tỉ lệ

- Cách làm: Áp dụng hàm CHITEST trong Excel để kiểm định chi bình phương

Trang 24

24

- Cơ sở lý thuyết: Trong thống kê, kiểm định chi bình phương là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê kiểm định tuân theo phân bố nếu giả thuyết không là đúng Chúng gồm:

 Kiểm định chi bình phương Pearson

 Kiểm định chi bình phương Yates

 Kiểm định chi bình phương Mantel-Haenszel

 …

2) Tiêu chuẩn kiểm định:

Với Oij : Tần số thực nghiệm của hàng i, cột j

Với actual range: tấn số thực nghiệm; expected range: tần số lý thuyết

) > ∝ (mức ý nghĩa) thì chấp nhận H0 và ngược lại

Nếu P (X >

3) Giả thuyết kiểm định:

- H0 : cơ cấu phân bố 4 mức độ đau mắt hột ở 3 địa phương là như nhau

Trang 25

25

- H1 : cơ cấu phân bố 4 mức độ đau mắt hột ở 3 địa phương là khác nhau

4) Thực hiện bằng bài toán Excel:

B1: Nhập bảng dữ liệu

B2: Tính tổng các hàng và cột

B3: Tính các tần số lý thuyết theo công thức Eij

Trang 26

) = 6.0949.10-215 <<  = 0.01  Bác bỏ giả thiết H0 Cơ cấu phân bố 4 mức

độ đau mắt hột ở 3 địa phương là khác nhau

Bài 5: Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng

mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:

1) Tìm hệ số tương quan giữa X,Y

2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy

ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ

3) Tìm sai số chuẩn của ước lượng

Trang 27

r = 0,4 - 0,8 tương quan trung bình

r < 0,4 tương quan yếu

r càng lớn thì tương quan giữa X và Y càng chặt

0 < r ≤ 1 : gọi là tương quan thuận (X↑, Y↑)

-1 ≤ r ≤ 0 : gọi là tương quan nghịch (X↑, Y↓)

b) Thực hiện bài toán bằng Excel:

Trang 28

28

B2: Vào Data/Data Analysis/Correlation:

c) Kết luận:

Có r = -0.33787  -1 ≤ r ≤ 0  X,Y tương quan nghịch

2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ

2.1) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?

a) Cơ sở lý thuyết:

- Giả thiết kiểm định:

H0 : X, Y không có sự tương quan tuyến tính ( với mức ý nghĩa ∝ = 0.05)

H1 : X, Y có sự tương quan tuyến tính

Trang 29

29

- Tiêu chuẩn kiểm định:

Với r: hệ số tương quan; n: kích thước mẫu

Xét c là phân vị mức α/2=0.025 của phân bố Student với bậc tự do là n-2=9 Nếu T < c thì chấp nhận giả thiết H 0

- Tính T:

2

21

Trang 30

30

c) Kết luận:

Có T = 1.07694 < c = 2.262157

 chấp nhận giả thiết H0

 X, Y không có sự tương quan tuyến tính

2.2) Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình

vẽ

a) Cơ sở lý thuyết:

B1: Nhập bảng dữ liệu:

Trang 31

31 B2: Vào Data/Data Analysis/ Regression:

Trang 32

32 B3: Kết quả:

Trang 33

33

c) Biện luận:

Phương trình đường hồi quy Y theo X:

Kiểm định hệ số hồi quy:

Pv = 8.07*10-9 (8.07E-09) (P value) < ∝ : hệ số tự do không có ý nghĩa

Pv = 0.309526 > ∝ : hệ số của x có ý nghĩa

Kiểm định phương trình hồi quy:

Fs = 0.309525601 (Significance F) > ∝ : phương trình hồi quy tuyến tính này phù hợp

d) Kết luận:

Phương trình hồi quy tuyến tính:

3) Tìm sai số chuẩn của ước lượng:

Tương tự như trên, ta có sai số chuẩn của ước lượng (Standard Error) là:

Định dạng
Số trang	33
Dung lượng	1,81 MB